본문 바로가기

IT TREND

빅데이터의 핵심은 '빅(Big)'? 빅데이터를 정의하는 네 번째 V의 비밀


과열된 표현들은 사라지기 마련입니다. 시간이 지나면 처음 등장했을 때의 의도나 실제 현장에서의 현실성과는 거리가 멀어지게 되는 것이죠. “빅데이터” 또한 이러한 관점에서 자유로울 수 없으며, 어떤 의미에서는 처음 등장부터 이러한 문제가 내재되어 있었다고도 볼 수 있습니다. 다소 긴 이야기가 될 수 있으나 이번 포스팅을 통해 여러분들도 함께 생각해보는 시간이 되시길 바랍니다.


상대적인 의미를 지닌 용어 - “Big”

데이터가 점점 더 증가할 것이라는 사실에는 반박할 여지가 없습니다. 이러한 관점에서 빅데이터의 규모 자체는 쟁점의 대상이 되지 않습니다. 그러나 “크다(big)”라는 개념은 상대적입니다. 헬스케어 업계에서 보는 빅데이터의 규모와 정유 업계 혹은 금융, 통신, 웹서비스 등 각각의 시장에서 정의하는 빅데이터의 규모는 서로 다릅니다. 따라서 ‘빅데이터’라는 용어는 문맥과 상황에 따라 달라지게 됩니다.


심지어 같은 업종 내에서도 활용 사례에 따라 빅데이터의 정의는 달라집니다. 유류 해양업계에서의 데이터 규모는 PB급에 이르며, 이 정도 규모라면 누구나 동의할 만한 빅데이터라고 볼 수 있습니다. 그러나 일반적인 지상 정유 업계에서 운영 최적화를 위한 데이터 규모는 단 몇 백 테라바이트에 불과합니다. 두 가지 모두 정유업계의 사례이지만 데이터 규모가 서로 상이하며, 다른 업종에서도 이러한 사례를 어렵지 않게 볼 수 있습니다.

“크다”는 개념은 각각의 사람들에게 모두 다르게 받아들여지는 것이죠.





그렇다면, 빅데이터의 핵심은 무엇일까요?


빅데이터의 가치

실제 데이터를 가지고 하는 활동에 대해 생각해 보십시오. 데이터에서 어떤 가치를 획득할 수 있으며, 이전의 데이터들과 “빅데이터”는 어떤 점에서 다르다고 볼 수 있을까요?





데이터에 접근하고 이를 분석하는 방법은 매우 다양합니다. 전체 데이터셋에 대한 접근은 빈번하게 발생하지 않지만, 특정 조건을 만족시키기 위한 “타당한” 순간에 접근 가능해야 하며, 의사 결정을 위해 다시 접근하게 되는 일도 발생합니다. 그리고 그 외의 데이터셋은 안정적인 운영을 지원하거나 수 분 혹은 수 초 이내에 변칙성을 탐지하는데 사용될 것입니다. 이러한 과정을 통해 어떤 데이터셋을 저장할지 결정하고, 분석을 위해 어떤 아키텍처를 사용할지 선택하게 됩니다.

하지만 여전히 “빅데이터”가 어떤 점에서 특별한지에 대해서는 불투명합니다. 생명과학, 정유화학, 제품 설계, 금융 서비스 등 실제 현장의 고객들이 궁금해 하는 것은 데이터의 규모가 얼마나 큰지, 얼마나 신속하게 이를 이동시킬 수 있는가에 대한 것이 아닙니다. 그들은 HPC(High Performance Computing)를 위해 개발된 기술을 통해 이러한 이슈에는 익숙해져 있습니다.

데이터의 분석 및 접근에 필요한 다른 요건들을 만족시키는 것 또한 아주 새로운 것은 아닙니다. 이는 “이미 해결된” 부분이며, 더 많은 비용을 투자한다면 충분히 확장시킬 수 있는 부분입니다. 무어의 법칙에 따라 가격 대비 성능은 지속적으로 개선될 것이며, 이에 따라 비용 이슈는 해결될 것입니다.


비용에 대한 문제?

그러나 데이터를 정확히 이해하고 어떤 식으로 분석할 것인지 이미 결정된 상태라면, 더욱 비용효율적인 솔루션 혹은 최적의 옵션을 고민해 볼 수 있습니다. 이를 통해 전통적인 HPC와 같은 주먹구구 방식의 접근접근 비교하였을 때 비용적인 강점 및 효율성을 개선할 수 있을 것입니다. 실제로 Google은 이러한 시도를 통해 흔히 Hadoop 방식의 분석이라고 알려진 지금의 형태를 완성하였습니다. Facebook 또한 유사한 접근법을 통해 Open Computing을 시도하고 있으며, 이러한 시도들이 현재 우리가 이용하고 있는 서비스에 반영되어 다양한 혜택을 제공하고 있습니다. 





바람직한 사례들이 많지만, 개인적으로는 이러한 접근법들 또한 “빅데이터”의 진정한 가치라고 하기에는 부족하다고 생각됩니다.

업계의 애널리스트들은 “Volume(용량), Variety(다양성), Velocity(속도)”라는 용어를 통해 빅데이터를 정의 합니다. 용량(Volume)에 대해서는 앞서 다루었고, 속도(Velocity)는 용어 그대로 특수한 상황에서 데이터에 얼마나 빠르게 접근할 수 있는지를 의미합니다.


이제 남은 것은?

이제 남은 것은 다양성(Variety)입니다. 실질적으로 빅데이터의 가장 중요한 부분이라고 할 수 있으며, 기존 개념과의 차별성을 나타내는 요인입니다. 






다양한 데이터소스의 다양한 데이터유형에 실시간으로 접근함으로써 분석을 통해 분산된 데이터 포인트 간의 새로운 연관성을 발견할 수 있습니다. 과거에는 거의 불가능하거나 비현실적이었기에 ‘다양성’이 빅데이터를 정의하는 가장 중요한 개념인 것입니다.

아래 그림은 오늘날의 빅데이터가 지니는 가치를 잘 나타내주고 있습니다. 






빅데이터 기술과 풍부한 데이터 수집이 가능한 사물인터넷이 만나 변화의 속도가 점점 더 빨라지고 있습니다. 물론 스마트 기기의 증가로 데이터의 규모와 속도 또한 증가하고 있으나 “빅데이터”에서 가장 중요한 핵심은 여전히 다양성입니다.

헬스케어 산업을 예로 들어보겠습니다. 의료 산업에서는 오랜 기간 동안 대단히 많은 데이터가 생성되어 왔으나 분산되어 있거나 특정 애플리케이션 유형에 한정적인 형태로 사용되어 왔습니다. 데이터 간 연관성을 파악하는 것은 거의 불가능할 정도입니다. 수개월 혹은 수년이 걸릴 정도로 복잡하여 당장 필요한 해답을 얻지 못하므로 실용성이 떨어집니다.

다양한 형태, 히스토리 그리고 환경 및 지역 데이터, 보험 데이터 등 다양한 데이터에 대한 분석을 수행하기 위해서는 이 모든 데이터를 한 곳에 모아 접근할 수 있도록 하는 것이 우선입니다. 이를 리포지토리(Repository) 혹은 데이터레이크(Data Lake)라고 합니다.

그렇다면 이제 실질적인 궁금증을 해결에 볼까요? “X에 대한 위험성이 가장 높은 연령대는?” 빅데이터 분석을 통해 이에 대한 해답을 찾을 수 있습니다. 여러 가지 의료 검사 및 거주지, 나이, 복용 약물, 과거 거주지, 유전자 정보 등 다양한 데이터를 조합하여 분석을 수행할 수 있습니다.


이 결과를 바탕으로 환자들에게 보다 도움이 되는 방안을 사전에 마련할 수 있을 것입니다. 예를 들어 당뇨병의 위험에 처한 사람들에게 미리 건강을 관리할 수 있도록 하거나, 시력을 보호하여 퇴행성 질환을 늦추는 등 다양한 위험 요인들을 피할 수 있도록 도울 수 있습니다.

통신 업계는 어떨까요? 네트워크 정보와 더불어 기상 예보와 같은 외부 데이터를 결합하거나, 트래픽 패턴의 변화를 감지하기 위해 소셜 미디어에서 네트워크 구성을 설정하는 등의 시도가 가능해질 것입니다. 혹은 스마트 시티 환경을 조성하여 인력 현황 및 장비 상태, 외부 데이터 등을 조합하여 폭설을 예측하거나, 교통량을 조절하고, 대규모 행사를 성공적으로 개최할 수 있을 것입니다.

여러 가지 소스를 바탕으로 한 빅데이터 분석의 차별성에 대한 사례는 무궁무진합니다. 더 많은 통찰력을 확보할수록 효율성이 높아지며, 잠재적인 문제들을 미리 피할 수 있습니다. 바로 이러한 부분이 빅데이터를 정의하는 네 번째 V가 됩니다. 바로 “가치(Value)”입니다.