본문 바로가기

IT TREND

데이터 이해하기: 금덩어리인가? 퍼즐 조각인가?



데이터 분석의 가치를 설명할 때 “커다란 단지에 가득 찬 금 덩어리”라는 표현이 사용되곤 한다. 매우 직관적으로 쉽게 이해할 수 있는 표현이다.



대부분의 청중들은 금의 가치를 잘 알고 있으며, 누구나 한번쯤 금맥을 발견하기를 소망할 것이다. 하지만 막상 상당량의 금 덩어리를 발견한다면 어떨까? 아마도 엄청난 무게의 금을 쉽게 옮길 수 없을 것이며, 커다란 단지에 우선 보관해 두려고 할지 모른다. 혹은 아일랜드의 황금요정 레프리콘처럼 땅 속에 오랫동안 묻어놓고 때때로 회상하며 즐거움을 간직하는데 그칠 수도 있다. 어쩌면 이 글을 여러분도 “어떤 블로그에서 봤는데, 데이터 분석의 가치를 단지에 담긴 금덩이 비유하는 바보가 있더라”며 필자를 비웃을지도 모른다. 설령 그렇다 하더라도 그것 또한 반길 일이다. 반복적으로 언급된다는 것은 컨텐츠의 수명이 늘어나는 일이기 때문이다.



그러나 불행하게도 데이터 분석을 황금에 비유하는 것에는 여러 가지 허점이 존재한다. 그 이유는 다음과 같다. 




• 데이터는 생성된 즉시 가치를 가지며, 보유하고 있는 한 소멸하지 않는 이상 가치를 유지한다. 

-> 논쟁의 여지가 없음


• 데이터의 최종 포맷은 삭제되거나 장기간 아카이빙 될 수 있으며, 그 효과는 동일하다. 

-> 사실임


• 데이터의 가치는 시간이 흐르며 변한다. 

-> 동의할 수 있음


• 기존의 데이터에 새로운 데이터를 더하면 더 많은 기회가 생겨나며, 잠재적으로 지속적인 가치를 발굴해낼 수 있다. 

-> 가능성은 있음


• 이 잠재적인 가치는 정의할 수 없는 수량의 금 덩어리로 표현할 수 있다. 

-> 굳이 주장한다면 그럴 수 있음


• 많은 데이터를 보유할수록, 더 많은 금 덩어리를 발견할 수 있으며, 보관하기 위해서 더 많은 단지를 확보해야 한다. 

-> 다소 비약적임


• 많은 데이터를 보유할수록, 보다 정확한 통계모델 및 수학 모델을 확보할 수 있으며, 더 많은 금덩이를 찾아낼 기회를 발굴할 수 있다. 

-> 조금 복잡한 문제이기 때문에 단정할 수 없음




이러한 은유법의 근본적인 문제는 데이터 수집이 가치 획득으로 직결된다고 말하는 데에 있다. 예를 들어 어떤 고객의 다양한 정보를 보관한다고 할 때, 하나 혹은 그 이상의 요소에 가치 있는 답변이 숨겨져 있을 수 있다. 어떤 필드 값에 숨겨져 있을 수도 있고, 어떤 열이나 행에 담겨 있을 수도 있다. 




• 데이터베이스 관점에서의 데이터는 하나의 필드이자, 열이나 행이고, 서로 연관성을 갖지 않는다. 수집 그 자체 이상의 의미나 가치를 보유하고 있지 않으며, 어떤 맥락도 제공하지 않기 때문에, 그 자체로는 그 어떤 문제도 해결할 수 없다. 


• 비정형 데이터 관점에서의 데이터는 바이트 단위의 바이너리(Binary) 정보에 불과하기 때문에 아무런 가치를 제공하지 않는다. 전체 데이터에 포함된 1비트를 알고 있다고 해서 전체 그림에 영향을 미칠 수는 없다. 


• 정보의 흐름 속에서 발견되는 특정 시점의 데이터는 사용되는 그 즉시 오래된 데이터가 되며, 더욱 더 최신의 데이터일수록 더욱 더 리얼한 현실을 반영한다. 




‘금 덩어리’ 비유를 확장시켜 보자. 아래의 질문에 바로 떠오르는 답변을 빈칸에 적어보자. 그러면 행동 예시들로 데이터의 가치에 대한 연관성을 찾아볼 수 있다. 이해를 돕기 위해 임의로 필자가 답을 달도록 하겠다.




• 한 통에 담긴 이쑤시개의 개수는? 173


• 빨간색 바지와 가장 잘 어울리는 셔츠 색깔은? 빨간색 바지를 입을 일이 없다


• 작년에 같은 수업을 들었던 수염이 덥수룩한 그 친구의 이름은? 동규, 도저히 잊을 수 없는 이름!


• 5달러 이하의 돈을 소비할 예정이라면, 계좌에 5달러 이상은 있어야 할 것이다.


• 이 제품을 더 많이 만든다면, 이 제품을 더 많이 팔 수 있다.




이 혼란스러운 문답의 교훈은 ‘개별적인 데이터 요소들이 가지고 있는 가치는 크지 않다’는 것이다.


여러분의 기업을 포함하여 모든 기업들이 EIM(Enterprise Information Management; 기업 정보 관리) 프로그램을 운영하고 소중한 기술 자산인 데이터의 관리를 담당하는 CDO(Chief Data Officer; 최고 데이터 책임자)를 두어야 하는 이유가 바로 여기에 있다. 


기업 정보 관리(EIM)은 정보 자산의 구성 및 기술, 거버넌스를 모두 통합할 수 있는 접근법으로써, 조직 내 전체 바운더리에 대한 효율성과 투명성(Transparency)을 개선하고 통찰을 확보할 수 있도록 한다. 이러한 프로그램에는 데이터의 보관, 보호, 아키텍트, 리스크 관리, 컴플라이언스, 품질 관리, 분류 등의 기능이 포함되며, 최적의 EIM은 정보에 담긴 가치와 통찰을 어떻게 끌어낼 것인지에 중점을 두고 설계되어 내부적인 효용성은 물론 성장을 위한 목표 달성을 지원해야 한다. 


그러나 CDO(최고 데이터 책임자) 혹은 비즈니스 인텔리전스 담당자가 데이터를 이해하는 것과 데이터를 형성하는 요소를 이해하는 것의 가치는 서로 다르다. 그들은 데이터의 패턴을 발견하고 변화와 시간으로 인한 영향을 이해함으로써 가치를 확보할 수 있으며, 데이터를 그저 발견하는 것이 아니라 보다 풍부하게 하는 것을 의미한다. 이 과정에서 가치를 확보하기 위해서는 다음과 같은 4가지의 단계를 거쳐야 한다. 




• 기술: 경영정보시스템(MIS) 혹은 리포팅 등 이미 일어난 일에 대한 분석


• 진단: 현재 상황에 대한 인사이트 및 사건 발생의 원인을 파악하기 위한 비즈니스 인텔리전스(BI), 사고 관리(Incident Management)


• 예측: 과거 데이터 및 애플리케이션과 신규 데이터 간의 통합 분석 모델을 통한 향후 전망


• 제안: 분석 및 실행, 통찰 알고리즘을 통한 비즈니스 전략 수립 








EIM 프로그램은 오랫동안 접근하지 않았던 데이터 혹은 특정 영역의 데이터에서 가치를 발견하는데 적합하지 않다. 대신 정적인 패턴을 연구하거나, 변화하고 이동하는 정보 혹은 이들 간의 상관관계, 수학적이고 논리적인 모델에 대한 이론적인 응용 등에 집중하여 데이터 중심적인 요소에서 비즈니스 가치를 창출해낸다. 과학에 보다 가까운 것이다. 즉 막연하게 금 덩어리를 찾는 것보다는 금으로 된 귀금속을 가지고 경제적인 이득을 취하는 과정으로 이해해야 한다. 


그렇다면 이제 발상의 전환을 통해 새로운 은유법을 생각해보자. 고가의 금덩어리 없이도 가치를 이해할 수 있다. 







퍼즐 더미를 상상해 보자. 각각의 조각이 하나의 데이터 포인트이며, 이 조각들은 다양한 소스를 통해 수집된 것이라고 가정했을 때, 이 데이터의 가치를 확보하기 위해서는 데이터 큐레이션을 위한 몇 가지 준비과정을 거쳐야 한다. 



• 추출: 집 안의 모든 퍼즐 조각에 대해 이해해야 한다. 침대 밑, 진공 청소기 안, 반려동물의 밥그릇 안 등 곳곳에 있는 조각들, 즉 외부와 내부, 혹은 정형, 비정형 등 다양한 소스의 정보를 이해하고 분류해야 한다. 

• 통합: 모든 사람들을 동원에서 퍼즐 조각을 한 곳에 모아야 한다. 배치 파일은 물론 실시간 통합 및 ETL 등 모든 소스의 데이터를 통합해야 한다.

• 강화 및 정제: 각각의 조각에 붙은 먼지를 떼어내, 그림 뒷면에 풀을 붙이고, 끝을 다듬어 두고, 조각 숫자를 확인해야 한다. 데이터의 매칭 및 검증, 적절한 메타데이터의 추가 등이 바로 이러한 작업이다. 

이러한 과정을 통해 날 것의 데이터는 비로소 컨텐츠가 되며, 설명할 수 없는 필드가 설명할 수 있는 오브젝트로 재탄생하게 된다. 단순히 쌓아놓는 것이 아니라 박스 안에 정리해두는 것이다. 






박스는 즉 컨텐츠 플랫폼으로, 기업에서는 모든 데이터를 보관해두는 오브젝트 스토리지와 데이터 각각의 소스에서의 추출을 위한 데이터 모빌리티, 다양한 배치 모델 활용을 위한 클라우드 게이트웨이를 한군데 통합한 형태가 된다. 그리고 메타데이터 태그 추가 및 상세 검색 기능을 통해 완벽하게 통합되고 심플하며 스마트한 데이터 인텔리전스 솔루션이 완성된다. 이러한 형태의 접근 방식은 ‘데이터 레이크(Data Lake)’라고 하는 용어로 통용되고 있으며, 실제로 이를 완벽하게 지원하는 제품이 최근 출시되기도 했다. 

새롭게 강화된 데이터 셋(=퍼즐조각)을 컨텐츠 플랫폼(=퍼즐박스)에 보관함으로써 가치 창출을 위한 EIM(=퍼즐 완성)이 구현될 수 있다. 



• 기술: 퍼즐 조각에 대한 리스트를 작성하고, 모양과 색깔 등을 분류하여 어떤 조각들로 어떤 퍼즐을 완성 시킬 수 있는지 생각해 볼 수 있다. 

• 진단: 퍼즐 완성을 위해 현재 상태를 시각화 해야 한다. 프로세스가 얼마나 걸릴지, 혹은 잃어버린 조각이 있는지 등을 확인할 수 있다. 

• 예측: 조각이 아직 박스에 있는 상태에서 어떤 그림을 완성해야 하는지 확인하고, 잃어버린 조각을 감안했을 때 어떤 그림이 완성될지 예측해 볼 수 있다. 

• 제안: 동일한 퍼즐 조각으로 수없이 많은 새로운 그림들을 완성시킬 수 있으며, 기존 퍼즐과 새로운 퍼즐을 비교할 수 있다. 



예측과 제안 분석 시 선형적인 혹은 비선형적인 알고리즘이 사용될 수 있으며, 이를 통해 현재 존재하는 퍼즐 조각에 좀 더 집중할 수 있을 것이다. 그리고 잃어버린 조각에 대해서는 잠재적인 소스의 조각을 활용하여 색다른 작품을 수없이 만들어 낼 수 있다. 



즉, 데이터의 이해와 분석을 통한 가치는 ‘금 덩어리’를 찾아내는 것에 비유할 수 없다. 혹은 각각의 퍼즐 조각이 문제를 해결하는 것 또한 어렵다. 데이터의 이해와 분석의 가치는 가지고 있는 모든 퍼즐 조각을 활용해 만들 수 있는 수많은 그림들과 같으며, 이는 곧 막대한 경제적인 가치로 이어진다. 

컨텐츠 플랫폼의 중요성에 대한 근거는 셀 수 없이 많다. Hitachi Content Platform(HCP)을 사용하여 비즈니스 인사이트와 거버넌스를 구축한 Spinmaster의 사례, 혹은 - 중요한 데이터 자산을 보호하는 동시에 애플리케이션 인프라 비용을 최적화 하여 Pay-as-you-go 서비스를 제공하고 있는 ThinkOn의 사례를 참고해 보자.

Hitachi Content Platform(HCP)은 솔루션 에코시스템을 완벽하게 통합하여, 고객들이 최적의 비즈니스 가치를 확보할 수 있도록 하는 기반을 제공한다. 데이터는 모든 산업군의 모든 기업들에게 생명과도 같은 존재가 되었다. 임직원에 대한 데이터, 고객 정보, 내부 커뮤니케이션, 지적 재산, 머신 데이터, 연구 자료 등 모든 종류의 데이터에 대한 제어, 가시성, 거버넌스, 협업, 접근성, 분석에 모든 역량을 집중해야 할 때이다.