본문 바로가기

TECH ZOOM

기업 데이터의 재발견, 히타치 밴타라의 ‘가치 창출 위한 데이터 방법론’


많은 기업들은 지금까지 차별화의 핵심이 ‘IoT(사물인터넷)’에 있다는 점을 확신시키기 위해 노력해왔다. 그러나 IoT는 솔루션이 아니라 최종 단말까지 커뮤니케이션을 확대하기 위해 설계된 하나의 아키텍처다. 클라우드가 기업의 데이터센터 외부로까지 컴퓨팅 파워를 확대하는 것과 크게 다르지 않다. 진정으로 데이터를 트랜스포메이션의 촉매로 활용하고 싶다면 좀 더 깊게 파고들 필요가 있다.


데이터 들여다보기

FACT 01

기업 데이터의 종류는 핵심 애플리케이션에서 생산되는 비즈니스 데이터, 업무 효율성 향상을 위한 소프트웨어를 통해 확보된 휴먼 데이터, 그리고 각 단말기에서 직접 추출한 머신 데이터에 이르기까지 다양하다. 많은 기업은 이미 자체적으로 처리하기 어려울 정도로 많은 방대한 양의 데이터를 보유하고 있다. 문제는 전통적인 비즈니스 데이터에 비해 휴먼 데이터는 10배 이상, 머신 데이터는 50배 이상 빠르게 증가한다는 데 있다(그림 1).


(그림 1) 데이터 증가 추세



FACT 02

급증하는 휴먼 데이터는 대부분 사진, 동영상, 오디오 등 ‘비정형화 된’ 파일 형식이다. 이런 데이터는 메타데이터를 갖고 있는 경우가 드물기 때문에 검색, 필터링, 목록화가 상당히 어렵다.


FACT 03

머신 데이터는 몇 년에 걸쳐 빠르게 온라인화 되었으며, 유용성을 확보하고 다른 휴먼 및 비즈니스 데이터와 연계하려면 통합(Integrate)과 혼합(Blend) 과정이 필수적이다.


FACT 04

데이터의 진정한 가치는 애플리케이션에서 데이터를 분리한 후 다른 시스템에서 추출한 유사 데이터와 연계할 때에만 빛을 발할 수 있다. Oracle HR(Human Resources) 기록과 CCTV 시스템의 연계 혹은 SAP 기록과 실시간 SNS 데이터의 연계 등이 그 예이다.


FACT 05

각각의 데이터를 연계해 넘쳐나는 데이터를 수익으로 전환시키기 위해서는 업계의 특성과 연계성에 대한 충분한 이해가 전제되어야만 한다. 각 산업에 대한 인간의 전문 지식을 대체할 수 있는 플랫폼은 이 세상에 존재하지 않는다는 단순한 사실에서 출발하라. 관건은 산업 지식을 활용해 엔드 솔루션으로 산업 환경을 통합시킬 수 있느냐에 달려 있다.


데이터에 숨을 불어넣다

‘Data Stairway to Value(가치 창출 위한 데이터 방법론)’는 히타치 밴타라가 지난 50년 이상 최고의 IT 인프라를 제공하면서 얻어낸 일종의 노하우로, 고객이 더 간단한 방법으로 데이터에서 가치를 찾아내 비즈니스 성과를 향상시켜 궁극적으로 사회 전체 발전에 기여할 수 있도록 한다. 데이터를 가치로 전환하기 위해 거쳐야 할 과정을 계단에 빗대어 단계를 나누고 있다. 그 중 이번 글에서는 모든 기업이 원하지만 원하는 만큼의 성과는 얻고 있지 못하는 두번째 계단인 ‘활성화’ 단계를 짚어보고자 한다.


(그림 2) 히타치 밴타라의 ‘가치 창출 위한 데이터 방법론’




(그림 3) 전통적인 데이터 아키텍처


그 중에서도 ‘활성화’ 단계는 (여러분이 지금 수행하고 있거나 혹은 그렇지 않은) 데이터 통합, 분석, 머신러닝, 데이터 사이언스 그 자체를 의미한다. 위 2개의 그림을 보자. (그림 3)는 기존의 전통적인 방법이고, (그림 4)은 현재의 데이터 아키텍처다.

복잡성이 먼저 눈에 띌 것이다. (그림 3)과 같은 전통적 아키텍처에서는 데이터를 하나의 관계형 소스에서 연관성이 있는 타겟으로 옮긴다. 물론 이를 일종의 데이터 트랜스포메이션이라 할 수 있겠지만, 통합, 결합, 기능 등 그 어떤 것 하나도 간단한 게 없다.

문제는 현대 아키텍처에서는 데이터 종류, 소스, 목적지, 분석 프로세스 등 접근 방식부터가 기존과는 완전히 다르다는 것이다. 현 시점에 발생하는 문제들을 해결하기 위해서는 그에 맞게 새로이 개발된 새로운 툴들이 필요한 법이다. 현 시점의 아키텍처에서 절대적으로 중요한 것은 데이터 통합과 엔지니어링이며, 자연스레 그에 맞는 현대적인 툴 또한 필요하게 된다.


수작업 코딩 대신 드래그 앤 드롭

직접 코딩을 해 본 담당자라면 누구나 경험이 있을 것이다. 임시 테이블에 버려진 수많은 소스에서 데이터를 추출해 수백 줄의 코드를 생성한 후, 몇 가지 결과물을 산출한 뒤 리포팅 테이블에 버렸던 경험 같은 것들 말이다. 이 작업은 끝도 없이 계속 반복 된다. 오타라도 입력하게 되면 전체에 문제가 발생하고, 에러 발생 지점을 찾아내기 위해 또 골머리를 앓을 것이다. 수작업 코딩을 할 필요 없이 간단한 드래그 앤 드롭 만으로 모든 종류의 커넥터를 파악할 수 있다면 소요 시간을 획기적으로 단축할 수 있고, 줄어든 시간을 다른 생산성 높은 일들에 할애할 수 있다.


(그림 4) 현대의 데이터 아키텍처



스트리밍 데이터를 간과해서는 안 된다

방금 언급한 것처럼 수백 줄의 코드를 생성하는 데는 수많은 시간이 소요된다. 개발자는 코딩 작업이 완료될 때까지 몇 시간이고 기다려야 하고, 작업이 끝나면 해당 데이터의 정확성 여부를 조사해야 한다. 문제가 전혀 발생하지 않기를 바라면서 말이다. 무수한 기다림을 피할 수 없는 그리고 자칫 모든 것이 날아가버릴 수도 있는 과거의 방식에서 벗어나, 데이터 플로우의 모든 단계에서 검사를 수행해 에러를 수정할 수 있게 된다는 사실은 엄청난 강점이 될 것이다.


현 시대에 맞게 구축하라

기업에서 핵심 애플리케이션으로 꼽히는 기존의 ETL 툴들은 아마도 비정형 데이터, 에지 데이터, 실시간 혹은 하둡(Hadoop) 환경에 적합한 툴이라고 보기는 어렵다. 이 모든 환경을 지원하려면 기존의 레거시 툴들은 새롭게 탄생되어야 한다.

펜타호는 이 모든 문제를 해결해준다. 모든 단계의 데이터가 시각화되어 직접 확인할 수 있고, 수백 줄의 코드를 손수 생성할 필요 없이 드래그 앤 드롭 후, 작업이 끝날 때까지 기다리기만 하면 된다. 펜타호는 현 시대에 맞게 설계된 솔루션이기에 하둡(Hadoop), 스파크(Spark) 등과도 매끄럽게 연계된다. 기업 내 IT 담당자들은 수년 전에 부딪쳤던 문제가 아니라 지금 현재 부딪치고 있는 문제를 해결할 수 있게 해주는 툴을 사용해야만 한다.

세상은 변하고 있으며, 더 이상 관계형의 순차적 세계에서 작업할 이유가 없다. 레거시 문제를 해결하기 위해 개발된 툴이 현재 부딪치고 있는 문제도 해결해줄 것이라고 기대하지 않는게 좋다.