본문 바로가기

IT TREND

빅데이터 프로젝트가 실패하는 이유


“모두가 말하지만, 어떻게 해야하는 지는 아무도 모른다.”


댄 애리얼리(Dan Ariely)가 빅데이터를 일컬어 남긴 이 명언은 다행히도 조금씩 바뀌어 가고 있지만, 여전히 분석에 대해서는 혼란과 좌절이 난무하고 있는 상황이다. 이는 비단 특정 회사만의 문제가 아니다. 많은 기업들이 빅데이터의 활용을 모색하고 있지만, 기술적인 도전과제를 극복할 수 있는 방안에 대해 답을 찾지 못하고 있을 뿐만 아니라 빅데이터 분석을 어떻게 접근해야 하는지에 대해 어려움을 겪고 있다. 


대표적으로 꼽히는 문제 중 하나는 데이터의 복잡성이다. 많은 경우 “바다를 끓이는” 것과 같이 불가능한 방식을 시도하기 때문에 이러한 복잡성을 자초하게 된다. IT 부서의 부담은 증가할 수 밖에 없으며 결국은 해결 불가능한 상태에 이르기도 한다. 데이터 분석이 비즈니스 인사이트에 매우 중요한 역할을 하는 것은 사실이지만, 모든 기업의 고민에 대한 해답을 제시하거나 새로운 기회를 제공하는 만능 솔루션이 될 순 없다. 


복잡성은 또한 기존의 레거시 시스템들이 뒤죽박죽 섞여 있는 환경에서 데이터를 추출하고자 하는 기업들이 겪게 되는 증상 중 하나이다. 실제로 많은 기업들은 앞으로 몇 년 이내에 레거시 시스템들로 인해 고민하게 될 것이며, 이러한 측면에 대한 실질적인 해결 방안을 모색해야 할 것이다. 


또 다른 문제 유발 요인은 잘못 설정된 비즈니스 목표이다. 잘못된 질문에서 시작한다거나 전통적인 방법을 통해 전통적이지 않은 데이터 셋을 얻고자 하는 경우 이러한 결과가 발생하게 된다. 


구글에서 유행성 독감을 예측하기 위해 선보인 이니셔티브 Google Flu Trends의 예를 살펴보면, 잘못된 질문으로 시작된 것을 알 수 있다. “북아메리카에 다음 유행성 독감이 퍼질 시기는 언제일까?”라는 질문으로 시작한 이 프로젝트는, 데이터 분석 결과 2009년 미국 전염병 데이터가 누락되어 이후 조사결과에도 계속해서 영향을 미친 것으로 나타났다. 결국 이 프로젝트는 2013년 종료되었다. 


이후 실시된 한 연구 조사에 따르면, 만일 “지진 빈도와 구글 검색어가 말하고자 하는 바의 의미는 무엇일까?”라는 전제로 분석이 행해졌다면 더 나은 프로젝트가 되었을 것이라고 추측하기도 했다.





단순함이 산을 옮긴다

미국의 유명 시인 롱펠로(Longfellow)는 “글, 매너, 스타일, 모든 것에서의 최고는 단순함이다”라고 했다. 너무도 많은 사람들이 단순함을 떠올릴 때 포부 및 성취 부족으로 결부시키곤 한다. 그러나 사실 단순함은 비즈니스의 가능성을 무한으로 이끌어 올리는 열쇠가 된다. 스티브 잡스(Steven Paul Jobs) 또한 ‘단순함’이 산을 옮길 수 있다고 강조했다. 


최근 몇 년간 기술은 복잡함 대신 단순함을 지향하며 발전해 왔다. 하지만 결코 백엔드가 복잡하지 않다는 것을 의미하지는 않는다. 직관적인 사용자 경험을 개발하기 위해서는 오히려 상당히 많은 노력이 요구된다. 


Microsoft Word에서도 이러한 사실을 확인할 수 있다. 한 글자씩 타이핑 할 때마다 컴퓨터와 저장매체에서 트랜지스터가 켜지고 꺼지고를 반복하며, 전압이 계속해서 변화한다. 사용자가 접하는 것은 단지 하나의 문서이지만, 그 배경에는 다양한 기술적 요소들이 움직이는 것이다.



추상화 계층으로 바다 온도를 낮추자

데이터에서 유의미한 정보를 추출하기 위해서는 3가지가 요구된다. 바로 데이터 엔지니어링, 비즈니스 지식, 데이터 시각화이다. 이 모든 것을 만족시키기 위해서는 막강한 코딩 능력자, 비즈니스 센스가 넘치는 사람, 해당 업계에 대해 광범위한 지식이 있는 관계자, 천부적인 수학 천재, 그리고 절대적인 관리 역량과 커뮤니케이션 스킬을 가진 사람들로 구성된 최강 팀이 있어야 할 지 모른다. 


하지만 우리는 기술을 통해 이 모든 과제들을 전산으로 해결할 수 있도록 플랫폼을 구축할 수 있다. Pentaho의 강력한 데이터 엔지니어링•관리•분석 플랫폼이 탄생하게 된 배경도 바로 여기에 있다.


물론 위험 부담의 측면도 존재한다. 아무리 복잡성을 제거하고 데이터 플랫폼을 간소화시키더라도, 데이터 전문가는 필수 요소이다. 데이터 사이언티스트는 하둡(Hadoop) 노하우를 습득하기 위해 3년씩이나 시간을 허비할 필요는 없지만, 이들 역시 빅데이터 프로젝트의 주요 과제에 대해서는 정확하게 이해하고자 하는 노력을 쏟아야만 한다. 


Pentaho는 비즈니스의 방향성과 방법론을 제시할 뿐이며, 어떤 질문에서 시작해야 하고, 어떤 대답을 기대할 수 있는지에 대한 고민은 전적으로 기업에 달려있다.



성공적인 빅데이터 프로젝트

그러나 위의 이유들로 빅데이터 프로젝트가 중단되었든 혹은 실패하였든, 이를 계기로 비즈니스의 성장과 변혁을 시도해 볼 수 있다. 


미국 증권 회사 간 자율 규제 기구인 금융산업규제기관(Financial Industry Regulatory Authority)의 예를 통해 살펴보자. 해당 기관에서는 Pentaho를 사용하여 계속해서 쌓여가는 데이터 속에서 정확한 포인트를 찾아낼 수 있었다. 모든 애널리스트들은 이 기관에서 운영하는 데이터 레이크에 접근하여 거래 위반 사항들을 찾아낼 수 있게 되었으며, 특히 프로세스 자동화를 통해 이 과정은 10배에서 최대 100배까지 빨라졌다. 즉 시간 단위에서 가능했던 일이 초 단위로 바뀐 것이다. 간소화 뿐만 아니라 데이터 제어 역량을 확보하게 된 금융산업규제당국은 2015년 불법 부과된 중개 수수료 9,620만 달러를 회수할 수 있었으며, 이는 2014년 대비 3배에 가까운 금액이었다. 


유사한 사례로 Pentaho를 통해 8척의 선박을 소유한 고객의 예인선 엔진 고장을 차단하여 수명을 연장시킴으로써 매년 낭비되는 연료 비용 2백만 달러를 절감한 Caterpillar Marine Asset 관련 포스팅 또한 참고해 볼 만하다. 


빅데이터 프로젝트가 복잡할 필요는 없다. 단순함을 기반으로 시작될 때 비로소 혁신의 단초를 제공할 수 있을 것이다. 어려운 일은 기술에 맡겨두고, 단순함에 집중하자.