본문 바로가기

IT TREND

놓치지 말자! 빅데이터 프로젝트 성공 위한 6가지 체크리스트




빅데이터의 이점을 더 빠르게 현실화할 수 있는 방법이 있을까.

다행히 빅데이터 분석과 관련한 기술이 업그레이드 되면서 통합과 사용의 편리성이 높아지고 있고, 청사진과 템플릿 형태의 가이드도 추가돼 더 광범위한 규모에서 전략과 비즈니스 의사결정을 할 수 있게 되었다.

비즈니스 인텔리전스 및 데이터 웨어하우징 분야의 전문 연구기관인 The Data Warehouse Institute(이하 TDWI)는 빅데이터 프로젝트를 어떻게 시작하고 관리해야 더 빠르고 더 쉽게 원하는 목표에 도달할 수 있는지에 대한 6가지 체크리스트를 발표했다. 이러한 이슈 점검을 통해 조금 더 수월하게 놀라운 성과를 얻을 수 있는 방법을 찾을 수 있기를 기대한다.


CHECK 1

명확한 목표를 설정하고 신속하게 이점을 제시하라

비즈니스 성과를 얻기 위해 소요되는 시간을 절감하게 될 것이다

데이터에서 확보된 통찰력을 실제 비즈니스에 적용하고자 한다면 가능한 빨리 시작하는 게 좋다. TDWI에 따르면 비즈니스 가치 실현에 소요되는 기간을 단축하는 데 방해되는 장애 요소는 2가지다. 빈약한 프로젝트 정의와 범위 설정, 그리고 담당자의 전문성 부족이다. 그러나 두 가지 모두 솔루션을 통해 해결이 가능하다.

먼저 비즈니스 분야를 신중하게 정의하고, 빅데이터 프로젝트가 매출 및 시장점유율 증가, 비용 절감, 파트너 혹은 고객에 대한 신제품 출시 등의 주요 목표에 어떻게 도움이 되는지 설명하는 것이다. 이 단계에서는 분석과 머신러닝을 위해 IT 기술과 거리가 있는 일반 사용자가 데이터와 교감할 수 있도록 해야 한다. 이 때, ETL1)이 지원되며 사용이 편리하고 시각적인 데이터 통합 검색 툴이 상당히 유용하다. 이 툴을 사용하면 전문가를 새로 채용할 필요가 없고, 사내 데이터 사이언티스트와 분석가들이 데이터 검색과 준비에 투자하는 시간도 상당히 줄어든다. 협력 업체를 대상으로 데이터 집약적 애플리케이션을 이용한 분석 서비스도 판매할 수 있다. 데이터의 수익화가 가능하다는 얘기다.

프로젝트가 시작되고 나서 다음 단계는 지속적인 이익을 창출하는 일이다. 기존의 BI와 데이터 웨어하우징은 프로젝트 개발에만 수개월, 심지어 수년이 소요된다. 이 때문에 초기에 설정한 목표에 맞춰 프로젝트가 완료된다 하더라도 정작 활용할 시점에는 사용자 요구사항이 바뀌어 있는 경우가 많다. 개발 주기 단축을 지원하는 방법을 진지하게 고민해야 하는 이유가 이 때문이다. 강력한 팀워크가 있어야 사용자가 더 많은 데이터 검색, 개발자에 대한 피드백 제공, 다음 단계 반복 테스트 등 중간 단계의 결과물들을 충분히 내놓을 수 있다.

적합한 툴은 반복적인 작업 속에서 다양한 테스팅과 협업을 통해 프로젝트 범위를 조절할 수 있고, 프로젝트 팀은 변화하는 비즈니스 수요에 맞춰 프로젝트를 발전시킬 수 있는 민첩성을 확보할 수 있다는 점에서 든든한 지원군이 된다.


CHECK 2

청사진과 템플릿을 적극 사용하라

기획을 단순화하고 가치에 집중할 수 있게 될 것이다

빅데이터 분석의 잠재력에만 매료돼 기업들이 종종 저지르는 실수가 하나 있다. 어떤 방식으로 리소스를 취합해 가치를 창출할 것인지 충분한 계획을 수립하지 않고 곧바로 기술부터 구현하려고 하는 것이다.

예를 들어 거래, 행동, 소셜 미디어 등 기업 내 각 부문의 고객 데이터를 통합할 수 있다면 고객 선호도와 관련해 더 심도 깊은 통찰력을 확보할 수 있고, 이를 통해 영업과 마케팅 캠페인도 강화할 수 있다. 그러나 이러한 과정은 기존의 BI와 데이터 웨어하우징 시스템에서는 불가능하다. 따라서 프로젝트 팀은 그 즉시 빅데이터를 모두 추출해 사내 데이터레이크 또는 클라우드로 옮기려 할 것이다.

여기서 한 가지 아쉬운 점은 실제 작업을 수행하기 전에 어떻게 데이터를 통합하고 운영해야 이후 더 편리하게 가치를 발견할 수 있는지를 충분히 고민하고 계획을 세우지 않는다는 점이다. 이렇게 되면 결국 경영진이 실망하게 되고 해당 프로젝트가 실제로 어떤 이점을 주는지에 대해서까지 의구심을 품게 될 수 있다.

프로젝트에 대한 템플릿과 청사진이 있다면, 유사한 과거 사례는 어떤 것들이 있는지, 서로 다른 종류의 다양한 리소스는 어떻게 통합하는지, 기업별로 현 상황에 맞게 커스터마이징하려면 무엇이 필요한지 등을 파악할 수 있다. 검증된 프로세스와 통상적인 업무가 있다면 시간과 비용 절감이 가능하다는 말이다.

템플릿과 청사진은 솔루션 벤더, 컨설팅 업체, 관련 산업협회, 일부 아파치 오픈소스 프로젝트 등에서 얻을 수 있다. 청사진과 템플릿을 사용해 먼저 프로젝트의 큰 그림을 그린다면, 360도 관점에서 고객을 파악하고 프로젝트 성과의 마케팅, 영업, 고객지원 적용 등 보다 구체적인 사안들에 초점을 맞출 수 있다. 더 나아가 성과 달성에 필요한 요구사항을 조정하고 할당하는 데도 유리하다.


CHECK 3

최적의 플랫폼을 사용하라

데이터 통합과 변환 단계를 위해서는 더욱 필수적이다

빅데이터 레이크는 그 내용와 목표를 신중하게 고민하지 않는다면 한 순간에 쓰레기장으로 변할 수 있다. 이는 사내에 있든, 클라우드에 있든 마찬가지다. 물리적인 위치에 상관없이 미가공 상태의 다양한 데이터가 혼재하는 ‘데이터 레이크’가 분석 및 머신러닝 알고리즘 실행을 위해 데이터를 보관하기 좋은 장소라는 사실은 이미 입증된 바다. 그러나 원하는 성과를 얻으려면 이를 단순한 저장소 이상으로 관리해야만 한다. 데이터 레이크에 어떤 기술을 선택할 것인지는 달성하고자 하는 목표가 무엇인지에 따라 달라질 수 있다.

로그파일, 웹서버, 고객센터 시스템, 거래 시스템, 머신 데이터 소스등 어느 소스에서 데이터를 가져올 것인지가 일단 결정되면, 미가공 데이터를 취합해 데이터 레이크로 전송하고 사용 가능한 형태로 변환하기 위해 하둡 또는 스파크의 컴퓨팅 파워를 사용한다. ETL은 고성능의 인프라에서 데이터를 기록하도록 설계돼 있으므로 기업 입장에서는 자체 보유한 데이터베이스 소스에 대해 ETL을 작동시키는 일은 가급적 피하고 싶을 것이다. 따라서 데이터의 위치에 관계 없이 ETL과 기타 리소스 집약적인 데이터 준비 업무들을 비용이 더 적게드는 빅데이터 시스템으로 어떻게 오프로딩할 것인지 충분히 검토해야 한다. 데이터량과 복잡성의 증가로 인해 적합한 툴을 통해 더 나은 속도와 지속성이 보장될 수 있도록 데이터 처리, 취합, ETL 프로세스를 자동화, 표준화하는 것은 이제 필수가 되어버렸다.

일부 데이터 사이언티스트와 분석가들은 사용자가 원하는 데이터는 미가공 상태의 ‘지저분한’ 데이터라고 주장한다. 하지만 대부분의 프로젝트에서 원하는 데이터는 깨끗하고 지속성이 보장되는 데이터다. 머신러닝 알고리즘을 짤 때 더 나은 품질의 데이터를 사용한다면 훨씬 더 유용한 성과를 얻을 수 있기 때문이다. 기업은 ETL 및 데이터 정제 프로세스를 조정하고, 데이터 처리, 수집, 통합이 진행되는 동안 빅데이터 시스템을 어떻게 사용할 것인지에 대한 청사진과 템플릿을 만들어야 한다. 이렇게 하면 필요할 때 즉각 사용할 수 있는 데이터 레이크를 확보할 수 있다.


CHECK 4

활발한 데이터 정제는 필수다

데이터가 갖는 잠재적인 가치를 이끌어낼 수 있을 것이다

취합된 데이터를 사내 혹은 클라우드 상의 데이터 레이크(또는 빅데이터 레파지토리)에 보관하는 기업이 많아지면서, 신속하게 데이터를 정제해 프로젝트 요구에 적합한 형태로 바꿔주는 것이 중요 과제로 부상하고 있다. 보강, 변환, 데이터 품질 및 지속성 향상을 위한 데이터 준비 단계가 포함된 ‘데이터 정제’ 단계는 지금까지 대부분 수작업이었기에 가치 있는 데이터로 전환되기까지 너무나 많은 시간이 소요됐다. 그러나 현재는 자동화할 수 있는 툴이 많아졌다. 프로그래밍을 하지 않고 GUI만으로도 가능한 셀프 서비스 기능도 탑재되어 데이터 전문성이 부족한 사용자도 쉽게 사용할 수 있다.

데이터 준비 및 정제 과정에 있어, ‘데이터 카탈로그’와 ‘메타데이터 레파지토리’는 중요한 핵심 기술이다. 서로 다른 소스에서 취합된 다양한 데이터셋이 어떤 연관성을 갖고 있는지에 대해 정확하고도 가장 최신의 포괄적인 정보를 제공하기 때문이다. 데이터를 정의하고 서로 다른 데이터셋 간 연관성을 파악하려면 데이터의 내용을 가장 잘 파악하고 있는 전문가가 데이터를 입력해야 한다. 이 부분 역시 데이터 카탈로깅 기반의 솔루션을 통해 자동화될 수 있다. 더 나아가 머신러닝을 통해 방대한 규모의 데이터에서 데이터 정의와 연관성을 학습해 데이터 카탈로그의 형태로 사용자에게 전달될 수도 있다.

데이터의 ‘정제-준비-카탈로그화’ 프로세스는 빅데이터 레이크를 신속한 리소스로 전환시키기 위한 필수 단계로, 예측 기반 분석과 머신러닝이 다양한 요구에 신속하게 부응할 수 있도록 해준다. 이를 통해 기업은 빅데이터 레이크를 단순히 데이터를 한 장소에서 다른 장소로 이동시키는 수단이 아니라 데이터에서 가치를 발견해 자원으로 전환시키는 수단으로 재탄생시킬 수 있다.


CHECK 5

다양한 데이터를 중앙집중화 하라

그래야만 비로소 혁신적인 애플리케이션을 잘 활용할 수 있게 될 것이다

경쟁에서 한발 앞서고 싶다면 기존 시스템을 뛰어넘는 혁신적인(혹은 데이터 집약적인) 애플리케이션과 서비스가 필수적이다. 중앙 집중화된 데이터는 애플리케이션과 서비스를 새롭게 구축해 운영하는 데 있어 매우 중요한 요소다. 그렇기 때문에 빅데이터 프로젝트는 중앙화된 데이터 액세스를 제공해야만 한다.

데이터 집약적 애플리케이션과 서비스 활용 사례는 다채롭다. 예를들어 어떤 기업은 신제품 런칭을 지원하기도 하고, 혹은 특정 위협이나 기회를 분석하기도 한다. 클라우드 기반 리소스는 사내에 구축된 고정 IT 자산의 가용성에 의존하기보다는 즉각적인 비즈니스 요구를 지원하는 주문형으로 확장이 가능하다. 따라서 사내 혹은 클라우드에 위치한 중요한 데이터에 대해 사용자가 플랫폼 전반에 걸쳐 액세스할 수 있고, IT 담당자가 데이터의 위치와 상관 없이 관리 및 거버넌스가 가능하도록 멀티플랫폼 데이터 아키텍처를 개발해야 한다.

멀티플랫폼 아키텍처 전반에 걸친 데이터 중앙화는 데이터 집약적 애플리케이션 개발을 가속화하려는 기업에는 상당히 중요하다. 이들 애플리케이션은 임베디드 예측 모델, 머신러닝, 그리고 다른 AI에 공급하기 위해 다양한 데이터 소스의 액세스가 필요하며, 그를 통해 기업에게 데이터 수익화 모델을 제공한다. 예를 들어 고객 이탈과 관련한 적시의 통찰력, 유통 채널 전반에서 고객 구매에 영향을 미치는 요소, 기계 또는 시설의 잠재적 문제점 예측 같은 것들 말이다.

데이터 집약적인 애플리케이션을 위해서는 적절한 확장성, 가용성, 데이터 정제, 변환 및 준비에 대한 계획을 미리 갖고 있어야 한다. 또 BI, 분석 또는 머신러닝 워크로드 할당에 대한 결정을 돕는 데이터 관리 툴에 대한 평가도 필요하다. 예컨대 중요한 데이터가 저장되어 있거나 즉각적인 비즈니스 니즈에 부응해야 하는 경우라면 클라우드에 할당하고, 확장 가능한 프로세싱 파워가 필요한 애플리케이션이라면 하둡 또는 스파크 클러스터에 할당하고, 고도로 구조화된 데이터가 필요하다면 기존의 데이터 웨어하우스에 할당하는 식으로 말이다.


CHECK 6

데이터 거버넌스와 관리 우선순위를 사전에 면밀히 점검하라

거버넌스 요구사항을 인지한 상태에서 분석, 머신러닝, 시각화 기능을 개발해야 한다

TDWI는 프로젝트가 실제 가동될 때 프로세스의 마지막까지 거버넌스 혹은 관리 문제에 관심을 두지 않는 기업들이 여전히 많다고 지적한다. 거버넌스가 검토되는 시점은 대개 사내 법무팀이 엄격한 규제 또는 민감한 데이터에 대한 잠재적인 노출 우려를 제기할 때다. 그러나 잠재적인 데이터 거버넌스 이슈는 빅데이터 프로젝트가 시작되는 초기 단계에 함께 포함되어야만 한다. 그래야 프로젝트팀이 거버넌스 요구사항을 충분히 인지한 상태에서 분석, 머신러닝, 시각화 및 다른 기능들을 개발할 수 있다.

지금까지 빅데이터 레이크에는 부적합한 데이터 거버넌스나 무계획적인 데이터 품질과 지속성이라는 좋지 않은 꼬리표가 늘 따라다녔다. 다행스럽게도 데이터 레이크의 안전은 클라우드에서 부분적으로 향상되고 있다. 일부 클라우드 기반 시스템의 경우 많은 기업들의 사내 시스템보다 더 나은 거버넌스와 시큐리티를 위한 데이터 보호를 제공하기도 한다. 그럼에도 불구하고 기업의 시큐리티와 거버넌스 규칙 및 정책에는 사내 데이터 레이크와 멀티플랫폼 아키텍처도 포함돼 있으므로 관련 조건을 충분히 충족시켜야 한다.

마지막으로 데이터 거버넌스 범위에 포함될 내용은 데이터에 대한 신뢰성을 높일 수 있는 데이터 투명성 강화다. 데이터의 출처가 BI, 분석, AI 중 어디인지, 누가 어떻게 데이터를 변환했는지, 그리고 어떻게 사용되고 있는지 등의 데이터 이력을 투명하게 관리하는 것이다. GDPR과 기타 규제들은 신용과 대출 승인 등에 대해 어떤 과정을 거쳐 의사결정이 이뤄졌는지 더 분명한 가시성을 요구하고 있다. 데이터 이력은 이러한 의사결정이 진행되는 프로세스를 문서화하는데 중요한 역할을 한다. 따라서 데이터의 물리적 위치와 상관 없이 데이터 이력을 추적하고, 잠재적으로 민감한 데이터의 사용을 간편하게 모니터링할 수 있도록 자체 데이터 카탈로그, 해설 목록 또는 메타데이터 레파지토리를 사용할 필요가 있다.


빅데이터 프로젝트 성공의 최종 관문, 기업문화

빅데이터 프로젝트를 통해 얻어지는 분석 통찰력은 사회 통념에 반할 수 있고, 현 상황에 대한 변화를 요구할 수도 있다. 이 때문에 많은 기업에서 경영진과의 마찰이 빚어질 수 있다. 분석을 통해 도출된 결론이 C레벨의 의견과 배치되거나 검토되지 않은 리스크가 돌연 나타날 수도 있다. 따라서 기업 문화에 대해 스스로 생각해보고 빅데이터 프로젝트를 통해 얻을 수 있는 가치를 현실화하는 데 가장 큰 장애물은 무엇인지에 대해 사내에서 충분한 커뮤니케이션이 이뤄져야 한다.

리더십과 커뮤니케이션은 분석을 위한 건강한 문화를 만들어나가는데 필수 요소다. 경영진은 해당 분석이 충분히 가치 있고 유용한지 판단하기 위해 회의, 토론, 테스트-학습 사이클을 활용할 수 있는 포용적인 태도를 취해야 한다. 이렇게 하면 분석 모델 개발과 데이터 관리 능력을 향상시키고, 팀 구성원이 프로젝트 정의와 산출물 목표에 초점을 맞춰 프로젝트를 진행할 수 있는 학습 사이클을 확보할 수 있다.

프로젝트 팀도 데이터 통찰력과 관련된 커뮤니케이션 스킬을 훈련해야 한다. 여기에는 결론을 어떻게 도출할 것인지, 데이터에 대해 실제로 알고 있는 것은 무엇인지, 최종적으로 확보된 통찰력이 원하는 결과에 부합하는지 등이 모두 포함된다.