본문 바로가기

IT TREND

데이터 파이프라인 관리를 위한 '8가지 체크리스트'



산업 분야에 상관없이 거의 모든 기업이 더 나은 데이터 활용 방안을 찾고 있다. 분석과 BI(Business Intelligence)가 기업 성공의 열쇠라는 것은 우리 모두가 잘 알고 있는 사실이다. 그러나 무엇보다 중요한 것은 데이터 소스와 양이 폭증하는 지금 같은 시대에는, 데이터 파이프라인을 구축할 때부터 데이터를 분석 가능한 상태로 만들어둬야 한다는 것이다. 이는 데이터를 필요로 하는 사용자가 곳곳에 산발적으로 흩어져 있는 것과는 대조적인 문제다.

데이터 파이프라인을 구축할 때 전체적인 관점에서 접근하지 않을 경우, 데이터는 사용조차 되지 않고 고립될 수 있으며, 더 심각한 상황에 놓일 수도 있다. 기업이 정확하지 않은 데이터를 토대로 중요한 의사결정을 진행할 수 있다는 말이다. 현재 사용 중인 분석 파이프라인의 종류와 무관하게 정확하고 신뢰할 만한 정보를 얻기 위해서는 데이터 관리 프로세스를 올바르게 구축해야 한다. 이 프로세스가 확보되면 분석 수요가 변화하거나 신기술이 등장하더라도 신뢰성 있는 데이터 파이프라인을 유지할 수 있다.

IT 리서치 기업 451 Research가 최근 발표한 ‘데이터 플랫폼 및 분석 시장 판도 2018’이라는 제목의 보고서에서는 데이터 관리의 중요성을 재차 강조했다. 보고서는 ‘데이터 관리는 분석 프로세스의 핵심 요소로, 다양한 툴이 통합된 플랫폼을 통해 최종 성과를 얻을 수 있도록 해주는 것’이라고 언급했다. 이번 가이드는 기업이 IT벤더가 제공하는 플랫폼을 어떻게 평가하고, 파이프라인 계획 수립 시 겪을 수 있는 잠재적인 위험 요소는 어떤 것들이 있는지 8가지 카테고리를 중심으로 정리했다.


Check List 01
데이터 연계

데이터 연계에서의 핵심은 중요 데이터에 대한 분석 능력과 빅데이터 소스를 포함한 새로운 데이터 소스와 유형에 대한 대처 능력이다. 데이터 파이프라인을 효과적으로 관리하려면 관리 툴이 기존의 데이터를 포함해 새롭게 등장한 정형/반정형/비정형 데이터 소스 모두를 적절히 연계할 수 있어야 한다.

벤더가 기업 내 다양한 종류의 데이터 소스를 어떻게 연계할 것인지 확인하라


Check List 02
데이터 엔지니어링

데이터 엔지니어링은 단순한 데이터 연계나 데이터 로딩뿐 아니라 그 이상의 더 많은 것들을 필요로 한다. 데이터 소스 배열 변경, 반복 가능한 프로세스 구축, 컨트롤과 거버넌스 유지 등이 그것이다. 또한 최상의 데이터 엔지니어링은 기업의 데이터 파이프라인이 복제 가능성, 지속성, 생산 가능성을 모두 확보했느냐에 달려 있다.

데이터 통합뿐 아니라 분석 및 리포팅까지 가능한 컴포넌트와 프로세스를 가진 플랫폼인지 충분히 검토하라


Check List 03
데이터 제공

데이터 제공 측면에서는 사용자가 원하는 시점에 원하는 데이터를 정확히 제공할 수 있느냐가 가장 중요하다. 어떤 솔루션은 기존의 데이터 웨어하우스에서, 또 어떤 솔루션은 새롭게 등장한 기술에서 이 작업을 더 잘 수행할 수 있다. 그러나 무엇보다 중요한 요소는 현재의 솔루션이 미래에도 충분히 사용 가능한 기술인지의 여부다. 그렇지 않으면 혁신적인 기업들과 오픈소스 커뮤니티가 새로운 뭔가를 발표했을 때 낡은 기술에 얽매여 변화하는 환경에 대응하기 어려울 수 있다.

데이터 파이프라인 전략에 대한 유연성과 신속성을 제시할 수 있는지 판단하라


Check List 04
데이터 준비

지난 2016년 포브스(Forbes)가 언급한 것처럼 데이터 사이언티스트들은 전체 업무시간의 80%를 데이터 준비에 할애하고 있다. 이 시간을 줄여 분석 모델 구축에 투자할 수 있다면 훨씬 더 나은 성과를 얻을 수 있을 것이다. 데이터 준비를 지원하는 Stand-alone형 플랫폼은 전통적인 데이터 소스를 새롭게 등장한 비정형 데이터 소스와 결합할 때 유연성 문제에 직면할 수 있다. 따라서 데이터 파이프라인의 단계별 진전에 어려움이 가중될 수 있다.

엔드-투-엔드 파이프라인 구축을 지원하는 벤더를 선택하라


Check List 05
분석

기업의 수요 변화에 맞춰 유연하게 움직일 수 있는 플랫폼을 확보하는 일이 무엇보다 중요하다. 고정된 분석 옵션 라이브러리를 제공하는 벤더는 기업이 필요로 하는 유연성을 제공하지 못할 수 있다. 예측 분석의 활용을 극대화하고, 기존의 비즈니스 프로세스 또는 현재 사용하고 있는 소프트웨어를 분석 가능한 상태로 만드는 것이 최고의 비즈니스 가치를 확보하는 데 무엇보다 중요한 핵심이다.

벤더의 다양한 형태의 분석 기능을 제공할 수 있는지 체크하라


Check List 06
파이프라인 자동화와 관리

흔히 말하듯 ‘탁월한 ETL’은 확장성이 없고, 사내 누군가가 사용한 방법론을 타 사업부서 동료들이 벤치마킹하기 어려울 수도 있다. 이는 결국 도움이 되지 않는 비표준화된 보고서들의 생성으로 이어진다. 가능한 많은 데이터 파이프라인을 자동화해야 기업 내 대부분 팀의 리소스를 최상의 상태로 유지할 수 있다.

가공되지 않은 데이터에서 분석과 비즈니스 통찰력을 확보할 수 있는 데이터 파이프라인을 구축할 수 있는지 확인하라


Check List 07
거버넌스와 보안

데이터 거버넌스와 보안은 옵션이 아니라 필수다. 문제 발생 후 처리 방안을 고민하기보다는 선제적으로 보안 정책을 수립해야 한다. 규제 대상 업종이라면 누가 어떤 데이터로 언제 무엇을 했는지 파악할 수 있는 데이터 파이프라인 플랫폼이 무엇보다 중요하다.

벤더의 데이터 거버넌스와 보안 역량을 검토하라


Check List 08
확장 용이성과 확장성

아파치 하둡(Apache Hadoop)을 둘러싼 빅데이터 에코시스템에는 끊임없이 진화하는 수많은 툴이 포함돼 있다. 데이터 관리, 특히 빅데이터 관리 측면에서 지난 수년 동안 이뤄진 혁신들은 오픈소스 커뮤니티에서부터 시작됐다. 오픈소스 코드가 아니라 자체 기술을 보유한 벤더를 검토 중이라면 툴의 발전 속도를 따라가지 못해 뒤처질 수 있다.

유연성이 확보될 수 있도록 벤더의 확장 가능성을 확인하라