본문 바로가기

TECH ZOOM

왜! 펜타호여야 하는가



전 세계 1,800여 사이트에서 활용하는 엔드-투-엔드 원스톱 빅데이터 플랫폼이 있다 .정형 및 비정형 데이터의 수집부터 변환, 적재, 분석, 그리고 시각화에 이르는 과정 모두를 제공하는 히타치 밴타라(Hitachi Vantara)의 펜타호(Pentaho)다.

히타치 밴타라 김경륜 이사와 효성인포메이션시스템 DATA사업팀 이진석 수석이 데이터를 활용해 더 나은 비즈니스 성과를 내고자 하는 기업들에게 펜타호가 왜 적합한 솔루션인지 설명한다.


데이터 통합 분석이 빅데이터 접근의 기본이라고 하는 이유가 있나요.

데이터 시대입니다. 데이터 경쟁력이 기업의 성패를 좌우하는 시대가 됐습니다. 문제는 관계형 데이터부터 비정형 텍스트, 센서 데이터, 머신 데이터까지 기업에서 생산되는 데이터 종류가 너무 다양하고 많다는 겁니다.

시장조사업체 IDC가 아주 의미있는 전망을 발표한 바 있는데요. 2025년 전 세계 데이터 규모는 163 제타바이트(Zetabytes)에 이를 것이라고 합니다. 지난 2016년 데이터 발생량 기준으로 보면 10배에 달하는 수치입니다. 이들 데이터 중 4분의 1 이상이 실시간으로 발생하고, 그 중 95% 이상을 IoT(사물인터넷) 데이터가 차지 할 것으로 보았습니다.





기업은 더 나은 성과를 얻고 새로운 비즈니스 성공을 위해 이러한 데이터를 충분히 이해하고 활용할 수 있어야 합니다. 그 첫 단계로 ERP, 오라클 등의 경영이나 IT 데이터뿐 아니라, 생산 환경에서의 설비 관련 데이터, 온도 및 습도 등을 통합할 수 있는 방법을 찾아야 합니다. 또한 산재한 데이터를 통합하고 분석함으로써 현재의 문제를 해결하고 생산성을 높이는 데서 나아가 새로운 분석 인사이트를 얻어야 업무 효율과 비즈니스를 향상시킬 수 있을 것입니다.


많은 기업이 빅데이터 분석이 비즈니스 생존을 위한 필수 전략이라고 꼽고 있는데 실제로는 어떤가요.

빅데이터 분석을 위해 데이터 통합과 분석에 대한 요청은 늘고 있지만 왜 빅데이터를 분석하려고 하는지 불분명한 기업이 많습니다. 명확한 빅데이터 전략이 없다는 얘기겠지요. 빅데이터를 수행할 수 있는 전문 인력의 부족은 말할 것도 없습니다. IT 부서의 도움 없이 현업의 담당자가 데이터 분석이라는 본연의 업무에 집중하기 위해서라도 펜타호 같은 빅데이터 통합 분석 솔루션은 필요합니다. 이런 솔루션들이 데이터 통합과 준비 과정을 간소화하고 빅데이터 분석의 이점을 쉽게 얻을 수 있도록 도와주기 때문이지요. 최초의 빅데이터 분석 프로젝트를 잘 마친 후 전문업체와의 작업을 통해 얻은 프로세스, 결과물 등을 내재화 하면서 빅데이터 분석 역량을 키울 수도 있을 겁니다.


펜타호가 빅데이터 플랫폼으로 독보적이라고 하는 이유는요.

데이터 통합부터 구조화, 분석, 시각화 그리고 예측까지 빅데이터 인프라 구축을 위한 모든 기능을 제공하는 업계 유일의 빅데이터 통합 및 분석 플랫폼이라는 점입니다.


좀 더 구체적으로 짚어주세요.

크게 세 가지로 나눌 수 있을 거 같아요. 첫째는 빅데이터 통합과 처리에 최적화된 솔루션이라는 점입니다. 펜타호는 DBMS를 비롯해 웹에서 발생하는 Json, xml, 각종 로그, 그리고 빅데이터 환경인 하둡(Hadoop) 또는 S3, AWS, Azure 클라우드 환경에서든 어떤 형태의 데이터도 쉽고 빠르게 수집할 수 있습니다. 이렇게 수집한 데이터를 통합과 전처리 과정을 거치면서 분석 가능한 데이터로 가공합니다.

아주 흥미로운 사례가 있습니다. 우리나라 굴지의 은행에서 사용하는 은행 간 전송 프로토콜을 펜타호가 지원한다는 사실입니다. 오픈소스 생태계를 활용해 다양한 소스를 지원할 수 있다는 점을 여실히 보여주는 부분이지요.

실시간 데이터 처리를 원활하게 지원한다는 것도 특이한 점이에요. 펜타호는 배치 데이터 처리와 분석뿐 아니라 실시간으로 데이터를 수집하고 분석한 결과를 통해 인사이트를 확보할 수 있습니다. 데이터 메시징 큐인 카프카(Kafka) 또는 MQTT, JMS에서 스트리밍 데이터를 받아와 실시간으로 처리하고, 원하는 형태로 적재한 후 이를 활용해 실시간 지표 및 공정 현황 등도 파악할 수 있습니다.

펜타호 플랫폼에서는 다양한 소스에서 수집된 데이터를 블렌딩하는 과정을 하나의 워크플로우에서 구현합니다. R 및 파이썬(Python) 등 오픈소스 분석 엔진의 라이브러리들을 사용해 머신러닝과 딥러닝 알고리즘 기반의 분석 및 예측 모형을 개발할 수 있고요. 데이터 수집 단계부터 블렌딩을 거쳐 머신러닝 기반 모형 구축부터 실시간 업데이트까지 전 과정을 자동화할 수 있기 때문에 새로운 업무 프로세스를 즉각적으로 펜타호 상에서 구현할 수 있습니다. 비즈니스 상황 변화에 신속하게 대응할 수 있게 되는 것이죠.


널리 알려진 펜타호 구축 사례를 소개해주세요.

금융업종에서는 세계에서 두 번째로 큰 거래소인 미국 나스닥과 산업 기계 및 중공업종인 캐터필라(Caterpillar Marine Asset) 등 해외에서는 다양한 업종의 사례가 많습니다.

운송업종의 경우 중국의 지역 철도청 BRB를 들 수 있습니다. 이 기관은 1,600만개 이상의 철도 운영 시스템 전반에 걸친 레코드 관리와 처리를 위해 오라클 DB와 클라우데라 하둡 플랫폼을 구축했지만, 3,000마일이 넘는 선로에서 생성되는 데이터를 효율적으로 관리하고 활용할 수 있는 방법을 찾다가 펜타호를 도입했습니다. 도입 후 철도 운영 환경에서 안전 위험도를 최소화하고 사전 대응 지원이 가능해 연간 승객 증가율이 30%에 달했다고 합니다. 기존 데이터를 기반으로 사고 발생 패턴을 파악해 다음 달의 잠재적 위험요소를 파악하고 대처 방안을 수립할 수도 있게 되었고요.

국내 사례로는 카카오게임즈를 들 수 있습니다. 이 회사는 실시간 대용량 스트리밍 데이터를 GUI 기반 자동화로 처리하고 있는데요, 10분에 약 200만 건의 카프카(Kafka) 데이터를 저장하고, 빅데이터 시스템을 ODS(Operating Data Store)로 활용해 기존 코딩과 비교해 빅데이터 처리 속도 및 정확도를 대폭 향상시킨 사례입니다. 펜타호를 이용해 데이터 처리와 적재 시간을 단축시켰고, 데이터 업무 프로세스를 실시간 모니터링해 생산성을 높일 수 있었습니다. 특이한 점은 클라이언트 컴퓨터 OS가 OS X(Mac)인데도 추가 설치 없이 진행할 수 있었다는 점이죠.


마지막으로 효성인포메이션시스템의 빅데이터 전략을 말씀해주세요.

펜타호를 통해 다양한 분야에서 쉽고 빠른 빅데이터 통합과 분석으로 기업에게 인사이트를 제공하고자 합니다. 특히 지난 2017년 DATA사업팀 조직 후 빅데이터 사업과 IoT 플랫폼 사업, 영상 빅데이터 사업을 통합적으로 펼치고 있습니다. 2019년에도 고객사의 업무 환경과 수요에 맞는 솔루션 공급을 위해 맞춤형 컨설팅과 프로젝트를 진행할 계획입니다.