본문 바로가기

Tech ZOOM

데이터 운영 시대의 해결사는 단연 펜타호!


기업들은 디지털 트랜스포메이션을 통해 데이터에서 더 많은 가치를 얻을 수 있는 방법을 모색하고 있지만, 필요한 정보를 정확히 찾아내는 것은 갈수록 어려워지고 있다.

이제는 데이터 수집, 저장, 분석에서 한 걸음 더 나아가 데이터 운영이 화두가 되고 있다. 데이터 운영의 중요성과 효성인포메이션시스템이 제안하는 데이터옵스(DataOps) 전략, 그리고 데이터옵스를 실행시킬 최적의 솔루션 펜타호에 대해 낱낱이 파헤쳐 보자.


데이터 수집과 저장, 여전히 최우선인가

빅데이터 수집, 저장, 보호는 개별 업무가 주 목적일 때 중심이 되던 영역이다. 지금도 데이터 주도2) 기업이나 머신러닝 기술을 활용 중인 기업들은 데이터 수집이나 저장을 반복적으로 강조하지만, 정작 자사에 유용한 데이터나 외부에서 가져온 데이터가 어디 있는지 모르는 경우가 허다하다.

기업들은 여전히 데이터를 ‘모으는’ 데만 집중하고 있다. 따라서 데이터 활용을 위한 프로젝트 역시 모은 데이터의 일부만을 가져다 쓸 뿐이다. 데이터 처리를 수십 번 반복해 분석 모형을 만들지만, 무엇을 얼마나 반복했는지는 남기지 않는다.

기존 결과물에는 중간 과정이 전혀 남아있지 않기 때문에, 결과물을 통해 데이터를 재활용 하려면 이미 했던 작업을 처음부터 다시 하는 것 밖에는 방법이 없다. 기존 결과물을 재활용할 수 없는 단계에 이르면서 결과물의 활용도, 즉 ‘데이터 운영’에 관심이 높아지고 있다.


이제는 데이터 운영 시대

데이터 분석과 관리 방식에 새로운 툴과 기술이 등장했지만 데이터 민첩성 부족은 수년간 문제가 되어 왔다. 그리고 이 문제는 많은 기업들에게 트랜스포메이션을 기반으로 혁신 가속화를 지원하는 분석, 머신러닝, AI 구현에 가장 큰 걸림돌이 되고 있다. 새로운 데이터 운영 관리 솔루션이 필요해진 것이다. 데이터 운영은 아직 불확실하고 광범위한 개념이지만, 그 용어와 개념은 관련 시장의 문화까지 포함하는 영역으로 점차 확장될 전망이다. 이는 앞으로 데이터 운영에 더욱 예의주시가 필요한 이유다.

적합한 데이터를 적시에 원하는 장소로 가져올 수 있도록 프로세스를 자동화하여 데이터 잠재력을 극대화하는 방법으로 효성인포메이션시스템은 ‘데이터옵스(DataOps)’를 제시한다.

데이터옵스는 조직 전체의 데이터 관리자와 소비자 간 데이터 플로우 커뮤니케이션 통합 및 자동화 향상에 중점을 둔 협업적 데이터 관리 규칙으로 등장했다. 효성인포메이션시스템의 전략은 데이터옵스를 통해 데이터 민첩성을 향상시키고자 한다. 이를 위해 기업들에게 데이터 관리 인프라, 메타데이터 기반의 주도적인 데이터 관리 툴 그리고 정책 기반 자동화를 제공하는 데 중점을 두고 있다.


데이터옵스, 새로운 접근 방식

데이터옵스는 많은 기업에게 새로운 접근 방식이다. 첫 단계는 대부분 분석과 머신러닝을 위한 데이터 파이프라인 강화로 시작한다. 데이터 탐지, 통합, 전송 자동화 및 가속화는 가공되지 않은 데이터를 실행 가능한 통찰력으로 전환하는 데 필요한 시간을 단축시키는 핵심이다.

데이터옵스 전략은 분석 속도, 거버넌스, 에지-투-클라우드(Edge-to-cloud) 운영 민첩성이라는 세 가지 핵심 요소를 만족시켜야 한다. 또한 데이터옵스를 구체화하기 위해서는 탐색, 메타데이터 관리, 정책 기반 거버넌스 및 유지관리, 자동화된 데이터 통합 및 데이터 파이프라인 구축 등의 기술이 필요하다. 이렇게 많은 코어 기술들의 혼재는 성공적인 데이터 운영을 위한 올바른 데이터 플랫폼의 필요성과 연결될 수 있다.


데이터 활용과 운영의 핵심, 펜타호

앞에서 언급한 데이터옵스 전략을 구현할 올바른 데이터 플랫폼이, 바로 펜타호(Pentaho)다. 펜타호는 루마다(Lumada)의 구성 요소인 데이터 및 분석 플랫폼을 관장하는 핵심 컴포넌트로, 최근 업그레이드 버전 8.3이 발표되며 또 한번 업계의 주목을 받고 있다.

펜타호는 데이터 통합, 분석, 시각화를 하나의 워크플로우로 구현한 통합 빅데이터 처리 및 분석 플랫폼이다.

펜타호는 데이터 웨어하우스 및 데이터 레이크와 같은 기존 도구를 인공지능(AI), 머신러닝 등의 새로운 기술과 결합시켜 데이터 통합 및 파이프라인 기능을 강화해 왔다. 이번에 새로이 업데이트 된 펜타호 8.3는 기업이 데이터에서 인사이트를 도출할 때 방해되는 요소를 제거하고 데이터 관리 방식을 현대화할 수 있도록 지원하는 최적의 요소를 갖추고 있다.



데이터옵스 전략의 핵심, 펜타호



데이터 활용의 중심에 서다

펜타호 8.3에서 강화된 핵심 분야는 크게 세 가지로 △데이터 파이프라인 구축 △데이터 가시성확보를 통한 거버넌스 강화 △멀티클라우드 지원 확대를 꼽을 수 있다.

우선 데이터 액세스 및 블랜딩을 위한 데이터 파이프라인 기능이 한층 강화되었다. 새로운 SAP 커넥터를 통해 SAP ERP 및 SAP BW(Business Warehouse)의 데이터를 블렌딩, 강화(Enrichment) 및 오프로드하여 비즈니스 정보에서 인사이트를 도출할 수 있다. 또한 AWS 환경에서 실시간 데이터 기능을 제공하는 아마존 키네시스와 통합해, 코드 작성 없이도 개발자들이 펜타호의 강력한 시각적 환경에서 스트레밍 데이터를 수집, 처리, 블랜딩할 수 있다.

데이터 가시성 확보를 통한 거버넌스 강화도 눈에 띄는 부분이다. 펜타호 8.3은 오브젝트 스토리지와의 통합을 강화해 메타데이터의 읽기, 쓰기, 업데이트 작업을 보다 쉽게 수행하도록 돕는다. 또한 시스템 메타데이터를 사용해 오브젝트를 쿼리함으로써, 텍스트 파일, 이미지, 영상, 데이터베이스 이미지와 같은 비정형 데이터를 쉽게 검색, 관리 및 분석할 수 있다.

마지막으로 에지부터 멀티 클라우드에 이르는 다양한 환경에서 프라이버시, 보안 등 전반적인 데이터 거버넌스 요구사항을 모두 충족시켜 데이터 활용의 민첩성을 한층 높여준다. 많은 기업들이 AWS S3에서 레드시프트(AWS Redshift)로 데이터를 마이그레이션할 때 반복적인 SQL 스크립팅을 수행하고 있다. 이를 펜타호의 레드시프트 벌크 로그 기능을 통해 자동화한다면, 생산성을 높이고 데이터 온보딩 시 적절한 정책과 스케줄을 적용할 수 있다.

또한 클라우드 DW 솔루션인 스노우플레이크(Snowflake)와 연동 기능을 추가하는 것은 물론, 다양한 데이터 소스를 활용하고자 하는 고객들의 요구에 맞춰 AWS, 구글 클라우드 등 여러 클라우드 플랫폼에 대한 데이터 액세스를 제공하며 편의성을 높였다.

기업이 데이터옵스를 성공적으로 구현하기 위해서는 적합한 데이터를 적시에 활용할 수 있어야 하는데, 펜타호 8.3이 바로 이를 보장해주는 솔루션이다. 펜타호 8.3은 데이터 저장 비용을 최소화하고 높은 서비스 수준을 제공하며, 데이터 검색과 액세스 지원은 물론 거버넌스 규정을 준수한다. 이를 통해 기업들은 데이터에서 실행 가능한 인사이트를 도출하고 경제적 가치 또한 확보할 수 있다.





펜타호와 함께 하는 효성인포메이션시스템의 전략!

과거 프로젝트가 빅데이터 저장 중심이었다면, 이제는 빅데이터를 활용하는 목적의 프로젝트가 더 많아질 전망이다. 운영 시스템 개선에 관심이 급증할 것이며, 기업들은 데이터 파이프라인을 구성하고 데이터옵스 채택을 시도할 것이다. 이는 전반적으로 가시성을 향상시키는 영역에 펜타호 솔루션이 많이 활용될 것이라는 의미다.

중장기적으로 확산될 영역은 사물인터넷(IoT) 관련 빅데이터 처리 인프라가 될 것이다. 현재 진행 중인 프로젝트 역시 IoT, 실시간, 에지, 반정형 등의 데이터에 초점을 맞추고 있다. 따라서 효성인포메이션시스템 역시 빅데이터 중 에지단, 반정형 및 실시간 센서데이터를 포함한 IoT 분야 데이터 활용에 집중할 계획이다. 최근 국내 대형 게임사에서 펜타호를 도입해 유용하게 활용 중이며, IoT 플랫폼으로 각광받고 있는 ‘루마다’에도 펜타호가 포함되어 있다. 효성인포메이션시스템은 이러한 사례와 솔루션을 기반으로 펜타호의 분석 영역을 확장하는 데 더욱 집중할 것이다.


이진석 수석 컨설턴트
효성인포메이션시스템
DATA사업팀

한 눈에 알아보는 펜타호 8.3의 특징

펜타호 8.3은 오브젝트 스토리지에 저장된 데이터에 대한 액세스 향상부터 PDI(Pentaho Data Integration) 내 스파크(Spark) 특화 기능 향상까지 광범위하고 다양한 기능을 제공한다.
업데이트를 통해 고객 경험을 끊임없이 향상시키는 펜타호 8.3의 주요 특징을 쏙쏙 뽑아 소개한다.


아마존 레드시프트 벌크 로드

반복적인 SQL 스크립팅 없이도 PDI에서 아마존 레드시프트(Redshift)로의 벌크 로그가 가능해졌다. 아마존 레드시프트 데이터 웨어하우스를 그대로 둔 채 생산성과 자동화가 한층 더 향상되는 것이다.


스노우플레이크를 데이터 소스로 연동

스노우플레이크(Snowflake)는 클라우드를 기반으로 운영 되는 관계형 ANSL SQL DWaaS(Data Warehouse-as-a-Service)다. PDI의 ETL 기능을 통해 스노우플레이크 상의 데이터를 분석하거나, Pentaho Interactive Reports, Pentaho Report Designer로 데이터를 시각화할 수 있다.


키네시스와의 통합

새롭게 선보인 키네시스(Kinesis) 통합 기능으로 PDI에서 아마존 키네시스 데이터스트림의 실시간 프로세싱 기능을 최대로 활용할 수 있도록 지원한다.


오브젝트 스토리지에의 액세스 지원

오브젝트 스토리지의 리포지토리 내 메타데이터와 자산에 대한 액세스, 읽기 및 쓰기를 비롯해, 검색 시스템과 커스터 마이징 된 메타데이터 주석을 통한 데이터 오브젝트의 위치 파악이 가능해졌다.


펜타호 서버 업그레이드 인스톨러

펜타호 서버 업그레이드 인스톨러(Pentaho Server Upgrade Installer)는 기존 펜타호에 자동으로 적용되는 GUI다. 업그레이드 인스톨러에서 제공하는 UI 또는 배치 자동화 시나리오용 명령을 통해 간단히 펜타호 8.1과 8.2에서 8.3으로 직접 업그레이드할 수 있다.

이 외에도 펜타호 8.3에는 데이터 통합 및 비즈니스 분석 향상을 위한 다양한 기능들이 추가되어 기업의 데이터옵스 전략을 실행하는 강자로 자리매김할 것이다.