본문 바로가기

TECH ZOOM

성큼 다가온 시계열 DB 세상, 펜타호가 접수한다!



인터넷은 수천, 수백만의 사용자가 접속하는 URL을 통해 피라미드처럼 액세스된다. 사물인터넷(IoT)이 등장함에 따라 수백 건의 기록을 인터넷으로 전송하는 수많은 ‘사물’이 존재한다. 사물인터넷을 가능하게 하는 센서 덕분에 인터넷은 단순한 정보 제공처가 아니라 정보를 취합하는 수많은 데이터 포인트로 탈바꿈하고 있다.


변화 추적에 용이한 시계열 데이터

자율주행 자동차와 같은 사물인터넷 디바이스에는 수천 GB의 데이터를 생산하는 수백 개의 센서가 달려 있다. 자율주행 자동차 1대가 하루에 수집하는 데이터는 4,000GB 이상에 달할 것으로 예측된다. 이처럼 많은 양의 데이터가 취합되는 이유는 사물인터넷 디바이스가 변화되는 상황을 수시로 확인하기 때문이다. 이러한 변화를 제대로 추적하려면 데이터 업데이트가 아닌 새로운 데이터가 지속적으로 추가되는 시계열 방식의 데이터 취합이 필수적이다. 과거에 어떤 변화가 발생했으며, 현재는 어떻게 변화되고 있고, 미래에는 어떻게 변화될 것인지 분석하기 위해서다. 변화에 대한 추적을 통해 시스템, 프로세스, 행동양식이 시간의 흐름에 따라 어떻게 바뀌었는지 이해할 수 있고, 미래에 발생할 변화에 대해서도 자동화된 대응이 가능해진다.


급성장하는 TSDB 시장

단점이 있다면, 시계열 데이터는 매우 빠른 속도로 수많은 데이터를 생산한다는 것이다. 트랜잭션 또는 NoSQL 데이터베이스를 취합한 것보다 훨씬 더 많은 양이다. 이런 점 때문에 TSDB(Time Series Databases) 시장이 급성장하고 있다. TSDB는 시계열 데이터에 맞게 미세하게 조정된다. 이러한 미세 조정이 더 높은 데이터 취합률, 더 빠른 대량의 쿼리 처리, 데이터 압축 강화 등 성능 향상에 효율성을 더해준다. TSDB에는 데이터 유지 정책, 지속적 쿼리, 유연한 시간 집계와 같은 시계열 데이터 분석을 위한 기능과 운영도 포함돼 있어 사용자 경험이 향상된다.

AWS(Amazon Web Services)가 이 시장에 진입했다는 것은 시계열 DB가 주류로 부상했다는 의미다. AWS는 최근 ‘아마존 타임스트림’을 발표했다. 아마존 타임스트림은 RDB(Relational Database)의 1/10 비용으로 하루 수조 건에 달하는 데이터의 저장과 분석을 쉽게 해주고, 빠르고 확장 가능하며 완벽하게 관리되는 사물인터넷용 TSDB 서비스 겸 운영 애플리케이션이다.




그림은 2018년 11월에 발표된 것으로, TSDB와 다른 DB 간 DB 처리 능력을 비교한 것이다.


통합에 뛰어난 펜타호

자율주행 자동차가 하루에 4,000GB의 데이터를 생산한다면 정유 공장처럼 더욱 복잡한 시스템에서는 얼마나 많은 데이터가 생산될지 상상해보자. 히타치 밴타라는 최근 초당 수백 건의 데이터 포인트를 생산하는 수많은 시스템을 보유한 유럽의 한 대형 정유공장 프로젝트를 진행했다. 이 기업의 시스템 운영자, 프로세스 엔지니어, IT 및 데이터 사이언티스트들은 지금까지 통찰력을 확보하기 위해 오라클, SQL 서버, SAP 시스템뿐 아니라 엑셀과 같은 기존의 툴에서도 수작업으로 데이터를 수집했다. 이로 인해 발생하는 데이터 사일로는 부서 간 협업을 방해함으로써 부정확한 의사결정을 도출할 수 있기 때문에, 효율성이 낮고 확장성도 보장받지 못한다.

이번 프로젝트에서는 모든 센서를 데이터 레이크로 취합하기 위해 오픈 TSDB를 이용했다. 오픈 TSDB와 연계는 PDI(Pentaho Data Integration)가 사용되어 서드파티 벤더가 필요 없었으며, 분석 컴퓨팅 효과도 극대화됐다. 오픈 TSDB는 대규모 REST 기반 개방형 API를 갖고 있어 뛰어난 유연성을 제공한다. 이를 통해 엄청나게 빠른 속도로 데이터를 검색해 펜타호에서 분석할 수 있다. 이러한 분석은 간단한 상호연관성, 시각화 및 가치 예측을 위한 머신러닝에 이르기까지 다양하게 사용된다.

다른 의미로, 펜타호는 데이터 사이언티스트들이 80%의 시간을 할애하는 데이터 마이닝과 모델링 분야, 즉 데이터 취득, 추출, 혼합 등의 데이터 통합 작업에 더 많은 비중을 두고 있다는 것을 의미한다. 또한 프로세스 엔지니어, IT, 데이터 사이언티스트들의 협업을 지원해 기업 사용자가 셀프 서비스 방식으로 운영 데이터를 이용할 수 있도록 해준다. 이렇게 하면 더 나은 의사결정이 가능할 뿐 아니라 2일이나 소요되는 리드 타임도 10분 이내로 줄일 수 있다.


펜타호가 증명한 가치

시계열 데이터는 시간의 흐름에 따라 추적, 모니터링, 샘플링 및 취합되는 간단한 측정 또는 이벤트를 말한다. 여기에는 서버 매트릭스, 애플리케이션 성능 모니터링, 네트워크 데이터, 센서 데이터, 이벤트, 클릭, 시장 거래, 그리고 수많은 다양한 종류의 분석 데이터가 모두 포함될 수 있다.

인터넷이 시계열 DB로 전환됨에 따라 히타치 밴타라의 펜타호는 데이터 폭증에 대응하고, 현재 및 향후 발생할 새로운 시계열 애플리케이션에 대한 더 나은 통찰력을 확보하기 위해 통합, 분석 및 시각화가 필요한 곳에 늘 함께 할 것이다.