본문 바로가기

IT TREND

이젠 빅데이터로 경쟁하자


빅데이터(Big Data)는 기술의 성숙 단계를 지나 활용 단계에 접어 들었다. IT 기업의 핵심 운영 시스템으로 확산 중이며 기술적인 측면에서도 플랫폼의 성능과 기능이 나날이 향상되고 있다. 정부는 빅데이터를 신성장 동력으로 규정하고 다양한 업종에서 성공 사례를 만들고 있는 중이다. 현실 사회로 성큼 다가선 현재의 빅데이터 트렌드를 통해 기업 IT의 적용 시점을 유추해 보자.



 비즈니스적 관점


전통적인 데이터 분석 환경과 빅데이터 분석 환경에는 큰 차이가 있다. 전통적 데이터 분석 환경에서는 과거 현상을 기반으로‘ 어떤 일이 있었는가’ 또는‘ 무엇이 문제였는가’ 등에 대한 원인 규명에 초점을 두었으며, 대부분 정형화된 데이터를 상용 소프트웨어에 의존해 분석했다.






하지만 빅데이터 분석 환경으로 넘어오면서 분석 관점과 데이터의 형태 및 분석 기법에 변화가 생겼다. 먼저, 현재 사실에 기반해 미래를 예측하고자 한다. 이는 빅데이터를 통해 얻고자 하는 비즈니스 가치와 요구 사항에서 기인한 것이다. 또한 다양한 소스로부터 데이터를 수집 및 분석해야 하는 비즈니스 요건이 생기면서 분석 데이터의 유형 역시 정형 데이터가 아닌 반정형·비정형 데이터가 주를 이루게 된다. 이에 정형 데이터 분석 중심의 상용 소프트웨어로는 분석에 한계가 생겼고, 오픈소스 기반의 다양한 응용 프로그램을 통해 보다 강력하고 다양한 분석 기법을 적용하게 됐다.


 

빅데이터를 기업 IT 환경에 적용하는 이유

가트너가 조사한 빅데이터 적용 이유를 보면 크게 (그림 1)과 같다.

(그림 1) 기업의 빅데이터 적용 이유와 투자 계획



여기서 우선순위로 투자하겠다는 수치와 응답률에 차이가 있는 이유는 현 시점과 비교해 차이가 있을 수 있겠지만, 중요한 것은 주로 고객 대응 강화, 업무 효율화, 신제품 개발, 영업 전략 활용, 비용 절감, 위험 관리 분야에 빅데이터가 활용되고 있다는 것과 향후에도 이런 비즈니스 요구 사항이 지속적으로 증가할 것이라는 점이다. 주요 산업군별 활용 사례를 보면 빅데이터 도입 및 활용 목적을 더 잘 알 수 있을 것이다.




 기술적 관점


지난 호에서 빅데이터를 인프라 관점에서는 하드웨어, 소프트웨어로 분류하고, 활용 프로세스 관점에서는 수집, 저장, 분석, 시각화 등으로 분류할 수 있다고 소개한 바 있다. 다양한 분야의 전문가들이 예측하는 트렌드와 전달하고자 하는 메시지는 일부 다르지만, 향후 빅데이터 트렌드는 확산의 지속, 강력한 성능 및 기능 제공 등으로 요약할 수 있다.


빅데이터 프로젝트의 성숙과 확산

시장조사기관인 앳스케일(AtScale)은 2015년 빅데이터 플랫폼의 주요 구성 요소인 하둡[각주:1] 사용 기업을 대상으로 설문조사를 시행했다. 그 결과 현재 하둡 기반의 빅데이터를 적용해 비즈니스를 개선하거나 향후 개선을 기대하는 사용자가 무려 94%에 이르렀고, 기업 IT 분야에서 빅데이터의 비즈니스 영역이 줄어든다고 답한 응답자는 불과 3%에 지나지 않았다. 사용자 대부분이 빅데이터의 지속적인 확산을 예측하고 있다는 것이다.



(그림 2) 2015년 하둡 성숙도 조사



시장조사기관인 가트너에서 발표하는 ODBMS 부문 매직 쿼드런트[각주:2] 의 변화를 살펴보면, 기술 트렌드의 변화를 추가로 확인해 볼 수 있다.


과거에는 오라클, 마이크로소프트, IBM, SAP 등 전통적인 DBMS 시장의 주요 벤더들이 Leaders Group 영역을 선점하고 있었다. 하지만 2015년 10월에 발표된 매직 쿼드런트에서는 MongoDB, DataStax, Redis Lab, MarkLogic, Amazon Web Services(DynamoDB 포함)를 비롯한 NoSQL 벤더들이 그 자리를 차지하고 있으며 수적으로도 우세하다.

이는 기업 내 데이터가 정형 데이터를 포함해 반정형 및 비정형 데이터로 확장되었다는 것과 빅데이터가 확산되고 있다는 것을 의미한다. NoSQL은 단순 검색, 추가 작업을 위한 매우 최적화된 키 값 저장 공간, 짧은 지연시간(Latency), 높은 스루풋(Throughput) 등을 제공해 빅데이터 분야에서 주로 활용되고 있다.


빅데이터 플랫폼의 성능 향상 노력 ‘진행 중’

기업 IT 환경에 빅데이터가 확산되는 데 기여한 다양한 요소 중 빼 놓을 수 없는 것이 바로 인프라의 성능 향상이다. 다양한 성능 개선사항 중 핵심으로‘ 인메모리(In-Memory) 기반 하둡 에코시스템의 강화’와 빠른 데이터 탐색 기능을 제공하는‘ BI on Hadoop 및 SQL on Hadoop 기술의 강화’를 들 수 있다.

빅데이터 플랫폼은 분산 클러스터링 환경에서 대용량 데이터를 보다 빠르게 분석하기 위해 태어났다. 분석을 위해 수집되는 대용량의 데이터들은 일반적으로 특정일 또는 특정 시간에 수행되는 배치 작업으로 수집된다. 당시에는 실시간 분석에 대한 비즈니스 요구 사항이 적어 분석 결과 조회 시간은 큰 문제가 되지 않았다. 그러나 실시간 수준의 빠른 응답 시간을 요구하는 비즈니스 요건들이 생기면서 빅데이터 분석 플랫폼 환경에서 성능이 중요한 요소 중 하나로 부각되고 있다.

일반적인 하둡 구성 환경에서는 데이터 노드의 각 디스크에 저장된 데이터에 접근해 분석할 때 디스크 I/O 성능 제약으로 인해 실시간 분석에 한계가 있다. 이를 개선하고자 데이터를 메모리에 옮긴 후 접근함으로써 분석 시간을 단축시키려는 지속적인 노력이 있었다. 근래 많은 기업이 하둡 에코시스템의 구성 요소였던 아파치 스파크(Apache Spark)를 빅데이터 플랫폼으로 선택하게 된 이유다.

하둡에 대한 관심이 높아지면서 빠른 데이터 탐색 기능에 대한 기업의 요구 또한 늘어나고 있다. 이에 많은 벤더들이 Cloudera Impala, AtScale, Actian Vector, Jethro Data와 같은 기술을 도입하고 있다. 이러한 기술을 통해 기업 고객들이 오랫동안 사용해온 OLAP 큐브(Online Analytical Processing Cube)[각주:3]를 하둡에 사용하게 됨으로써 기존 BI(Business Intelligence)와 빅데이터 간의 경계가 더욱 모호해지고 있다. BI on Hadoop은 하둡 기반의 SQL Query 엔진을 통해 전통적인 하둡에서 다소 복잡한 프로그래밍을 통해 탐색을 수행했던 어려움을 해소하고, 사용자에게 보다 친숙한 표준 쿼리를 사용할 수 있게 함으로써 쉽고 빠르게 탐색할 수 있다.


보안 강화와 진입 장벽 해소로 빅데이터 확산 촉진

빅데이터가 기업 IT 인프라의 한 축으로 자리잡게 되면서, 증가하는 데이터와 더불어 데이터 프라이버시에 대한 우려와 신뢰성 있는 데이터 액세스의 요구 또한 증가해 왔다. 기존 빅데이터 분석 플랫폼이 가지고 있던 보안의 취약성과 컴플라이언스 규정 관련 이슈가 신뢰성 보강을 통해 빅데이터의 확산을 촉진시키게 될 것이다. 보안 등의 엔터프라이즈 시스템 관련 구성요소에 대한 투자가 늘어난다는 것은 기업 IT 환경에서 하둡이 중추적인 역할을 담당하고 있으며 사용률이 증가하고 있다는 것을 뒷받침한다.

하둡의 확산을 저해했던 요소 중 하나는 데이터 보안 관련 이슈였다. 하둡이 비록 사용자 인증을 위해 오픈소스 커베로스(Kerberos), 우지(Oozie), 녹스(Knox) 등을 제공하고 있지만, 일단 사용자가 로그인 하게 되면 사용자가 접근해야 할 데이터 셋에 대한 접근 권한 정책 설정이 부족했다. 이런한 계점은 보안 기준이 엄격한 은행, 보험회사, 의료 기관, 정부기관에서 빅데이터 기술을 도입하는 데 있어 큰 걸림돌이 됐다.

이런 문제점을 해소하기 위해 하둡의 보안 영역에 대한 투자가 지속적으로 이루어졌으며, 아파치 센트리(Apache Sentry) 프로젝트를 통해 그 효과를 거둘 수 있었다. 그동안 보안 및 규정 관련 이슈로 인해 빅데이터 보급이 다소 늦어졌던 업종의 진입 장벽이 낮아진 만큼 다양한 분야에서 빅데이터가 확산될 것으로 예측되고 있다.


빅데이터 플랫폼 아키텍처의 진화‘ 보다 쉽고, 강력하게’

빅데이터 확산의 또 하나의 걸림돌은 설치 및 구성이 복잡하고 비용이 높다는 것이었다. 대용량 데이터를 처리해야 하는 만큼 인프라 규모와 그에 따른 비용 증가에 대한 우려가 컸다.

빅데이터의 대표적인 분산 컴퓨팅 환경은 하둡이며, 수집, 저장, 분석, 시각화 등 총 4단계의 프로세스로 분류한다. 따라서 사용자가 직접 빅데이터 분석 플랫폼을 설치 구성하고, 4단계의 프로세스를 연계 구성하는 것은 결코 쉬운 일이 아니다. 또한 플랫폼 아키텍처 구축 전략에 따라 인프라 규모가 상이할 수 있고, 이는 고비용으로 이어졌다. 이런 어려움을 해소하고자 빅데이터 기술 간소화 시장의 수요가 지속적으로 존재했으며, 2016년에는 기술, 소비 등 모든 부분에서 간소화가 이루어질 전망이다.




향후 빅데이터 확산의 강력한 모멘텀은 쉬운 배포와 강력한 기능이 될 것이다. 전통적인 빅데이터 플랫폼에서는 수집, 저장, 분석, 시각화의 각 영역을 독립적인 인프라로 구성했다. 프로세스 별로 독립적인 성능을 보장해야 하고 지속적인 데이터 증가가 예상된다면 (그림 3)과 같은 기존의 빅데이터 인프라 아키텍처 접근 방식이 적합할 수는 있다. 하지만 고비용이 발생할 수밖에 없어 일부 대기업 외에는 빅데이터를 기업 IT 환경에 접목하기 어렵다는 것이 문제다.

경우에 따라서는 소규모로 시작해 대규모 환경으로 갈 수 있는 스케일아웃(Scale-Out) 기반 확장이 가능해야 하고, 4단계 프로세스 요소를 단일 플랫폼에서 쉽게 구성할 수 있는 새로운 빅데이터 인프라 플랫폼 구축 전략이 필요할 수 있다. (그림 4)가 바로 향후 빅데이터 시장에서 사용자들이 원하는 인프라 측면의 간소화 및 고기능성의 청사진이 될 것이다.

먼저 수집, 저장, 분석 프로세스의 연계 구성을 살펴보자. 기존에는 수집 데이터를 분석하기 위해서는 내부적으로 데이터 저장 공간과 데이터 분석 공간 사이에 데이터 이행이 추가로 필요했다. 이는 일반적으로 POSIX [각주:4]계열의 파일 시스템과 하둡 파일 시스템 간의 차이에서 발생하며, 데이터 저장을 위한 필요 공간이 2배가 됐다. 이런 문제를 해결하고자 데이터 수집 및 저장 공간에서 별도의 데이터 이행 없이 직접 분석할 수 있는 저장소에 대한 요구가 지속적으로 증가했고, eScaleFS(히타치 스케일아웃 분산 파일시스템)가 그 해답이 될 수 있다.


수집, 분석, 시각화 단계에서는 각 프로세스 영역별 소프트웨어를 별도로 구매해 구성하기 때문에 복잡해지고 비용이 높아질 수밖에 없다. 이에 향후에는 빅데이터 인프라 플랫폼 환경이 단일 플랫폼에서 수집, 저장, 분석, 시각화 등 일련의 프로세스들을 통합해 간소화하고, 강력한 분석 능력이 탑재된 플랫폼으로 전환될 것이다. HSP(Hitachi Hyper Scale-Out Platform)가 향후 빅데이터 분석 플랫폼의 트렌드를 충족할 수 있을 것이며, 기업 IT에서 빅데이터 확산을 촉진할 것으로 보인다.


(그림 4) 차세대 빅데이터 플랫폼 구축 방식



 정책적 관점


과거에는 빅데이터 적용이 단순히 기업 자체의 IT 효율화 및 기업 경쟁력의 제고에만 초점이 맞춰졌던 것에 비해, 현 시점에서는 범국가적인 미래 성장 동력으로 인식되면서 산업군 전반에 걸쳐 활성화가 이루어지고 있다.

기업 IT 환경에 빅데이터를 적용한다는 것은 쉬운 일이 아니다. 빅데이터 인프라를 구성하고 필요 데이터를 수집했다 하더라도, 유의미한 분석 결과를 도출하고 비즈니스와 연계해 사업화 하기 위해서는 기업 IT 인력뿐 아니라 전문화된 데이터 분석가를 필요로 한다. 또한 관련 산업군에서 사용하는 다양한 데이터를 추가 수집 및 가공해 기업의 기존 내부 데이터와 연계하는 것 역시 많은 자원과 기술력, 그리고 높은 비용을 요구한다.


현재 정부는 빅데이터의 효용 가치와 관련 산업 육성의 필요성을 인지하고 있으며, 확산을 위해서 주도적인 역할을 수행하고 있다. 일례로 빅데이터 활용 서비스 시범 사업을 수행하면서 빅데이터 활용 기술을 검증하고 사업화 하려는 노력을 하고 있다. 또한 단순히 하나의 기업에만 국한되지 않고 산업 전반의 경쟁력 제고를 위해 우수 활용사례를 작성 배포해, 기업들이 독자적으로 빅데이터를 도입하려 할 때 겪을 수 있는 많은 어려움을 해소하는 데도 주력하고 있다. 미래창조과학부, 한국정보화진흥원, K-CIT 빅데이터센터 주도로 진행된 2015년 빅데이터 활용 스마트 서비스 시범 사업과 국내외 사례 전파가 좋은 예일 것이다.


국내 빅데이터 활용 사례


앞서 설명했듯이 지금 빅데이터는 기업 IT 환경에 대세가 되고 있다. 그렇다면 기업 IT 운영 및 지원을 담당하는 우리들은 지금 어떻게 해야 할까? 빅데이터가 향후 기업 경쟁력을 강화하고 새로운 부가가치를 창출할 뿐 아니라 신성장 동력이 될 것이라는 점은 누구도 부정할 수 없을 것이다. 이미 기술적으로 성숙되어 있으며, 기업 IT에 적용해 그 활용 가치를 검증하고 있고, 비즈니스 활용 사례들이 꾸준히 나오고 있다. 기업의 성장과 생존 전략은 아주 간단하다. 그 누구보다 먼저 확보한 기술력을 기반으로 운영을 효율화하고, 위험 관리를 강화하면서 기업 경쟁력을 높여 새로운 접근 전략 및 최적의 제품으로 시장을 선점하는 것이다. 이에 대한 해답은 빅데이터가 될 수 있다. 또한 바로 지금 이 빅데이터를 시작할 때이다.




  1. 1) 하둡(Hadoop) : 정형/비정형 데이터 구분 없이 대용량 데이터를 분산 처리할 수 있는 오픈소스 기반 플랫폼. 수천 대의 분산된 서버들을 하나의 인프라로 연결해 대용량 파일을 처리하는 ‘분산파일 시스템(HDFS)’과 분산된 서버에 저장된 데이터를 분석하는 플랫폼인‘ 맵리듀스’로 구성된다. [본문으로]
  2. 2) 매직 쿼드런트(Magic Quadrant) : 전 세계 IT 기업 및 제품별 경쟁력을 평가하는 지표. 성능, 용량, 서비스, 운영 등을 포함하는‘ 실행 능력’과 시장 이해도와 혁신, 제품 전략 등을 포함하는 ‘비전 완성도’ 등 두 가지의 까다로운 선정 기준 하에 각 분야별 전문 분석가들이 참여해 작성한다. [본문으로]
  3. 3) OLAP 큐브(Online Analytical Processing Cube) : 대량의 데이터가 서로의 변수 간에 어떤 관계가 있는지 알아내는 데이터 마이닝 기법의 하나. OLAP(Online Analytical Processing)은 최종 사용자가 다차원 정보에 직접 접근해 대화식으로 정보를 분석하고 의사결정에 활용하는 것이며, 큐브는 다차원을 의미한다. [본문으로]
  4. 4) POSIX(Portable Operating System Interface for Computer Environment) : 유닉스 운영체제에 기반을 두고 있는 표준 운영체제 인터페이스 [본문으로]