본문 바로가기

IT TREND

빅데이터에 대한 환상과 실체


빅데이터를 실질적으로 활용하기 위해 활발하게 움직이는 기업이 많아지고 있지만, 아직까지 도입을 망설이고 있는 기업들도 적지 않다. 또한 사물인터넷(Internet of Things: IoT) 시대가 시작됨에 따라, IT 기술에 대한 지식이 부족한 현업부서에서도 빅데이터에 대한 관심과 도입의 필요성에 대한 공감대가 확대되고 있다. 본 연재는 앞으로 4회에 걸쳐 빅데이터의 기본적인 이해부터, 트렌드, 사례, 전망 등에 대해 기술함으로써 고객에게 도움을 주고자 한다. 이번 호에서는 빅데이터에 대한 기본적인 이해를 돕기 위해 빅데이터의 유래와 특징 그리고 빅데이터에 대해 대중들이 주로 오해하고 있는 부분들을 살펴본다.



빅데이터란 무엇인가

‘빅데이터(Big Data)’라는 단어의 정확한 유래에 대해선 아직도 논란이 분분하다. 그 중 가장 유력한 설은 1990년대 인터넷 이용이 확대되면서 점차 강력한 컴퓨팅 기술이 필요하게 되었고, 1997년 7월 NASA 과학자들의 논문(Application-Controlled Demand Paging for Outof-Core Visualization)에 컴퓨터의 메모리나 디스크의 성능에 부담을 주는 것을 ‘Big Data Problem’이라고 부르면서 ‘빅데이터’라는 용어가 처음으로 등장하게 되었다는 것이다. 갈수록 세상은 디지털화되고 있으며 우리가 상상하는 것 이상으로 데이터는 거대해지고 있다. 미국의 한 연구기관에 따르면, 세상에 존재하는 모든 데이터의 90%가 지난 2년(2014~2015년) 간 생성된 것이며, 인터넷 상에 존재하는 데이터의 상당량이 사람이 아닌 디지털 기기 및 센서와 같은 사물에 의해 자동으로 수집된 데이터라고 한다. 아울러 데이터의 양은 매년 40%씩 증가해 2020년에 약 50배가 증가할 것으로 예상되고 있다. 이처럼 빅데이터는 방대한 양과 깊은 연관성이 있는 것은 사실이다.



2015년 빅데이터 용량 분석, Hitachi


2005년 데이터 분산처리 기술인 하둡(Hadoop)이 탄생하고, 구글(Google)이나 아마존(Amazon)과 같은 인터넷 기업의 빅데이터 성공사례가 소개되면서, 2011년 이후 빅데이터에 대한 관심은 급격하게 커졌다. 여러 기관들이 주목해야 할 기술로 빅데이터를 지목했지만, 어떤 기관 또는 기업에서 정의했는가에 따라 의미가 조금씩 다르게 해석된다. 대표적인 몇 가지 정의들을 살펴보면, 빅데이터를 3Vs: Volume(용량), Variety(다양성), Velocity(속도) 또는 4Vs:3Vs+Value(가치)로 정의하는 것이 가장 일반적임을 알 수 있다.





데이터, 어떻게 분류하나

모바일 기기, 센서, 소셜 네트워크 등의 사용이 급격히 증가하면서 조직에서 활용하고자 하는 데이터의 형태도 매우 다양해지고 복잡해지고 있다. 일반적으로 데이터는 사람 혹은 기계에 의해 생성되는데, 데이터의 위치에 따라 내부 데이터와 외부 데이터로 구분할 수 있으며, 데이터의 형식에 따라 다음과 같이 3가지로 분류한다.




기존에 정형 데이터를 분석·활용해오던 것에서 더 나아가, 이제는 빅데이터 기술을 통해 반정형 데이터 및 비정형 데이터를 포함한 다양한 디지털 데이터를 수집·저장·분석해 활용해야 한다는 것을 알 수 있다.



빅데이터, 어떻게 구현되나

현재 빅데이터의 표준 기술이 존재하는 것은 아니지만, 일반적으로 인프라스트럭처에 해당하는 ‘하드웨어 영역’과 데이터를 관리 및 분석해 의사결정을 지원하는 ‘소프트웨어 영역’ 으로 구분하거나, 빅데이터를 활용하는 4단계 프로세스에 따라 수집, 저장, 분석, 시각화 기술로 구분하는 것이 보편적이다.


빅데이터 기술로 가장 자주 언급되는 하둡(Hadoop)은 오픈소스에 기초한 분산 컴퓨팅 플랫폼으로, 대용량의 비정형 데이터를 처리하는 데 가장 널리 사용되고 있다. 다양한 형식의 대규모 컴퓨팅이 요구되는 연산처리 환경을 제공하는 맵리듀스(MapReduce) 기술과 하둡 분산 파일시스템(HDFS)은 고확장성과 대용량 데이터의 저장 환경을 제공한다. 또한 하둡을 보완하는 여러 에코시스템은 대용량의 데이터를 수집, 저장, 처리하는 데 사용되고 있다. 실제 빅데이터 분석 프로젝트를 수행할 경우에는 하둡 기반의 플랫폼을 사용하면서도 에코시스템을 사용하거나, 안정적이고 편리한 빅데이터 활용을 위해 상용 소프트웨어들과 연계하기도 한다.



데이터 수집

조직 내·외부에 있는 다양한 형태의 원천 데이터를 빅데이터 플랫폼에 수집하는 과정이다. 수집 과정에서 하둡 에코시스템의 ‘Sqoop’이나 ‘Flume’, 파일을 전송하는 FTP, 웹서비스 아키텍처 REST와 같은 ‘OpenAPI’ 혹은 웹사이트(인터넷 게시판, 뉴스 기사 등)로부터 데이터를 수집하기 위한 ‘웹 크롤링(Crawling)’ 도구가 사용될 수 있다. 또한 스케줄링을 통해 간편하게 이기종의 데이터를 수집 할 수 있는 Pentaho DI(Data Integration)와 같은 상용 ETL(추출, 변환, 적재) 솔루션도 사용한다.


데이터 저장

수집 데이터를 분산 파일시스템 기반의 스토리지에 저장하거나, 분석 과정을 위해 데이터를 가공 및 처리해 NoSQL 혹은 관계형 데이터베이스(RDBMS)에 저장하는 과정이다. 대표적인 분산 파일시스템으로는 GFS(구글 파일시스템), HDFS, eScaleFS(히타치 스케일아웃 분산 파일시스템) 등이 있다. 데이터 적재를 위해서는 필터링, 변환, 정제 등 일련의 작업이 필요하며, 용이한 분석을 위해 가공 및 통합 작업 등이 필요하다. 역시 이 과정에서 Pentaho DI는 매우 유용하게 활용된다.



데이터 분석

수집 및 저장된 데이터를 용도에 맞게 통계, 데이터 마이닝, 머신러닝과 같은 기법들을 이용해 분석을 수행하는 과정이다. 하둡 에코시스템인 Pig, Hive, Mahout 등이 사용될 수 있으며, 고급분석을 위해 오픈소스 통계 패키지인 R과 Weka를 연계한 Pentaho BA가 사용될 수 있다. 또한 실시간 분석을 위해 인메모리 데이터베이스나 스트리밍 분석 기술이 사용된다.



데이터 시각화

분석된 결과에 대한 신속한 의사결정을 돕기 위해 복잡한 정보를 직관적인 표현으로 시각화하는 과정이다. Pentaho BA를 통해 기존에 활용되던 그래프나 차트 외에도 3D 맵 등 다양한 그래픽으로 시각화가 가능하며, 대시보드 및 보고서 형태로 여러 사용자들이 정보를 공유할 수 있다.



하둡의 주요 에코시스템

Sqoop
기능: RDBMS 연동
RDBMS에 저장되어 있는 데이터를 하둡 파일시스템으로 옮기거나, 이를 다시 RDBMS에 저장
Flume
기능: 데이터 수집
다양한 형태의 데이터를 하둡의 저장소에 저장
Hive, Pig
기능: 스크립트 언어
SQL과 유사한 스크립트를 이용해 데이터 처리
HBase, Cassandra, MongoDB
기능: NoSQL
고정된 테이블 형식을 필요로 하지 않으며, 관계형 데이터베이스에 비해 데이터의 일관성보다는 확장성이 보장되는 읽고 쓰는 작업에 최적화된 기능을 제공
Mahout
기능: 기계 학습
하둡에서 실행되는 머신러닝 라이브러리
ZooKeeper
기능: 분산 코디네이터
분산 환경에서의 자원 제어, 메타 데이터 관리 등




빅데이터에 대한 7가지 오해

01 빅데이터는 과거에 없던 새로운 것이다.

남들보다 많은 데이터를 확보하고 분석해 활용하고자 하는 욕망과 기술은 아주 오랜기간 지속되어온 현상이다.

빅데이터는 새로운 개념이라기 보다는 과거에 비해 디지털 기술 진보가 빠르게 진행되면서 데이터 양이 늘어나고 형식이 다양해지고 처리 성능도 높아짐에 따라 자연스럽게 각광받게 된 것이다.


02 빅데이터는 비정형 데이터를 처리한다.

빅데이터는 새로운 개념이라기 보다는 과거에 비해 디지털 기술 진보가 빠르게 진행되면서 데이터 양이 늘어나고 형식이 다양해지고 처리 성능도 높아짐에 따라 자연스럽게 각광받게 된 것이다.


하지만 데이터를 의미있게 활용하기 위해서는 데이터 형식과 상관없이 분석을 위해 필요한 다양한 형태의 데이터를 연계하고 상관관계 등을 식별해 처리해야 할 것이다.


03 빅데이터를 도입하려면 처음부터 크게 시작해야 한다.

빅데이터 도입 시 가장 많은 편견은 데이터는 많을수록 좋으며, 빅데이터를 통해 모든 문제를 해결하기 위해서는 처음부터 Big하게 시작해야 한다는 생각이다. 하지만 데이터가 아무리 많다고 하더라도 질적으로 효용 가치가 매우 낮은 경우 잘못된 의사결정을 유도할 수도 있으며, 빅데이터를 통해 얻고자 하는 결과를 기간 내 도출하기 어렵게 만들어 빅데이터 전반에 대해 회의적인 태도를 갖게 할 수 있다. 따라서 빅데이터 도입 초기에는 단순하더라도 양질의 데이터를 활용하고 점차적으로 확대 가능한 주제를 선정해 시작하는 것이 매우 중요하다.


04 빅데이터는 IT부서에서 수행해야 한다.

일반적으로 IT 부서는 빅데이터 기술에 초점을 두지만, 빅데이터 도입의 기본 목적은 비즈니스 의사결정의 효과적인 지원에 있다. 빅데이터 도입을 수행하는 부서는 기업내 비즈니스와 연관된 모든 현업 부서(영업, 마케팅, 생산, 판매, 품질 등)가 될 수 있으며 이에 대한 기술지원을 IT 부서에서 수행하는 것이 이상적이다. 단, 여러 현업 부서가 동시에 빅데이터 도입을 필요로 하거나 전사적인 IT자원 통합이 필요한 경우, IT부서가 주도적으로 진행하는 것이 효과적 일 수 있다.


05 뛰어난 분석가가 빅데이터를 처리해야 한다.

통계적 기법에 기반해 수집 데이터로부터 객관적인 사실이나 패턴을 발견하고 예측 데이터를 도출하는 과정에서 분석가가 큰 역할을 수행하는 것은 사실이다. 하지만, 다양한 대용량의 데이터를 수집 및 저장해 실제 분석가들이 활용할 수 있도록 데이터를 가공하는 일련의 작업 또한 중요한 과정이다. 분석가뿐만 아니라 데이터 아키텍트, 현업 업무 전문가, 시스템 엔지니어들의 긴밀한 협조가 필수적이다.


06 빅데이터는 데이터가 커야 하고, 대기업을 위한 것이다.

빅데이터가 대용량이라는 것은 극히 부분적인 정의로, 4Vs(Volume, Velocity, Variety, Value)를 고려해보면 중소기업에서도 빅데이터로부터 비즈니스적 가치를 찾고 신속한 의사결정에 활용해야 할 것이다.


07 빅데이터는 하둡으로 완벽하게 처리할 수 있다.

빅데이터를 활용하는 데 있어 하둡이 유용한 솔루션인 것은 사실이지만, 유일한 솔루션이 될 수는 없다.


하둡의 핵심 기능은 대용량의 비정형 데이터를 여러 곳에 분산해 저장하고 처리할 수 있도록 하는 것이다. 실제 다양한 데이터를 수집, 처리, 분석 및 시각화하는 과정에서 하둡 에코시스템보다는 안정적이며 다양한 편리기능을 제공하는 상용 솔루션을 선호하는 사례도 많다. 따라서 빅데이터 도입시 하둡 기반의 플랫폼을 상용 솔루션과 연계해 구성하는 것이 합리적인지도 고려해야 한다.