본문 바로가기

TECH ZOOM

빅데이터의 바다, 인공지능을 품다


2016년 3월 구글 딥마인드(DeepMind)가 만든 알파고(AlphaGo)가 세계적인 바둑기사 이세돌을 4승1패로 이긴 이후, 우리나라뿐만 아니라 전세계적으로 인공지능(AI, Artificial Intelligence)에 대한 관심이 증폭되었다. 사실 ‘인공지능’이라는 개념은 1956년 소수의 수학자와 과학자들이 모인 다트머스 회의[각주:1]에서 처음으로 탄생했지만, 여러 가지 이유로 인해 관심 밖으로 밀려나 등한시되었다.


1997년 IBM의 인공지능 딥블루(Deep Blue)가 세계 체스 챔피언을 이기는 사건이 발생했고, 이후 컴퓨팅 기술의 발전, 하드웨어의 고사양화와 함께 빅데이터 시대를 맞이하면서 인공지능은 급속도로 진화하게 된다. 1990년대 중반까지 인공지능이 선험적인 경험과 지식을 활용하는 형태였다면, 2000년대 이후부터는 기계 스스로 대량의 데이터를 통해 스스로 지식을 찾아내는 방식으로 진화하게 된다. 인공지능이란 기계로부터 만들어지는 지능으로, 인간의 학습과 추론, 언어 능력을 소프트웨어로 구현한 기술이다. 인공지능을 실현하는 수단으로는 머신러닝(Machine Learning, 기계학습)과 딥러닝(Deep Learning)이 가장 많이 활용된다. 기계 스스로 대량의 데이터로부터 지식이나 패턴을 찾아내어 학습하는 것을 '머신러닝'이라 하며, ‘딥러닝’은 머신러닝 연구의 한 부분인 인공신경망 분야에서 새로 등장한 방식이다. 인공지능은 바로 딥러닝 방식으로 인해 대전환점을 맞이하게 된다.


<그림 1> 딥러닝과 인공지능, AI 간의 관계


머신러닝과 딥러닝, 그 차이는?

앞에서 언급했듯이 머신러닝은 기계 스스로 대량의 학습 데이터로부터 지식이나 패턴을 찾아내고 학습하는 것을 말한다. 기계는 머신러닝으로 학습된 내용을 바탕으로 주어진 데이터를 특정 그룹으로 분류하거나 미래에 일어날 상황을 예측하는 등 다양한 일을 수행한다.


여기서 ‘학습’이란 주어진 입력 값에 대해 실제 결과 값에 가장 가까운 출력 값을 도출하는 인공신경망을 학습하는 것을 의미한다. (그림 2)는 입력층, 중간층, 출력층이 각각 1개로 이루어진 ‘단순인공신경망’이다. 중간층은 은닉층(Hidden Layer)이라고도 하며, 은닉층에 있는 노드를 은닉노드라고 지칭한다.


<그림 2> 단순 인공신경망의 구조


머신러닝의 분류

지도 학습(Supervised Learning) 컴퓨터에 학습을 시킬 때 사람이 개입해 정답을 달아주는 식이다.


비지도 학습(Unsupervised Learning) 사람의 개입 없이 컴퓨터 스스로가 라벨링(Labeling) 되어 있지 않은 데이터를 학습하는 방식으로, 이 세상에 존재하는 대부분의 데이터는 라벨이 붙어 있지 않기 때문에 비지도 학습은 머신러닝이 나아갈 방향이 될 것으로 본다.


강화 학습(Reinforcement Learning) 기계 혹은 컴퓨터로 하여금 현 상태에서 어떤 행동을 취하는 것이 최적인지 학습하는 방식. 하나의 행동을 취할 때마다 외부에서 보상(Reward)이 주어지며, 이 보상을 최대화하는 방향으로 학습이 진행된다. 알파고는 이 강화 학습을 활용해 머신러닝을 수행했다.


(그림 3)은 9개의 입력 값과 4개의 은닉 노드, 5개의 출력 값을 가진 심층 인공신경망의 구조다. 그림에 따르면, 입력 값으로 ‘자동차’를 입력했다면 출력 값으로 ‘car_mag’가 나와야 한다. 만약 ‘자동차’를 입력했는데 ‘car_mag’가 아닌 다른 값이 출력된다면, 입력 값에 곱해지는 가중치를 조절해 ‘car_mag’가 정상적으로 출력되도록 한다.


딥러닝도 머신러닝과 마찬가지로 각 노드로 전달되는 입력 값에 곱해지는 각각의 가중치를 계산하는 것이 핵심이다. 물론 (그림 3)과 같이 층의 계수와 노드의 수가 많아지면 계산해야 할 가중치 역시 기하급수적으로 늘어난다. 가중치를 계산하는 방법이 복잡해 질수록 강력한 컴퓨팅 파워가 필요한 것은 자명한 일이다.


과거에는 심층 인공신경망 학습을 위한 딥러닝에 필수적인 ‘컴퓨팅 파워’와 ‘학습 데이터’가 부족했기에 정상적으로 동작하지 않는 경우가 많았다. 하지만 빅데이터가 각광받으면서 충분한 학습 데이터를 확보할 수 있었고, GPU[각주:2] 기반의 컴퓨팅 파워 또한 향상되면서 학습에 소요되는 시간이 대폭 줄어들게 됐다.


<그림 3> 딥러닝으로 학습되는 심층 인공신경망 구조의 예


인간보다 더 나은 인공지능?

현재 머신러닝과 딥러닝을 활용한 인공지능 기술은 이미지·객체·음성 인식, 통번역, 자율주행 자동차 등의 방식으로 실생활에 응용되거나, 정보 보안, 공장 자동화, 수요 예측 등과 같이 기업 영역에서 활발히 적용되고 있다.


하지만 인공지능을 위한 인공신경망은 인간의 뇌와 많은 부분에서 다르다는 것을 알아야 한다. 인간의 뇌는 약 1,000억 개의 뉴런과 100조 개의 시냅스(Synapse)로 연결되어 있고 20와트의 전력만으로 충분하다. 반면, 가장 거대한 인공신경망이라 해도 규모는 기껏 해봐야 16,000개의 CPU코어 상에서 1,000만 개의 뉴런과 10억 개의 연결로 이루어져 있다. 단, 소모 전력은 300만 와트에 달한다. 또한 인간의 뇌는 5개의 감각 기관으로부터 5개 유형만 입력받는다. 아기들에게 고양이를 학습시키기 위해 10만 장이나 되는 고양이 사진을 보여주지 않아도 된다. 따라서 아직까지 인공신경망은 인간의 뇌와는 ‘비교 불가’라는 것을 인지해야 한다.


인공지능과 빅데이터의 상생

아주 솔직해져 보자. 인간은 아직 우리의 뇌가 어떻게 작동하는지 잘 알지 못한다. 그럼에도 불구하고 머신러닝과 딥러닝은 무한한 발전 가능성을 가진 ‘가장 인기 있는 분석 알고리즘’이 되었는데, 이는 앞서 언급한 대로 빅데이터 생태계의 활성화와 GPU 기반 컴퓨팅 능력의 향상에서 비롯된 것이다.


머신러닝과 딥러닝을 효율적으로 수행하기 위해서는 잘 정리된 데이터가 필요하다. 일반적으로 빅데이터를 활용하는 단계는 (그림 4)와 같이 다섯 단계로 구분할 수 있다. 이들 단계에 따라 다양한 방법을 통해 데이터를 잘 수집하고, 쓸모 없는 데이터는 버리고 여러 데이터를 통합함으로써 분석이 용이하도록 데이터를 정제하거나 저장하고, 다양한 분석 기법을 통해 인사이트를 도출해 이를 목적에 맞도록 응용하는 것이 빅데이터를 활용하는 바람직한 모습일 것이다.


<그림 4> 빅데이터 활용 5단계


다섯 단계에서 머신러닝과 딥러닝은 ‘데이터 분석’ 단계에 해당된다. 물론 그 전에 수집 데이터를 정제하는 것이 매우 중요하다. 정제된 데이터를 기반으로 머신러닝이나 딥러닝에 활용해 학습을 수행하고 학습된 결과를 다양한 영역에 응용 및 활용하는 것이 바로 인공지능의 첫걸음이다.


히타치 밴타라(Hitachi Vantara)의 빅데이터 솔루션인 Pentaho는 기업이 보유하고 있는 다양한 데이터를 효율적으로 수집해 분석하기 좋은 형태로 데이터를 정제하고 가공, 적재할 수 있는 훌륭한 도구다.


Pentaho를 기반으로 정제된 데이터는 머신러닝이나 딥러닝을 통해 다양한 분석에 활용될 수 있다.


Pentaho는 수집부터 변환, 적재, 분석, 시각화까지 데이터 활용에 필요한 일련의 기능을 모두 통합해 제공하는 원스톱 빅데이터 솔루션이다. 또한 통계 분석을 위해 R[각주:3], Weka[각주:4]와 같은 언어와 쉽게 연동해 사용할 수 있으며, 최근 머신러닝과 딥러닝의 부상과 함께 각광받는 언어인 파이썬(Python)[각주:5]과도 연동된다. 따라서 머신러닝이나 딥러닝을 이용해 비즈니스 인사이트를 확보하고자 할 경우, Pentaho를 활용해 기업이 보유한 데이터를 효율적으로 수집하고 정제해 머신러닝이나 딥러닝에 활용함으로써 기업의 부가가치 및 미래 인사이트를 확보하는데 도움이 되었으면 한다.


<그림 5> 히타치 밴타라의 빅데이터 솔루션 ‘Pentaho’



  1. 1) 다트머스 회의(Dartmouth Conference): 한 달 간 개최된 학술 회의로, ‘인공지능’이라는 분야를 확립하는 계기가 됐다. [본문으로]
  2. 2) GPU(Graphics Processing Unit): 그래픽 처리를 위한 고성능의 처리장치로 그래픽 카드의 핵심이다. 게임이나 영상편집 등 멀티미디어 작업에서 CPU를 보조하기 위한 부품으로 등장했지만 현재는 4차 산업혁명의 핵심인 인공지능(AI) 컴퓨터의 핵심 부품으로 손꼽히고 있으며, 동영상 변환 작업, 기후 변화 예측, 암호 해독 등 다양한 분야에 사용되고 있다. 인간보다 더 나은 인공지능? 현재 머신러닝과 딥러닝을 활용한 인공지능 기술은 이미지·객체·음성 인식, 통번역, 자율주행 자동차 등의 방식으로 실생활에 응용되거나, 정보 보안, 공장 자동화, 수요 예측 등과 같이 기업 영역에서 활발히 적용되고 있다. [본문으로]
  3. 3) R: 통계 계산과 그래픽을 위한 프로그래밍 언어이자 오픈소스 소프트웨어 [본문으로]
  4. 4) Weka: 뉴질랜드 Waikato 대학에서 제작한 대표적인 데이터 마이닝 도구 [본문으로]
  5. 5) 파이썬(python): 프로그램을 쉽게 설계하는 프로그래밍 언어 중 하나로, 문법이 다른 프로그래밍 언어에 비해 어렵지 않고 사람이 대화하는 것처럼 표현할 수 있어 초보자도 쉽게 배울 수 있다. [본문으로]