기업의 비즈니스 성장을 위한 새로운 기회는 자산으로서의 데이터를 어떻게 활용 하느냐에 달려 있다. 구글, 야후, 페이스북 등 웹 기업들은 아파치 하둡(Apache Hadoop)과 맵리듀스(MapReduce) 1로 대용량의 데이터 자산을 저장·관리하고, 분석 솔루션을 이용해 비즈니스 통찰력을 끌어낸다. Hitachi HSP(Hyper Scale-Out Platform)는 서버 컴퓨팅, 서버 가상화, 스토리지를 하나의 어플라이언스에 견고하게 통합한 하이퍼 컨버지 (Hyper-converged) 플랫폼 2이다. 서버와 스토리지 인프라를 개별적으로 가상화할 필요가 없어 운영 비용과 설비투자 비용을 절감할 수 있다. 컴퓨팅과 데이터 집약적인 운영이 가능해 하둡/분석 작업에 이상적인 솔루션이다. 3
엔터프라이즈급 하둡/분석 툴의 부상
많은 기업들은 현재 구조화되고 중앙집중화된 데이터를 분석하는 솔루션을 도입할 수 있는 여력이 충분하다. 그러나 기존의 데이터 자산을 통찰력 있는 정보로 전환해 경쟁력을 확보하고자 하는 기업이라면 전통적인 방식이 아니라 최신의 데이터 아키텍처와 분석 툴을 도입해야 할 것이다. 하둡 에코시스템과 빅데이터 분석 애플리케이션이 필요한 이유다.
그러나 웹 기업과 일반 기업들 간에 하둡/분석 인프라에 대한 접근 방식에 몇 가지 차이가 있다. 웹 기업과 달리 일반 기업들은 레거시 데이터와 차세대 데이터에 대한 분석 애플리케이션을 동시에 지원해야 하고, 규모도 웹 기업에 비해 작다. 웹 기업은 대부분 직접 채용한 사내 전문가를 통해 자체적으로 하둡/분석 솔루션을 활용하고 있으며, 일반 IT 인프라 규모도 상당하다. 뿐만 아니라 하둡/분석 전용의 서버팜도 운영한다. 그러나 일반 기업이라면 기존의 엔터프라이즈 애플리케이션과 하둡/분석 인프라를 함께 운영하는 것이 더욱 효과적이다.
Hitachi HSP와 같은 하이퍼 컨버지드 솔루션을 이용하면 일반 기업들도 웹 2.0기업들처럼 데이터 자산을 충분히 활용할 수 있다. 또 전문가를 별도로 채용하지 않고도 하둡/분석 작업, 전통적인 사내 업무, 컴퓨팅, 스토리지 등 각각의 인프라에 집중할 수 있다.
엔터프라이즈 하둡/분석을 위한 최선의 선택은?
Hitachi HSP는 가상 머신 상의 애플리케이션으로 데이터 소스를 운영한다. HSP에서는 데이터와 컴퓨팅이 각각 로컬에서 동작한다. 이는 HSP가 하둡/분석 작업의 본질적 특성, 즉 컴퓨팅과 데이터 집약적 측면에서 최적의 솔루션이라는 것을 의미한다. HSP는 대용량 데이터를 고속으로 취합하며, 하둡 클러스터 내 스토리지와 서버 간 데이터 이동이 끊이지 않을 때 발생하는 성능 저하 이슈를 해결했다. 또한 다양한 유형의 데이터를 HSP를 통해 데이터 레이크(Data Lake)로 취합하여 하둡/분석 애플리케이션에의 적용이 용이해진다. HSP를 이용해 대규모 데이터를 수집해 분산 처리하는 하둡 워크로드와, 저장된 대규모 데이터를 추출, 정제, 분석하는 가상화 기반 분석 워크로드를 동시에 구동할 수 있다. 또한 성능 극대화를 위해 최대 100 노드까지 확장 가능한 HSP 클러스터 간 데이터 밸런싱이 자동으로 이루어진다. 4
Hitachi HSP의 구현 원리
즉각적인 배치 가능 ‘준비는 끝났다’
HSP는 고속 컴퓨팅을 위해 듀얼 인텔 제온 E5v3 시리즈 프로세서를 채용한 하이퍼 컨버지드 솔루션으로 즉각적인 배치가 가능하다. 가상 머신 관리 툴이 탑재돼 있으며, 공유 스토리지를 위해 글로벌 네임스페이스(Global Namespace)를 지원하는 자체 엔터프이즈 스케일아웃 파일 시스템(eScaleFS)을 사용한다. 또한 스토리지 클러스터에서 데이터가 위치한 지점과 데이터가 노드에 추가된 지점을 자동으로 추적할 수 있도록 자동화 알고리즘을 기반으로 대규모 병렬 프로세싱을 수행한다. 단일 장애포인트(SPOF: Single Point of Failure) 5도 전혀 발생하지 않는다. HSP는 단일 노드의 장애 혹은 전체 랙의 장애 상황에서도 클러스터가 중단 없이 동작하는 고가용성을 보장한다. 프로세싱과 분석 작업 중 적절한 비트가 늘 사용될 수 있도록 동기화된 3중 데이터 복제 정책을 적용하고 있다. 6
Hitachi HSP, 하둡/분석 그 이상의 워크로드 가능
HSP는 하둡/분석 이상의 워크로드를 수행할 수 있다. 즉, KVM(Kernel-based Virtual Machine) 컴퓨팅 환경에서 동작하는 모든 종류의 애플리케이션을 운영할 수 있다는 말이다. 웹 프론트엔드를 통해 분석 결과물을 공유하거나 자체 개발한 빅데이터 분석 애플리케이션을 운영할 계획이라면 HSP가 최적의 선택일 수 있다. HSP는 또 일반적인 목적의 콘텐츠 제공 도구로도 활용할 수 있다. HSP의 엔터프라이즈 스케일아웃 파일 시스템(eScaleFS)은 하둡/분석 이상의 광범위한 호환성을 지원하는 읽기-쓰기 표준 POSIX파일 시스템으로, 하둡 기반 분석 애플리케이션을 호스팅하거나 전통적인 POSIX 애플리케이션에 적합한 데이터 레이크를 생성하는 데도 최적의 시스템이다. HSP는 글랜스(Glance), 노바(Nova), 스위프트(SWIFT) API를 지원하는 등 오픈스택(OpenStack)과도 호환되므로, 오픈스택 기반의 프라이빗 클라우드 내 다른 가상화 인프라와도 함께 관리할 수 있다. 또한 100개 이상의 노드로 구성된 대규모 분산 클러스터의 고성능을 보장하기 위해 브로케이드(Brocade)의 고속, 엔터프라이즈급 10Gbps급 스위치가 탑재 돼 있다. 이를 통해 노드 간 대기로 인해 발생하는 잠재적인 네트워크 문제를 피할 수 있다. 7
KVM 컴퓨팅 환경기반의 Hitachi HSP
Hitachi HSP가 데이터 아키텍처의 대세인 이유!
현재 데이터 아키텍처 분야의 2가지 주요 트렌드는 하이퍼 컨버지드(Hyperconverged)인프라와 빅데이터 분석이다. 그러나 이 2가지 모두 엄청난 규모의 데이터 사일로(Data silos)때문에 골머리를 앓고 있다. HDS(Hitachi Data Systems)가 최근 선보인 차세대 플랫폼 Hitachi HSP(Hyper Scale-out Platform)는 데이터 사일로를 통합하므로 이러한 문제를 단번에 해결해준다. 펜타호 엔터프라이즈 플랫폼과 통합되어 완벽한 빅데이터 어플라이언스를 구성할 수 있게 된 덕분이다. 8
01 하이퍼 컨버지드(Hyper-converged)인프라는?
하이퍼 컨버지드는 단일 벤더가 지원하는 상용 하드웨어 박스(어플라이언스)에 컴퓨팅, 스토리지, 네트워킹, 가상화 리소스가 견고하게 통합된 소프트웨어 집중형 아키텍처 인프라다. IDC에 따르면 이 분야의 주요 벤더로는 뉴타닉스(Nutanix), 심플리비티(Simplivity) 등이 있다. 많은 벤더들이 VM웨어의 EVO:Rail을 지원하며, HDS는 UCP 1000 솔루션에서 EVO:Rail을 제공한다. 데이터 관리, 다중 노드 클러스터, 데이터 공유 리소스 스케일 아웃을 위해 분산 파일 시스템을 사용하는 경우도 많다.
02 빅데이터 분석은?
빅데이터 분석은 다양한 종류의 데이터가 포함된 대용량 데이터에 대한 프로세싱을 필요로 한다. 이러한 프로세싱을 통해 기업은 데이터로부터 잠재된 패턴 혹은 연관성을 찾아내 비즈니스에 유용한 통찰력을 확보할 수 있다. 많은 기업들이 대용량 데이터의 더 빠른 프로세싱을 위해, 분산 컴퓨팅 환경에서 대용량 데이터 프로세싱을 지원하는 오픈소스 프로그래밍 프레임워크인 하둡(Hadoop)과 같은 신기술에 상당한 관심을 보이고 있다. 하둡 파일 시스템은 수백, 수천 노드의 데이터를 빠르게 전송한다. 데이터 관리와 분석 기반 통찰력을 확보하려 할 때 전통적인 방식에 비해 상당히 빠른 방법이다. 한 가지 문제점이 있다면 관련 데이터가 모두 하둡 파일 시스템에 로딩되어야 한다는 점이다. 이 때문에 하이퍼 컨버지드 인프라에서 생성된 데이터를 분석하려면 먼저 데이터를 추출해 변형한 후 하둡 시스템에 로딩해야 한다.
03 Hitachi HSP는?
Hitachi HSP(Hyper Scale-out Platform)는 하둡, 아파치 스파크, 카산드라, 오픈스택등 인기 있는 다른 빅데이터 분석 프레임워크의 관리를 간소화할 수 있도록 설계된 턴키(Turn-key) 방식의 하이퍼 컨버지드 시스템이다. HSP의 하이퍼 컨버지드 패키징은 설치가 간단해 빅데이터 프로젝트를 수행할 때 발생하는 복잡성을 해소할 수 있다.
가상화는 HSP 노드의 가상 머신에서 애플리케이션이 데이터에 접근할 수 있도록 오픈소스 KVM(Kernel-based Virtual Machine)을 기반으로 한다. 따라서 데이터를 애플리케이션으로 이동할 필요가 없으며, 서로 다른 노드의 동일한 데이터에 대해 애플리케이션과 분석 인프라를 운영할 수 있다. HSP 파일 시스템은 모든 노드에 메타데이터를 분배하므로 각각의 노드가 전체 데이터의 위치를 파악할 수 있으며, HDFS API를 통해 하둡에 대해 투명성을 제공한다. 표준 POSIX를 준수하므로 다른 분석 툴이 HSP에 저장된 데이터에 액세스할 수 있어 데이터를 추출해 다른 스토리지 시스템으로 이동할 필요가 없다.
04 펜타호와의 통합으로 더 강력해진 Hitachi HSP
Hitachi의 차세대 HSP는 턴키 빅데이터 어플라이언스로 제공되며, 펜타호의 오픈소스 기반 데이터 통합과 비즈니스 분석 플랫폼이 탑재돼 있다. 펜타호는 트랜잭션이 진행 중인 비정형 데이터를 포함해 다양한 종류의 데이터 소스가 ‘혼재된’형태로 함께 전송될 수 있도록 PDI(Pentaho Data Integration)툴 셋을 제공한다. 펜타호 CTO인 제임스 딕슨은 차세대 HSP의 특징을 명료하게 정리했다. 그는 “HSP-펜타호 어플라이언스는 복잡성을 제거한 현대적이고 확장 가능한 하이퍼 컨버지드 플랫폼을 통해 레거시 애플리케이션과 데이터 웨어하우스를 포함해 모든 종류의 이질적인 데이터와 워크로드를 통합하는 엔터프라이즈급 옵션이다. 컴퓨팅, 분석, 데이터 관리 기능을 플러그 앤 플레이로 통합한 미래지향적인 아키텍처로 간소화된 단일 어플라이언스를 제공하는 HDS와 협력할 수 있게 돼 매우 만족스럽다. Hitachi HSP 400은 전체 분석 프로세스 간소화라는 측면에서 크게 한 걸음 나아간 것이다.”라고 말했다. 9
HDS의 엔터프라이즈급 빅데이터 인프라스트럭처
- 1) 하둡 : 분산 파일 시스템을 목적으로 한 데이터베이스 [본문으로]
- 2) 맵리듀스 : 대용량 데이터를 분산 병렬 컴퓨팅 환경에서 처리하기 위한 목적으로 구글이 제작해 2004년 발표한 소프트웨어 프레임워크 [본문으로]
- 3) 하이퍼 컨버지드 플랫폼 : 가상 서버와 스토리지를 통합된 하나의 어플라이언스에 결합해 스케일아웃 형태로 성능 확장이 가능해져 관련 비용과 시간을 줄일 수 있다. [본문으로]
- 5) 데이터 레이크 : 데이터를 실제 사용하기 전 다양한 종류의 데이터를 저장해 두는 오브젝트 기반 저장소. 데이터 소스를 원본 상태로 가져와 애플리케이션에서 해당 데이터를 분석할 수 있도록 하는 접근이 필요하다. [본문으로]
- 6) 글로벌 네임스페이스 : 서로 다른 OS를 사용하는 서로 다른 제조사의 파일 스토리지들을 마치 1대의 파일 스토리지가 있는 것처럼 클라이언트에게 보여주는 기능 [본문으로]
- 7) SPOF : 정보시스템의 각 컴포넌트에 대한 하나의 장애(Failure)로 인해 시스템 전체에 영향을 미칠 수 있는 포인트를 말한다. [본문으로]
- 8) POSIX(Portable Operating System Interface for Computer Environment) : 유닉스 운영체제에 기반을 두고 있는 표준 운영체제 인터페이스 [본문으로]
- 9) 사일로 : 데이터가 격리되고 호환되지 않는 데이터 [본문으로]
- 10) PDI(Pentaho Data Integration) : 데이터의 형식에 구애받지 않고, 모든 데이터를 처리하고 변형하며 로딩하는 펜타호의 ETL(Extract, Transform and Load) 솔루션 [본문으로]
'Tech ZOOM' 카테고리의 다른 글
Pentaho 고객들이 말하는 Pentaho의 장점 (0) | 2016.04.20 |
---|---|
빅데이터 분석의 참맛을 보여주다 (0) | 2016.04.05 |
HDS, SAP, Intel의 빅데이터 인프라 (0) | 2016.03.28 |