본문 바로가기

TECH ZOOM

AI와 머신러닝을 위한 고성능 스토리지, HCSF


AI(인공지능)과 ML(머신러닝), 분석 기반 고성능 컴퓨팅 시장 경쟁에서 승자는 누구일까? 당연히 복잡한 알고리즘으로 더 많은 모델을 신속하게 운영할 수 있는 기업일 것이다. 관건은 더 저렴한 비용으로 어떻게 많은 데이터에 신속하게 액세스할 수 있는지다. 이는 애플리케이션에 많은 데이터가 담겨 있어야 가능한 일이지만, 현실은 그렇지 못하다. 여전히 제자리걸음을 하는 스토리지 성능 때문이다.


끊임없는 데이터 활용 요구

GPU 덕분에 컴퓨팅 인프라는 40%까지 줄일 수 있게 됐지만, G PU가 처리해야 하는 데이터는 50%나 증가했다. 여기에 빠른 응답시간에 대한 요구가 폭발적으로 증가하고 있지만, 그때마다 컴퓨팅 리소스를 추가하는 것은 비효율적이다. 레거시 스토리지는 고성능 유지와 확장성 두 가지를동시에 만족시킬 수 없기 때문이다.

AI 연구회가 2020년 1월 조사한 바에 따르면, 인프라 및 운영 리더(I&O: Infrastructure and Operations)의 85%가 향후 2년 이내에 AI를 인프라에 활용할 예정이라고 밝혔다. AI 애플리케이션 활용에 대한 관심이 높아지고 있지만, I&O 리더 중 상당수는 증가하는 대규모 ML 배치 데이터셋에 대한 스토리지 요구사항과 데이터 관리 이슈를 해결할 만한 준비가 되어 있지 않다.

데이터 관리 프로젝트의 목표는 다음과 같다.



데이터 관리, 단계별 요구사항의 차이

데이터 관리 워크플로우는 단계별로 고유의 컴퓨팅, 스토리지, 네트워킹이 필요하다. 이 때문에 사일로가 생성되고, 문제가 발생해 비용과 시간 투자가 증가한다. 데이터 수집(Ingestion) 단계에서는 멀티 프로토콜을 통해 다양한 소스에서 데이터를 취합할 수 있어야 한다. 준비(Preparation) 단계는 고성능을 요구하지만, 추론(Inference) 단계는 낮은 지연시간이 필수적이다. 또 모델 트레이닝에는 이 두 가지가 모두 필요하다. 이렇게 모든 단계에서 대규모 확장과 자동화된 데이터 관리가 필요하지만, 이를 위해 예산을 무한정 늘릴 수는 없다.



HCSF, 모든 단계를 지원하는 통합 솔루션

HCSF(Hitachi Content Software for File)는 AI, ML, 분석 및 기타 GPU 가속화 워크로드에 적합한 고성능 스토리지 솔루션이다. 오브젝트 스토리지의 가용량과 클라우드 기능을 갖춘 분산 파일 시스템 속도를 제공하며, 파일과 오브젝트 프로토콜이 지원되어 데이터 수집이 용이하다. 분산 파일 시스템은 데이터 준비, 모델 트레이닝, 추론 단계에서 고성능과 로우 레이턴시를 모두 제공한다. HCSF의 오브젝트 스토리지는 대용량 스토리지를 더 저렴한 비용으로 이용할 수 있게 해주며, 메타데이터에 기반한 강력한 데이터 관리 자동화도 가능하다.

HCSF에 내장된 지능형 메타데이터 기반의 데이터 자동화로 컴퓨팅과 스토리지 용량을 개별적으로 확장할 수 있는 싱글 용량 풀이 생성된다. 이를 통해 온프레미스와 퍼블릭 스토리지 간 데이터 이동이 가능해져 비용 절감, 컴플라이언스 준수, 비즈니스 지속성 등의 목표를 달성할 수 있다.


HCSF의 주요 강점

엄청난 속도로 신속한 성과 도출

HCSF는 로컬 플래시 드라이브보다 3배, 기존 올플래시 어레이에 비해 10배 더 빠른 솔루션으로, 컴퓨팅 리소스를 최대한 활용해 효율성을 향상할 수 있다. 노드가 추가되면 성능 역시 향상되므로 컴퓨팅 리소스 활용이 극대화된다.

대용량 데이터의 정확한 분석

HCSF는 PB(페타바이트) 데이터셋을 간편하게 제공하며, 파일 사이즈에 상관없이 매끄럽게 처리한다. 단일 데이터 레이크인 HCSF로 통합 검색과 감사가 가능하며, 검색도 빨라 비용 절감과 감사 시간 단축 등의 이점을 누릴 수 있다. 또 관련 데이터 누락과 같은 리스크가 줄고, 빠르게 변화하는 글로벌 규제 요구에도 적절하게 대응할 수 있다.

TCO 절감에 탁월한 통합 솔루션

HCSF는 구축과 관리가 간편한 솔루션이다. 전체 데이터 파이프라인에 대해 백업 기능이 내장된 단일 스토리지로, 사일로와 중복 복사본을 제거해 데이터를 매끄럽게 이동할 수 있으며, 퍼블릭 클라우드에 대해 완벽한 유연성을 제공한다.


HCSF의 산업별 활용 분야

금융 서비스 부문

더욱 정확하고 신속한 데이터 분석 모든 공공 시장 거래의 약 90%는 정량적인 방법으로 수행되지만, 사람이 처리할 수 있는 건 소규모 데이터셋과 관련된 10개 정도의 기술 지표에 불과하다. HCSF가 지원하는 AI와 ML이라면, 수천 배 더 큰 규모의 데이터셋에서 수백 개 이상의 기술 지표를 처리할 수 있다.

충분한 데이터 분류로 안전한 데이터 보호 은행과 금융 산업은 세계적으로 규제가 가장 심한 업종이다. 정보 사일로가 많아지면 거버넌스가 제대로 작동하지 않는다. 즉 변경된 규제에 대한 적절한 대응이나 감사에 대비한 올바른 데이터 생산이 어려워진다. HCSF의 오브젝트 저장소는 현재 출시된 최고의 아카이빙 및 컴플라이언스 솔루션 중 하나다.

다양한 데이터 처리 가능 정형 데이터는 우수한 품질과 높은 통찰력을 제공한다. 그러나 기업에 보관된 데이터의 80~90%는 반정형 혹은 비정형 데이터다. 데이터에 내재한 수많은 가치가 제대로 빛을 발하지 못하는 이유다. HCSF를 이용하면 이러한 데이터셋을 활용해 분석 성과를 높일 수 있다.


생명과학 부문

적은 비용으로 더 많은 데이터 보관 데이터 증가 속도는 감당하기 어려울 정도가 됐다. 7개월마다 2배씩 증가해 2025년이면 약 40 엑사바이트에 달할 전망이다. 그리고 데이터의 급증은 예산 운영에 엄청난 부담이 된다. HCSF는 스토리지 비용은 최소로 유지하면서 언제나 데이터에 액세스할 수 있도록 하이브리드 클라우드 기능이 제공되는 효율적이고 경제적인 솔루션이다.

안전한 데이터 보호, 보장 엄청난 규모의 데이터를 관리, 보호하는 건 쉽지 않은 일이다. 기존의 백업 시스템으로는 감당할 수 없다고 하더라도 데이터는 언제나 안전하게 유지, 보존, 보호되어야 한다. HCSF에는 데이터 보호, 재해복구, 자동화된 데이터 거버넌스 기능이 내장되어 있다.

다양한 데이터 유형에 적합한 솔루션 유전체학, 단백질체학, 대사체학, 생체 이미징, 신경 연구 등을 위해 고도로 전문화된 툴이 광범위한 종류의 데이터 프로파일을 지원한다. 일부는 수천 개의 작은 파일을 생성 및 삭제하고, 일부는 몇몇 파일에 대해서만 전체 파일 활동의 80%를 할애한다. HCSF는 다양한 데이터 유형, 액세스 패턴과 애플리케이션을 지원한다.

효성인포메이션시스템의 HCSF를 통해 기업은 AI, ML, 분석 및 기타 GPU 가속화된 워크플로우 프로젝트를 바로 시작할 수 있다. AI와 ML 활용이 필요한 새로운 경쟁 환경에서는 미리 한발 앞서 더 복잡한 알고리즘으로 더 많은 모델을 운영할 수 있는 기업이 승자가 될 것이다.