본문 바로가기

IT TREND

데이터 중복제거, 선택 아닌 필수!

기업이 관리해야 하는 데이터가 폭증하는 상황에서, 양질의 정보를 적재적소에 사용하고, 데이터를 안전하게 백업하기 위해서는 더욱더 방대한 스토리지 및 이를 뒷받침 하기 위한 시스템이 필요하게 되었습니다. 그러나 기업이 사용할 수 있는 비용은 언제나 제한되어 있으며, 최소한의 비용으로 방대한 데이터를 유지 및 관리하기 위해서, 데이터 중복 제거(De-duplication)는 선택이 아닌 필수가 되어가고 있습니다.


중복제거는 서로 다른 데이터(파일)들 간에 중복되는 부분을 검출해내고 백업 파일 저장 시 중복된 부분을 제거한 후 저장하는 기술로, 스토리지 활용의 효율성을 높이는 것을 말하며, 크게 보아 데이터 압축의 일종이라고 볼 수 있습니다.


이는 기존에 일반적인 백업 솔루션이 변경한 파일 전체를 다시 한 번 백업했던 것을 이제는 데이터 중복 제거 기술을 이용하여 전체 파일을 다시 백업할 필요 없이 바뀐 단어와 그 위치만 백업하거나 같은 파일을 여러 명에게 전송했을 경우에 파일을 모두 저장하는 것이 아니라, 1개의 파일과 보낸 메일 정보만 저장하면 됩니다.


예를 들어, 특정 부서의 관리자가 새로 도입된 시스템의 설치 매뉴얼을 100명의 임직원에게 보냈다고 생각해 볼까요. 만약 데이터 중복 제거를 사용하지 않는다면 똑같은 내용의 파일임에도 불구하고 100개의 파일이 스토리지에 저장되어야 합니다. 그러나 만약 데이터 중복 제거를 사용한다면 100개의 파일을 저장하는 대신, 단 1개의 파일을 저장한 후, 그 1개의 파일을 가리키는 포인터 100개를 유지함으로써, 스토리지 사용량을 비약적으로 줄일 수 있습니다.


특히 이 기술의 장점은 전통적인 VTL이나 디스크 어레이를 백업 타깃으로 활용하는 경우와 비교할 때 스토리지 자원을 10~50배 정도 효율적으로 활용할 수 있다는 점이며, 디스크에 데이터를 더 오랫동안 보관하고 디스크에서 직접 데이터를 복구하는 지점을 여러 개로 늘릴 수 있다는 점으로 백업의 신뢰성을 한 단계 높이고 백업 속도를 향상하며 빠른 복구를 가능하게 합니다.



중복제거 기술, 산업 전반에 빠르게 확산중

실제로 IDG리서치의 조사 결과 2013년 현재 데이터 백업복구 시장의 주류 기술은 데이터 중복제거(Data Duplication)인 것으로 나타났습니다.


전세계 기업 데이터 보호 담당자 215명을 대상으로 수행한 이번 설문조사 결과를 보면 대기업은 데이터 중복제거를 이미 보편적인 기술로 이용하고 있으며, 중소중견기업도 큰 격차 없이 중복제거 기술을 적극 활용하고 있는 것으로 조사됐습니다.


IDG리서치 설문 조사 결과의 주요 내용은 다음과 같습니다. 응답자의 59%가 중복제거 솔루션을 도입했거나(43%)나 근래 도입 예정(16%)이라고 밝혀 중복제거 기술이 빠르게 보급되고 있음을 증명했습니다. 기업 규모 별로 다시 나누어 보면 대기업은 52%, 중견기업은 32%, 중소기업은 28%의 비중입니다.



또한 빠른 백업과 복구 등 데이터 보호 업무 효율이 향상되었다는 응답자가 70%에 달했습니다. 조사 대상 기업의 백업 데이터 평균 보관 주기는 3년에 달했습니다. 이처럼 긴 보관 주기 동안 급증하는 데이터를 안전하게 관리하는 데 있어 중복제거는 백업 비용 절감에 역할을 합니다.


기존의 중복제거 기술의 경우 서비스 성능 저하를 피하기 힘들었고, 더 큰 문제는 중복제거 프로세스가 성능에 영향을 주지 않도록 하기 위해 수동으로 스케줄링 작업을 해야만 했습니다.


특히 성능에 영향을 주지 않고, 용량 효율성을 동시에 높일 수 있는 중복제거 기술에 대한 수요가 높아지고 있습니다. 효성인포메이션시스템의 HNAS는 지능형 중복제거 기술을 가지고 있기 때문에 어떤 구성, 튜닝, 모니터링도 없이 자동으로 중복제거를 수행합니다.



HNAS, HUS로 성능저하 없는 스토리지 중복제거 구현

HNAS 및 Hitachi Unified Storage (HUS) 제품군에서 메인 스토리지 중복 제거 기능을 제공하고 있습니다. 성능에 영향을 미치지 않는 Hitachi의 중복제거는 다음과 같은 특징을 지닙니다.



빠른 중복제거

HDS의 독보적인 NAS 아키텍처 성능에 영향을 미치지 않는 중복제거 기능에는 FPGA의 오브젝트 기반File system Offload Engine (FOE)이 포함되어 있습니다. 즉, 중복제거의 가장 어려운 부분인 해싱 및 청킹(chunking)이 파일 속성을 유지하면서 동작함으로써 기타 NAS 어플라이언스와의 차별화 된 기능을 제공하는 것입니다. 특히 해싱 및 청킹은 퓨어 소프트웨어가 아닌 하드웨어에서 더욱 유효합니다. 기본 해싱/청킹 엔진 라이선스는 무료로 제공되며 사용자 성능 요구에 따라 3개의 추가 엔진에 대해 비용이 부과될 수 있습니다. (참고: 추가 엔진은 병렬처리를 하므로 실제적인 중복제거 성능은 4배 정도 향상됩니다)



자동화를 통한 파일 서비스 성능에 미치는 영향 최소화

파일 서비스 작업에 미치는 영향을 최소화 할 수 있는 비밀은 바로 인텔리전트 중복제거 프로세스입니다. 새로운 데이터가 추가 되는 시점을 파악해 시스템이 과도하게 작동되지 않을 때 자동으로 중복제거 엔진을 가동시키는 것입니다. 파일 서비스 워크로드가 사전에 정의된 한계점(threshold)에 도달하게 되면 중복제거 엔진은 파일 서비스 성능에 영향을 미치지 않도록 속도를 조절했다가, 시스템이 다시 정상상태로 돌아오면 자동으로 속도를 높이는 방식으로 운영됩니다.



엔터프라이즈급 확장성

HNAS 파일 시스템의 최대 크기는 256TB로, 전체 파일 시스템의 데이터가 중복제거의 대상이 됩니다. 시중의 타 제품들의 경우 임의적으로 한계를 둔다는 사실은 다소 흥미로운 부분입니다. 가령 100TB로 중복제거가 제한된 경우 고객들은 더 높은 “과세 등급”을 적용 받게 되기 때문입니다. 또한 수 페타바이트 까지 확장 가능한 HNAS 글로벌 네임스페이스는 일반적인 디렉토리 어드레스 스페이스 내에서 여러 개의 HNAS 파일 시스템(중복제거 된 시스템도 포함)을 가상화시킬 수 있으므로 엔터프라이즈급의 확장성이 보장됩니다.


중복제거 효율성

중복제거의 효율성은 데이터셋 및 파일 시스템 블록의 사이즈로 좌우됩니다. 따라서 서버 가상화 및 VDI 환경에서 중복제거는 매우 효율적으로 이루어질 수 있습니다. 한편 효율성은 알고리즘에 따라 서로 비교할 수 있습니다. 가장 큰 차이점은 성능과 확장성, 그리고 사용 편이성 입니다.



가장 중요한 이점은 낮은 TCO와 지속적인 용량 효율성

HNAS 중복 제거의 가장 주목할 만한 이점은 무척 합리적인 총소유비용을 제공한다는 것입니다. 성능과 확장성에 영향을 주지 않고 용량 효율성을 증대시키는 한편 별도의 스케쥴링 및 구성, 튜닝, 모니터링 등의 작업을 제거해 매뉴얼 개입을 최소화 시킴으로써 최적의 TCO를 제공할 수 있게 되었습니다.


HNAS 및 HUS 제품군의 성능에 영향을 주지 않는 메인 스토리지 중복제거는 현재 HDS에서 제공되고 있습니다. 그리고, 타 제품 대비 월등한 효과를 거둔 고객들이 그 성능을 입증하고 있습니다.