재해가 급증하면서 비즈니스 연속성과 데이터 보호를 위한 재해복구(DR)가 ‘뜨거운 감자’로 떠오르고 있다. 재해복구 시스템 구축 여부에 따라, 재해 발생 시 희비가 극명하게 갈리기 때문이다. 한정된 예산과 복구 방법 선택에 어려움을 겪는 기업들을 위해 최적의 데이터센터 재해복구 전략을 소개한다.
100% 안전한 데이터센터는 없다
지난 2000년 9월, 한 금융사 건물에서 스프링클러가 작동하면서 전산실 가동이 중단되고 지점 단말기, 홈페이지, 사내망 등 모든 전산 시스템이 멈추는 일이 발생했다. 2010년 겨울에는 공조기의 오작동으로 데이터센터 내 난방 파이프가 동파되고 누수가 발생해 서버가 침수되면서 서비스가 2주간 중단되었다.
기업의 주요 자산인 데이터를 관리하는 인프라에 발생하는 재해는 자산 손실과 매출 감소를 넘어, 서비스 사용자 또는 사회적인 불편과 혼란을 초래하는 ‘재난’이라고 할 수 있다.
이 외에도 지진·홍수 등 자연재해, 정전·화재 같은 사회적 재해, 전쟁 등 데이터센터에 발생하는 재난 및 재해는 종류가 많고 빈도도 잦다. 뿐만 아니라, 인프라 장애나 사람에 의해 발생하는 데이터 삭제나 손실, 해커 등 사이버 공격까지 합치면 100% 안전한 데이터센터는 없다고 해도 과언이 아니다. 따라서 위험으로부터 인프라를 예방하고 보호, 복구하려는 노력이 무엇보다 중요하다.
재해에 대비해 이중화, 재해복구 인프라 등을 갖췄음에도 불구하고 IT 시스템 장애나 재해로 서비스가 중단되는 사례가 많은 이유는 뭘까. 이는 필요한 재해복구 기술이 제대로 구현되지 않아 서비스 전환에 오랜 시간이 걸리거나 데이터 복구 품질이 기대 수준에 미치지 못했기 때문이다.
재해복구의 목표는 ‘RPO 제로’
데이터센터에 피해가 발생했을 때 기준이 되는 것은 RTO(Recovery Time Objective: 복구 목표 시간)다. RTO는 IT 시스템이 장애나 재해로 인해 서비스가 중단됐을 때 서비스를 원상 복구하는 데 걸리는 최대 허용 시간을 말한다. 현재 금융권에서는 핵심 업무의 RTO를 3시간 이내로, 보험회사는 24시간 이내로 엄격하게 규정하고 있다.
이때 RTO에 영향을 미치는 중요한 요인이 RPO(Recovery Point Objective, 복구 목표 시점)다. RPO는 재해 발생 후 기업이 운영을 재개하기 위해 백업 스토리지에서 복구해야 하는 파일의 최대 백업 주기를 의미한다.
RPO 시간이 빈 만큼의 데이터는 수기나 다른 시스템에 저장된 데이터로 복구해야 하는데, 복구 절차가 복잡해질수록 시간이 많이 소요되고 RTO에도 영향을 미친다. 이 때문에 많은 기업들은 ‘RPO 제로’를 목표로 시스템을 구축하고자 한다. 그리고, RPO 제로라는 목표에 필수 불가결한 요건은 바로 실시간 동기화를 통한 이중화다.
RPO 제로에 가장 이상적인 데이터 복제 방식은 동기식이다. 하나의 서버와 별도로 2개의 분리된 스토리지에 데이터를 두고 원본과 복제본을 만든다. 다만, 원본과 복제본에 쓰기가 완료될 때까지 서버 애플리케이션이 대기하므로, 물리적 거리에 따라 애플리케이션 응답 지연이 발생할 수 있다. 따라서 원본과 복제본 간 거리를 100km 이내로 가깝게 배치한다.
이러한 동기식을 개선한 것이 액티브-액티브 미러링(Active-Active Mirroring)이다. 원본과 복제본을 구분하지 않고 두 개의 스토리지 모두 동시에 읽기/쓰기를 지원한다. 두 개의 스토리지 볼륨을 하나로 인식하기 때문에, 어느 하나에 장애가 발생하더라도 다른 스토리지에서 서비스를 지속할 수 있다. 액티브-액티브 미러링은 RPO=0라는 미션을 충족하기 때문에 가장 이상적인 재해복구 모델로 활용되고 있다.
다양한 복제 방식으로 선택의 폭 확대
메인 스토리지 저장과 별개로 백그라운드에서 데이터를 원격지에 복제하여 동기방식의 성능 저하 문제를 해결한 비동기식 복제 방식이 있다. 원격지에 복제하는 방식은 원격 스토리지 거리 제한 문제는 해소되지만, 솔루션에 따라 수초에서 10분 이상의 RPO와 데이터 손실 가능성이 있다.
일반적인 비동기 방식은 수분 이상의 정합성을 위해 배치 기반 데이터 전송을 취하지만, 동기식과 유사하게 실시간 전송을 지원하는 솔루션도 있다. 히타치 유니버설 리플리케이터(Universal Replicator)가 비동기 실시간 전송 방식을 사용하는 대표적인 솔루션이다. RPO를 최소화하고, 100km 이상의 원격 복제 동기화 환경에서도 응답 성능을 보장한다. 이 솔루션은 현재 국내 주요 기업과 정부 기관에서 제 역할을 톡톡히 해내고 있다.
동기 복제와 비동기 복제의 단점을 극복한 하이브리드 복제 방식도 있다. 이는 동시에 3곳의 데이터센터에서 데이터를 동기화하는 3 데이터센터 복제 방식이다.
3 데이터센터는 근거리는 동기식으로 이중화하고, 원거리는 비동기식으로 운영하는 제3의 데이터센터를 둔다. 정전, 침수, 화재 등이 발생하면 근거리의 동기식 복제로 데이터를 복구할 수 있고, 전쟁 및 지진 등 광범위한 재해를 대비해 수백km 이상의 데이터센터에 동기화 복제본을 통해 복구할 수 있는 장점이 있다.
3 데이터센터 구성 중 액티브-스탠바이로 불리는 동기식과 비동기식을 결합한 방식은 예전부터 사용되어 왔으며, 최근에는 액티브-액티브 미러링과 비동기식을 혼합한 구성이 증가하고 있다.
재해복구 시스템의 기반, 안정적인 인프라
이처럼 다양한 재해복구 방식 중에서 하나를 선택하려면 시스템 복구 시간과 복구 범위, 비즈니스 영향, 업무 중요도 등을 종합적으로 고려해야 한다. 모든 서비스가 재해 이전의 정상 수준으로 돌아가려면 데이터를 포함해 애플리케이션, 서버, 네트워크 등 환경도 복구해야 한다. 만약 RTO가 3시간, 24시간 등으로 정해진 핵심 업무의 데이터를 복구해야 한다면, 그 시간 안에 모든 관련 인프라 역시 함께 복구되어야 한다는 의미다.
따라서 데이터 복구 대책을 세운 이후에는 시스템 복구도 신경을 써야 한다. 기업의 핵심 업무에는 비용과 난이도가 높더라도 데이터를 실시간 이중화로 복제해 재해가 발생해도 즉시 대체나 전환이 가능한 미러 사이트 또는 핫 사이트급의 복구 정책을 적용해야 한다.
따라서 재해복구 인프라를 염두에 두고 데이터센터를 구성한다면, 어떤 미션 크리티컬한 환경에서도 안정적으로 운영이 가능한 고가용성 스토리지를 선택해야 한다.
효성인포메이션시스템은 100% 데이터 가용성을 보장하며 고성능 NVMe 기반으로 경제성과 효율성을 중시하는 미드레인지급 VSP E 시리즈부터 업계 최상의 기준을 충족하는 하이엔드 스토리지 VSP 5000 시리즈까지 기업의 환경에 최적화할 수 있는 솔루션을 제공한다.
국내 하이엔드 스토리지 점유율 1위를 기록하고 있는 VSP 시리즈는 재해복구 인프라로서도 최상의 성능을 자랑한다. 등급이 같은 제품 간에만 복제 기능을 허용하는 타사의 솔루션과 달리, VSP 시리즈는 미드레인지부터 하이엔드까지 전 기종 간 복제 구성이 가능해 비용효율성이 높다. 또한 탑재된 스토리지 가상화 기능으로 유휴 장비를 DR 자원의 일부로 사용할 수도 있다.
VSP는 업계 유일의 저널 기반 실시간 비동기 방식 솔루션으로, 평상시에는 실시간으로 데이터를 복제하고 과부하나 장애가 발생할 때는 별도로 할당된 저널 디스크로 데이터를 저장 전송하는 알고리즘으로 동작한다. 따라서 복제가 끊길 가능성을 최소화하고, 네트워크 대역폭을 효율적으로 사용한다. 또한 타임 스탬프와 시퀀스 넘버를 통해 데이터 정합성을 완벽하게 보장한다.
GAD 탑재한 DR 포트폴리오 확장
효성인포메이션시스템은 갈수록 민첩해지는 IT 환경에 맞춰 재해복구 프로세스에 최적화된 솔루션 포트폴리오를 확장하고 있다.
먼저, 스토리지 전 제품군에 동일한 SVOS(Storage Virtualization Operating System) 운영체제(OS)를 적용했다. 미드레인지와 하이엔드 간 완벽한 재해복구 솔루션 호환성을 확보하고 AI 기반의 통합관리 소프트웨어인 옵스센터(OpsCenter)를 제공한다.
실시간 액티브-액티브 이중화 솔루션인 스토리지 미러링 툴 ‘GAD(Global Active Device)’를 적용해 셀프 무중단 마이그레이션 기술도 지원한다. GAD는 다른 2개의 스토리지를 하나의 볼륨처럼 관리하는 미러링 기법을 활용해 장애가 발생해도 서비스 무중단을 보장하는 차세대 DR 기술이다. GAD에 실시간 비동기 솔루션 UR(Universal Replicator)을 함께 구성하면 전원 차단, 하드웨어 작동 중지, 사이트 중단 시에도 지속적인 시스템 운영이 가능하다. 또한 500km 이상 원거리까지 추가적인 실시간 복제본을 보관해 광범위한 지역의 재해 상황에 신속하게 대응할 수 있다.
갈수록 데이터센터 장애 방지와 관련된 규정은 엄격해지고 있다. 장애 발생 시 서비스 사용자의 불편과 이탈, 사회적 혼란, 규제 준수 의무 등 복잡한 환경에서 데이터센터 재해와 데이터 손실은 엄청난 파문을 가져온다. 환경과 요구 조건이 복잡할수록 오랜 경험과 구축 사례를 보유한 전문 벤더의 검증된 기술을 선택하는 것이 현명한 방법이다.
'TECH ZOOM' 카테고리의 다른 글
복잡한 데이터 관리를 쉽고 빠르게! (696) | 2023.06.22 |
---|---|
HCP CS, 클라우드 워크로드에 최적화된 '오브젝트 스토리지'의 간판 주자 (1) | 2023.06.12 |
효율적인 스토리지 관리를 위한 핵심 포인트 (0) | 2023.06.08 |