본문 바로가기

TECH ZOOM

최고 성능의 올플래시 스토리지 도입 5가지 체크포인트


소프트웨어정의 인프라(Software-Defined Infrastructure)용 올플래시 솔루션 도입을 검토 중인 기업이라면 이미 체크리스트를 갖고 있을 것이다. 하지만 해당 체크리스트에 담긴 내용이 과연 정확하다고 자신할 수 있을까? 예를 들어 보자. 현재 도입을 검토 중인 올플래시 솔루션이 5년 후에도 지금과 같은 성능을 유지할 수 있을까?

이상적인 올플래시 솔루션이라면 답은‘ YES’다. 그러나 대부분의 올플래시 솔루션은 끊임없는 데이터 누적과 축적으로 인해 성능에 부하가 걸리기 시작한다.

올플래시 솔루션을 선택하는 기업들이 좀더 올바른 판단을 내릴 수 있도록 IT 벤더에게 반드시 물어봐야 할 5가지 핵심 질문을 추려 보았다. 5가지 질문에 대해 분명하게 답할 수 있는 올플래시 솔루션이라면 현재뿐 아니라 앞으로도 동일한 성능을 제공하는 데 큰 문제가 없다는 얘기다.




올플래시 솔루션 광고의 첫머리를 장식하는 문구는 늘 높은 IOPS(초당 입출력 처리량)[각주:1] 수치다. 그러나 I OPS 수치만으로 올플래시 성능을 평가할 수는 없다.


올플래시 솔루션 성능 측정 지표에는 응답시간 혹은 지연시간도 포함된다. 요청사항에 대한 응답속도가 빠를수록 지연 현상은 낮아지고, 작업완료 속도는 빨라진다. 모든 벤더가 자사 제품이 서브 밀리세컨드(Submillisecond:1,000분의 1초 미만의 응답속도) 응답시간을 제공한다고 집중적으로 부각하지만 과연 높은 IOPS 레벨에서도 서브 밀리세컨드 응답시간이 가능할까? IT 벤더에게 이렇게 질문하라. 올플래시 도입 첫날 ‘로우 레이턴시’ 상태에서도 높은 IOPS를 어떻게 제공할 수 있는지. 




스토리지 시스템이 처리하는 데이터가 증가하거나 추가적인 애플리케이션 구동 횟수가 많아지면 스토리지 시스템의 스트레스 지수도 증가한다. 또 초당 처리해야 하는 프로세스(또는 읽기/쓰기 혼합)가 증가하면 개별 요청에 대한 처리 시간도 늘어난다. 이는 응답 속도의 지연으로 이어지고, 결과적으로 모든 워크로드를 처리하는 데 더 많은 시간이 소요된다.

이러한 문제점을 해소하고, 5년 후에도 처음 도입했을 때와 마찬가지로 올플래시 솔루션의 성능을 유지할 수 있는 몇 가지 방안이 있다. SSD(Solid State Drive)에 비해 더 나은 성능을 제공하고, 엄청난 양의 프로세싱에도 불구하고 짧은 대기시간을 유지할 수 있도록 해주는‘ 커스터마이징된 플래시 모듈’이다.

플래시 성능 문제를 해결하는 또 다른 방법은 워크로드 요청 사항에 따라 더 많게 혹은 더 적게 시스템 리소스를 할당할 수 있도록 우선순위를 부여하는‘ 향상된 QoS(Quality of Service)’를 이용하는 것이다.






플래시는 많은 성능 이점을 제공하지만 디스크처럼 데이터를 삭제하기 쉽지 않고, 내부 청소(Clean-up) 역시 성능 저하 문제를 일으킬 수 있다. 플래시 내 데이터를 모두 삭제한 후 다시 쓰려면 플래시 셀에 대해 여러 단계에 걸친‘ 제로화(Zeroing)’ 작업을 해야 한다. 이 프로세스는 소요시간도 상당하지만 시스템 성능이 저하될 수 있다.


플래시 디바이스에는 이러한 영향을 최소화할 수 있는 방안이 내장되어 있지만 지속적인 성능 저하를 근본적으로 막을 수는 없다. 또한 시스템이 청소를 수행하는 동안, 특히 엄청난 로드가 걸려있거나 데이터 교환이 잦은 경우라면, IOPS 수치가 떨어지면서 속도 지연은 불가피해진다. 시스템이 이러한 문제를 해결할 수 있도록 처음부터 설계된 상태가 아니라면 결과적으로 성능에 심각한 영향을 미칠 수 있다.

해당 솔루션이 백그라운드 청소 작업 중 I/O 최적화를 가능하게 해주는 멀티큐잉(Multi-queuing) [각주:2] 아키텍처를 제공하는지, 또는 벤더가 플래시 스토리지 용량이 최고조에 달했을 때 성능 저하를 예방할 수 있도록 다른 솔루션을 제공할 수 있는지 확인하라. 





플래시 어레이에서 운영되는 모든 프로세스는 리소스를 필요로 한다. 프로세스의 집중도가 강할수록 요구되는 리소스도 증가하기 때문에, 하드웨어로 가속화하지 않으면 인라인(In-line) 프로세스 또는 할당된 전용 리소스가 성능에 영향을 미치게 된다. 이를 해결하기 위해 자체 개발한 기능을 추가하는 벤더도 있고, 워크로드를 최소화하기 위해 사용자가 데이터 서비스를 온/오프로 조작할 수 있도록 설계하는 벤더도 있다.

플래시 솔루션을 선택할 때는 워크로드가 증가할 때 성능의 균형을 어떻게 유지하는지에 대해서도 충분히 이해하고 있어야 한다. 효율성은 높지만 유해한 기술을 운영하는 경우, 간혹 성능이 절반 수준으로 뚝 떨어지기도 한다.

사용자가 온/오프를 조작할 수 있는, 중복 제거와 압축 기능이 포함된 시스템이라면 최적의 성능 확보를 위해 직접 리소스 가동을 중단시킬 수 있다. 일부 워크로드가 중복 제거와 압축 두 가지를 동시에 필요로 하는 상황이 아니라 압축만을 필요로 한다면 이는 문제가 되지 않을 수 있다.

Hitachi VSP F 시리즈는 플래시 모듈 레벨에서 하드웨어 가속화 기능을 제공한다. 이 기능은 다음의 두 가지 이점을 제공한다. 첫째, VSP F 시리즈 FMD(Flash Module Drive)의 하드웨어 가속화 압축 기능은 전체 플래시 모듈에 대해 로드를 분산하므로 스토리지 컨트롤러에는 어떠한 부하도 주지 않는다. 둘째, 압축 수치가 늘‘ 온(ON)’ 상태로 작동되므로 어떠한 패널티도 발생하지 않는다. 어떠한 패널티도 발생하지 않는 아키텍처와 컨트롤러와 분리된 작업 분산 기능 덕분에 데이터 압축이 진행되는 순간에도 성능은 동일하게 유지된다. 만약 성능 수치가 늘 동작 상태에 있는 압축에 기반한다면 데이터 압축이 진행되는 순간에도 성능에 변화는 일어나지 않을 것이다.






모든 애플리케이션 환경은 한계점에 도달하면 최고치에 이르기 마련이다. 이는 피할 수 없는 숙명이다. 이러한 상황이 발생하면 지금이 스토리지 시스템을 업그레이드해야 하는 시점인지, 아니면 IT 환경의 다른 부문에 대한 점검이 필요한지 결정해야 한다. 제대로 된 솔루션이라면 업그레이드 시점을 예측하고 충분히 계획할 수 있도록 스토리지 성능 모니터링을 제공해야 한다. 관리자가 시스템의 현재 성능과 지속적인 변화를 이해하고 있는 상황이라면 5년 후에도 동일한 성능이 유지될 수 있도록 업그레이드와 새로운 시스템에 대한 투자를 사전에 계획할 수 있다.

성능 병목현상이 늘 스토리지 시스템 때문에 발생하는 것은 아니라는 사실을 이해하는 것 또한 중요하다. 예를 들어, 애플리케이션의 성능 문제는 서버 아키텍처 또는 네트워크 문제로 인해 발생할 수도 있다. 이 경우, 문제가 발생한 시점과 지점을 정확히 파악하기 위해 시스템 전체를 조망할 수 있는 추적 소프트웨어(Tracking Software)가 있어야 한다. 이러한 정보가 확보되면 어떤 애플리케이션, 호스트, 스토리지가 문제 해결의 열쇠를 쥐고 있는지 확실하게 파악할 수 있다.



  1. 1) IOPS(Input/Output Operations Per Second) : 초당 입출력 처리량, HDD, SSD, SAN 같은 컴퓨터 저장 장치를 벤치마크하는 데 사용되는 성능 측정 단위 [본문으로]
  2. 2) 멀티큐잉(Multi-queuing) : 과부하 상태에서 백그라운드 오퍼레이션(Background Operation)보다 I/O를 먼저 처리하여 매우 빠른 응답속도를 제공하는 방법 [본문으로]