본문 바로가기

IT TREND

데이터센터+머신러닝+인공지능 = 미래의 데이터센터





개별 애플리케이션이나 인프라 요소들은 일단 배치가 완료되면 모든 게 간단해 보인다. 리소스 전달, 적절한 모니터링 등 모든 프로세스가 제대로 동작하는 듯하다. ‘프로젝트 레벨’에서만 본다면 이는 사실일 것이다.

그러나 조금만 눈을 돌려 전체적인 관점에서 데이터센터를 바라보자. 업무 처리를 위해 일련의 시스템, 네트워크, 소프트웨어가 끊임없이 리소스를 공유하고 협업을 수행하고 있다는 사실을 알 수 있다. 데이터센터의 모든 활동은 살아 움직이는 생물이나 다름없다. 특정 지점에서 발생한 작은 이슈 하나가 가동 시간, 성능, 리소스 활용뿐 아니라 고객 경험, 심지어는 예산이나 컴플라이언스까지도 영향을 미칠 수 있다.


자율 데이터센터를 가능하게 해주는 AI 운영

데이터센터를 원활하게 운영하려면 AI(Artificial Intelligence, 인공지능) 운영 소프트웨어가 필요하다. AI 운영 소프트웨어는 데이터센터 전반에 걸쳐 수행한 분석을 취합한 후 전체 데이터센터를 더 효과적으로 운영할 수 있는 방법을 제시한다. 실행의 가속화를 위해 프로세스도 자동화할 수 있으므로, 궁극적으로는 자율 데이터센터도 충분히 구현할 수 있게 되는 것이다.

문제는 막상 어디서부터 어떻게 시작하고 구현해야 할 지 막막하다는 것이다. 시스템, 소프트웨어, 서비스 관리 등을 포함한 데이터센터 전체에 어떻게 AI 운영을 구현해야 할까. 해답을 찾아보기 위해 관련 시스템을 이미 구축한 고객들로부터 몇 가지 조언을 구했다. 자율 데이터센터로 가는 5단계 로드맵(그림)의 각 단계에서 주지해야 할 사항은 ‘AI 기반 분석은 수신된 데이터에 대해서만 이뤄진다’는 점이다. 특정 이슈를 파악하고자 한다면, 정확성 확보를 위해 데이터 품질과 각각의 단위, 분석이 요구되는 데이터 길이에 대해 먼저 정의해야 한다.


(그림) 자율 데이터센터 로드맵




STEP 0

장·단기 범위 설정

AI 운영 소프트웨어를 도입하기 전에 반드시 장·단기적 관점에서 도입을 통해 얻고자 하는 바를 명확하게 정의해야 한다. 다음 사항을 참고하기 바란다.


위에 언급한 사항들 중에서도 마지막 네 번째는 특히 중요하다.

각각의 시스템에 지장을 초래하는 잠재적인 ‘AI 운영 사일로’가 최소화될 수 있도록 ‘관리 대상 범위’와 AI가 자율 행동을 시작한 이후 ‘다른 시스템이 받게 될 영향’에 대해서도 명확히 정의하라. 관리되는 인프라가 어떻게 지속적으로 추가되는지에 대한 이해도 물론 필요하다.



STEP 1

배치 자동화

자율 데이터센터를 성공적으로 구현하기 위한 가장 좋은 첫 단계는 베스트 프랙티스(Best Practice)와 관련 정책들을 명확히 하는 것이다. 베스트 프랙티스에 기반해 리소스가 배치(Deployment)되면 행동을 예측할 수 있고, 복잡하거나 지금껏 보지 못했던 이슈를 파악해야 할 때 굳이 AI를 가동하지 않아도 된다.

그렇다고 베스트 프랙티스만으로 충분한 것은 아니다. 특히 배치가 진행되는 동안 수많은 구성(Config) 작업이 수행되어야 하는 경우에는 더더욱 그렇다. 한 단계를 건너뛴다거나 부적절한 프로세스가 진행되는 등의 돌발적인 에러가 발생하지 않도록, 베스트 프랙티스의 프로세스를 자동화할 필요가 있다. 자동화 소프트웨어는 시스템, 소프트웨어, 데이터 보호 등 관련 서비스가 성공적으로 운용될 수 있도록 해준다.

이러한 기능을 통해 데이터센터 관리자는 가동 중단, 데이터 손실 또는 성능 저하의 위험을 피하면서 데이터센터 리소스를 관리할 수 있다. 뿐만 아니라 문제 해결에 소요되는 시간이 줄어든다. 그만큼 비즈니스 발전을 위해 다른 부문에 더 많은 역량을 집중할 수 있게 되는 것이다.



고려사

자동화 엔진은 가이드라인이 지정하는 일련의 단계보다 더 많은 것들을 수행할 수 있도록 설계할 수 있다. AI는 가용 리소스 및 활용도가 낮은 리소스를 파악하고 더 나아가 ROI 개선을 위해 최상의 사용자 경험을 보장한다. AI가 데이터 경로와 워크로드를 이해하고 나면, 애플리케이션 안정성과 사용자 경험에 영향을 미치는 이슈도 사전에 방지할 수 있다. 물론 자동화 작업의 추적 방식에 대해서도 검토해야 할 것이다.



STEP 2

데이터센터 분석 구현

리소스가 배치된 후에는 개별 리소스뿐 아니라 전체 에코시스템의 일부로서도 각각의 성능을 기대 수준으로 꾸준히 유지하는 것이 중요하다. 완벽한 시스템 상태가 유지될 수 있도록 정기적으로 점검하지 않으면 최고의 성능과 안정성을 확보하기 어렵다. 꾸준한 모니터링과 최적화만이 시스템 성능 저하와 더 광범위한 데이터센터 운영에 영향을 미치는 위해 요소를 미연에 방지할 수 있다.

운영 상태를 매끄럽게 유지하고 싶다면 데이터센터 분석 소프트웨어에 현재 시스템에 어떤 일이 발생하고 있는지, 과거에는 어떤 일이 발생했는지, 또 향후 어떤 일이 발생할 것인지를 전반적으로 살펴주는 AI와 머신러닝을 통합해야 한다. 여기에는 다음과 같은 사항이 포함된다.


현재 판매되고 있는 많은 분석 솔루션들은 제품 형태일 뿐, 데이터센터에 중점을 둔 것은 아니라는 사실을 염두에 두는 것이 좋다. 정확하게 수요를 예측하고 문제 해결 방법을 파악하는 데 제약이 있을 수 있다는 의미다. 최상의 결과를 얻고 싶다면 구매를 결정하기 전에 솔루션의 데이터 경로에 대한 의존도를 충분히 파악해야 한다.

고려사항

언제, 어느 지점에서 AI가 의사결정을 하도록 할 것인가가 중요하다. 만약 외부에서 이뤄지게 된다면 여러분 조직이 시스템 정보의 외부 전달을 허용하고 있는지 확인하라. 또 몇 시간 단위로 데이터가 수집되는 상황이라면 이 작업이 분석 속도와 품질에 어떤 영향을 미치게 될 지 파악하라.



STEP 3

분석과 자동화의 결합

분석은 운영 방식과 운영 환경의 개선 또는 수정을 위해 요구되는 변경 사항에 대해 강력한 통찰력을 제공한다. 그러나 만약 분석의 역할이 변경에 대한 정보 제공 또는 처방 정도에 그친다면 관리자가 사전에 정의된 프로세스를 직접 수행해야만 한다.

이는 용량 증설과 같은 일부 작업에서는 큰 문제가 아닐 수 있지만, 다른 경우에는 문제 해결이 늦어지거나 새로운 위험에의 노출로 이어질 수도 있다. STEP 1에서 언급한 것처럼, 자동화의 핵심은 돌발적인 에러 발생 가능성을 최소화하는 데 있다. 자동화를 분석과 연계시키면 데이터센터 팀이 변경 사항을 적용하는 데 투자되는 시간이 줄어 베스트 프랙티스를 지속적으로 유지할 수 있다. 다음은 그에 대한 몇 가지 사례이다.


통찰력과 실행가능성이 결합된 솔루션으로 시작하려는 기업도 있을 것이고, 다른 단계에서 이러한 기능을 구현할 계획을 가진 기업도 있을 것이다. 후자의 경우라면 벤더가 업그레이드를 제공하는 지 혹은 제품 및 벤더 간 결합이 가능한 지 파악하는 것이 중요하다.

고려사항

분석과 자동화 솔루션은 각각 독립된 AI 기능을 가질 수 있다. 대부분의 솔루션에서 분석은 ‘브레인’으로, 자동화는 ‘엔진’으로 서비스된다. 그럼에도 불구하고 더 스마트한 의사결정을 원한다면 이 두 가지가 협업을 수행할 수 있는지 파악해야 한다. 시간이 흐르면서 분석과 자동화가 더 긴밀하게 연계되어 효율성을 향상할 수 있다.



STEP 4

프레임워크 확장

많은 경우, 자율 데이터센터로의 여정은 STEP 3을 거친 후 잠시 휴식기를 갖게 될 것이다. 이 기간 동안 전담부서는 자동화된 활동 범위의 확장과 베스트 프랙티스 향상을 위해 예측 및 실행이 가능한 분석을 검토할 수 있다. 이 과정이 완료되고 나면 프레임워크가 확장될 수 있는 영역이 어디인지를 정의해야 한다. 이와 관련해서는 다음과 같은 안들을 고려해볼 수 있다.


    더 깊이 있는 데이터 경로 통합

    트랜잭션 대기 시간이 미치는 영향을 측정할 수 있도록 애플리케이션 분석을 통합하고, 더 정확한 QoS 수준 정의 혹은 요구 성능 기준에 부합하는 리소스를 예측해야 하는 시점에 이 정보들을 사용한다.


    더 광범위한 서비스 관리 제어

    인프라 자동화 엔진을 ITSM 플랫폼과 통합한다. 데이터센터 컴포넌트의 배치와 관리 제어가 훨씬 더 용이해져 더 강력한 서비스 관리 경험을 제공할 수 있다.


    설비 분석

    전력 및 냉방시설과 같은 부가적인 데이터 셋을 블렌딩하여 분석함으로써, 에너지와 운영 관리에 대한 더 나은 의사결정이 가능해진다.


    STEP 4를 구현하는 방식은 조직의 요구에 따라 다양하게 나타날 수 있고, 기대치에 따라 전문적인 서비스가 필요할 수도 있다. 그럼에도 불구하고 이 단계는 STEP 5의 기반 단계로 또 다른 학습 과정이 될 수 있기에 충분히 가치가 있다.

    고려사항

    AI 구현 방식과 상관없이 가장 핵심적인 요소는 ‘AI가 언제, 어떤 방식으로 사람과 인터랙션 하게 될 것인가’ 이다. 초기 적용 단계, 특히 프레임워크가 확장되는 단계에서는 실제로 어떤 행동이 취해지기 전에 기계와 사람 간 커뮤니케이션을 먼저 구현해야 한다. 이후 AI의 자율성을 더 확대해 특정 조치가 취해진 후 관리자가 통지만 받는 방식으로 운영할 수도 있다.



    STEP 5

    전략적/전술적 자율화 구현

    앞으로 몇 년에 걸쳐 우리는 데이터센터를 구성하는 시스템의 인텔리전스 수준이 대폭 향상되는 것을 보게 될 것이다. 이 시점이 되면 우리는 데이터센터 내 일부 시스템에 대한 AI 운영을 어느 정도 전술적으로 변화시키고자 할 것이다. 예를 들어 애플리케이션은 기본 데이터로의 최상의 경로 또는 위치를 결정하고, 오류 해결을 위해 네트워크 및 스토리지 인프라와 협력할 수 있다. 또 애플리케이션이 미래의 작업 유형을 예측해 연관된 SLA를 기반으로 더 높은 성능을 제공하는 스토리지로 데이터셋을 이동시킬 수도 있다.

    AI가 분석하고 운영 전략에 대한 의사결정을 실행할 수 있도록 하는 것도 의미가 있지만, 전술적인 측면에서 본다면 일부 인프라가 목표에 도달하고 장애상황을 극복하기 위해 어떻게 서로 협력할 것인지 실시간으로 결정할 수 있도록 하는 것도 중요하다. 궁극적으로 STEP 5는 초기 단계의 콘셉트를 협업이 필수적인 인프라에 적용하는 데 관한 것이다. 어떤 방식으로 전개될 것인가는 여전히 정의가 필요한 부분이며, STEP 5는 더 많은 단계로 분화될 수도 있다. 그 전까지 우리가 할 수 있는 일은 인프라 간 커뮤니케이션이 가능한 로드맵을 갖춘 솔루션을 기대하는 것뿐이다.