본문 바로가기

IT TREND

AI가 틀리는 이유, 결국 ‘데이터’

 

 

AI 도입을 검토하는 기업들은 이런 상황과 자주 마주한다. 최신 거대언어모델(LLM)을 채택했고, 컴퓨팅 자원도 충분한데 결과물이 기대에 한참 미치지 못하는 경우다. 원인을 추적하다 보면 결국 같은 지점에 도달한다. 문제는 모델이 아니라 데이터라는 것이다.

 

기업들은 내부 정보를 AI와 연결하기 위해 RAG(Retrieval-Augmented Generation) 등의 아키텍처를 구축한다. 그러나 실제 도입 과정에서 AI의 최종 성능을 좌우하는 것은 모델 자체의 성능만이 아니라 내부 데이터의 정제 상태와 품질이라는 사실을 알게 된다.

 

기초 데이터나 정보가 잘못되면 그 결과물 역시 아무런 가치가 없다는 ‘GIGO(Garbage In, Garbage Out)’는 오래된 말이지만, AI 시대에 더 강조되고 있다. 과거에는 데이터가 일부 잘못돼도 쿼리 결과가 틀리는 수준에 그쳤다면, 생성형 AI 환경에서는 잘못된 데이터가 그럴듯한 답변으로 포장돼 출력돼 그 피해는 상상을 초월하게 된다. 오류가 눈에 띄지 않는 상태에서 확산될 수 있다는 점에서 위험성은 훨씬 더 클 수밖에 없다. 데이터의 품질 문제가 AI 시대에 더 중요해진 이유다.

 

 

데이터 신뢰도, AI 성과 좌우

 

많은 기업이 AI 프로젝트 초기 단계에서 겪는 가장 큰 어려움은 기술이 아니라 데이터다. 기업 내부 데이터는 일반적으로 온프레미스 시스템, 레거시 ERP, 클라우드 스토리지, SaaS 플랫폼 등 다양한 환경에 분산돼 있다. 동일한 데이터조차 시스템마다 값이 다르거나 중복 또는 불일치 상태로 존재하는 경우도 있다.

 

이런 상태에서 AI가 내부 데이터를 참조하면 결과의 신뢰도는 떨어질 수밖에 없다. 불완전하고 불일치한 정보, 맥락이 단절된 로그, 오래돼 틀린 데이터가 답변 생성 과정에 반영되기 때문이다. 출력 결과의 신뢰도는 입력 데이터의 품질을 넘어서기 어렵다.

 

문제는 단순히 데이터 품질에만 있지 않다. 데이터를 수집하고 저장하며 이동, 가공하는 전 과정을 통제할 수 있는 구조, 즉 데이터 인프라의 문제이기도 하다.

 

현재 대부분의 기업 IT 인프라는 비즈니스 운영을 위해 설계된 구조다. 고객관리, ERP, 업무 시스템 중심으로 구성된 기존 인프라는 AI 워크로드를 충분히 고려하지 않았다. 이런 환경에서는 최신 GPU와 고성능 모델을 도입하더라도 데이터 공급과 처리 단계에서 병목이 발생할 수밖에 없다. 10년 전 구축한 스토리지 시스템이 지금의 AI 성능 요구를 감당하리라 기대하기는 어렵다. 결국 데이터 문제를 해결하기 위해서는 데이터 인프라를 함께 재설계해야 한다.

 

 

AI 인프라 핵심은 ‘데이터 흐름 통제’

 

AI 도입 이전에 기업이 반드시 해야 할 일이 있다. 어떤 데이터가 존재하는지, 어떤 시스템에서 생성됐는지, 어떤 경로를 통해 이동하는지, 어떤 규제를 적용받는지 파악하는 것이다. 이러한 이해 없이 AI 모델을 적용하면 의도치 않게 데이터가 활용되거나 규제 위반으로 이어질 수 있다.

 

AI가 잘못된 결론을 냈을 때 원인을 역추적하려면 데이터 생성 및 변환 경로가 명확해야 한다. 또한 잘못된 데이터를 활용한 경우 이전 상태로 되돌릴 수 있도록 데이터 버전 관리와 스냅샷 체계가 인프라 수준에서 지원돼야 한다.

 

AI의 성능은 접근 가능한 데이터의 범위와 품질에 좌우된다. 단순히 데이터를 한 곳에 모으는 것만으로는 문제가 해결되지 않는다. 데이터를 통합하면서 원본 데이터의 무결성을 유지해야 하고, AI 워크로드를 위해 데이터를 이동하거나 복제하는 과정에서도 원본은 보호돼야 한다. 또한 AI 결과가 만족스럽지 않을 때 다시 이전 상태로 돌아가 재시도할 수 있는 구조가 필요하다. 이 모든 것은 데이터 아키텍처와 이를 뒷받침하는 인프라의 문제다.

 

 

데이터 준비도, AI 경쟁력으로 직결

 

최근 기업들은 데이터 품질과 인프라를 분리된 과제가 아니라 하나의 통합된 전략으로 인식하기 시작했다. AI 학습, 검증, 운영 전 과정을 연결하는 데이터 관리 체계로 접근하고 있는 것이다. 대규모 비정형 데이터를 안정적으로 저장하고, GPU 기반 분석 환경에 데이터를 지연 없이 공급하며, 반복적으로 검증할 수 있는 구조가 AI 인프라의 핵심이다.

 

HS효성인포메이션시스템은 AI의 출발점이 모델이 아니라 데이터라는 흐름에 맞춰 데이터 레이크, 고성능 파일·오브젝트 스토리지, 프라이빗 AI 클라우드, AIOps를 아우르는 AI 데이터 인프라 전략을 지원한다. 실제 자율주행 AI 기업 스트라드비젼 사례에서도 이러한 인프라의 중요성이 확인된다. 스트라드비젼은 매년 페타바이트 단위로 증가하는 데이터를 처리하기 위해 데이터 레이크 기반 구조를 도입했고, 이를 통해 GPU 활용률과 데이터 처리 효율을 동시에 개선한 바 있다.

 

AI 경쟁력은 어떤 모델을 선택하는가보다 모델에 얼마나 신뢰 높은 데이터를 안정적으로 공급할 수 있는가에 달려 있다. 정확한 데이터가 준비되지 않은 AI는 쉽게 틀리고, 오류 원인을 찾기도 어렵다. 결국 AI 경쟁력의 출발점은 모델이 아니라 데이터를 이해하고 관리하며 활용할 수 있는 인프라에 있다.

What Inspires Sustainable Technology?