Medical AI & Ventures

[Medical AI] GPT-5가 ‘임상 현장’에서 실패하는 이유: RAG 기술과 Dirty Data의 딜레마

DrBITech · 2025.12.22 · 2분 소요 · 329

[Medical AI] GPT-5가 ‘임상 현장’에서 실패하는 이유: RAG 기술과 Dirty Data의 딜레마

요약
  • GPT-4 등 모델 성능이 핵심이 아니라 병원 데이터의 비정형성과 이를 처리하는 파이프라인 부재가 의료 AI의 근본 문제이다.
  • RAG는 환각을 줄이는 보조수단일 뿐이며 정형화되지 않은 EHR, 토큰 한계·지연·비용 때문에 응급실 현실에서는 만능이 아니다.
  • 진짜 기회는 모델이 아니라 FHIR 변환 음성인식·EHR 클리닝 등 병원 데이터를 AI가 학습 가능한 형태로 전처리하는 미들웨어에 있다.

서론: 환상은 끝났다, 이제는 ‘엔지니어링’과 ‘임상’을 논할 때

최근 의료계 컨퍼런스와 IT 커뮤니티 양쪽을 오가며 가장 많이 듣는 질문이 있습니다. “GPT-4가 의사 면허 시험을 통과했다는데, 이제 진단 보조는 끝난 게임 아닌가요?”

일반적인 개발자라면 “Context Window가 늘어났고 추론 능력이 좋아졌으니 가능하다”고 답할 것이고, 보수적인 의사라면 “AI는 책임을 질 수 없으니 불가능하다”고 답할 것입니다.

하지만 CS를 전공하고 현재 의대에서 임상 실습을 돌고 있는 제 관점은 다릅니다. 문제는 모델의 성능(Model Performance)이 아니라, 의료 현장에 존재하는 **데이터의 비정형성(Dirty Data)**과 이를 처리하는 파이프라인의 부재에 있습니다.

오늘은 딥러닝 엔지니어의 시각으로 LLM의 한계(Hallucination)를 짚어보고, 예비 의사의 시각으로 이를 해결할 비즈니스 모델(BM)이 어디에 숨어있는지 분석해 보겠습니다.


1. 기술적 분석: RAG(검색 증강 생성)는 만능키가 아니다

현재 의료 AI 스타트업들은 LLM의 환각 현상을 줄이기 위해 RAG(Retrieval-Augmented Generation) 기술을 도입하고 있습니다. 즉, AI가 답변을 생성하기 전에 검증된 의학 가이드라인(Vector DB)을 먼저 참조하게 만드는 것입니다.

하지만 CS 전공자로서 여기서 치명적인 허점을 발견할 수 있습니다.

  • Garbage In, Garbage Out: RAG가 참조해야 할 환자의 전자의무기록(EHR) 자체가 정형화되어 있지 않습니다.
  • Token Limit & Latency: 응급 상황(ER)에서 수천 페이지의 과거 병력을 실시간으로 임베딩(Embedding)하고 검색(Retrieval)하여 3초 안에 답변을 내놓는 것은 현재의 GPU 비용 구조상 비효율적입니다.
Cost(Tokeninput+Tokenretrieval)×QueryfrequencyCost \propto (Token_{input} + Token_{retrieval}) \times Query_{frequency}

비용 효율성 측면에서, 모든 진료에 거대 모델을 붙이는 것은 아직 ‘적자 비즈니스’입니다.

2. 임상적 분석: 의무기록(EMR)의 행간을 읽을 수 있는가?

의대 실습을 돌며 느끼는 가장 큰 장벽은 **’기록되지 않은 컨텍스트’**입니다.

예를 들어, 차트에는 BP 120/80이라고 적혀 있지만, 실제로는 환자가 극도로 긴장하여 일시적으로 상승한 수치일 수 있습니다. 노련한 의사는 환자의 ‘창백한 안색’과 ‘떨리는 목소리’를 보고 이 수치를 보정하여 해석합니다.

하지만 현존하는 Medical AI는 텍스트와 이미지 데이터(Multimodal)를 처리한다고 해도, 이러한 **비언어적 임상 뉘앙스(Clinical Nuance)**를 100% 데이터화하여 받아들이지 못합니다. 개발자들이 흔히 범하는 오류가 바로 “데이터 셋이 완벽할 것”이라는 착각입니다. 실제 병원 데이터는 결측치(Null) 투성이이며, 의사마다 기록 스타일이 제각각입니다.

3. Insight & Business Opportunity: 기회는 ‘모델’이 아닌 ‘전처리’에 있다

많은 벤처 캐피탈(VC)들이 “누가 더 뛰어난 의료 특화 LLM을 만드는가”에 주목합니다. 하지만 저는 관점을 달리해야 한다고 봅니다.

돈이 되는 지점은 ‘모델링’이 아니라 ‘데이터 전처리 미들웨어(Middleware)’입니다.

  1. Medical Dictation AI: 의사의 음성을 텍스트로 바꾸는 것을 넘어, 이를 국제 표준(FHIR)에 맞는 정형 데이터로 즉시 변환해 주는 툴.
  2. EHR Cleaning SaaS: 병원마다 제각각인 데이터를 AI가 학습 가능한 형태로 ‘세탁’해 주는 B2B 솔루션.

결국, 승자는 “가장 똑똑한 AI”를 가진 기업이 아니라, “가장 지저분한 병원 데이터를 AI에게 잘 떠먹여 주는 숟가락”을 만드는 기업이 될 것입니다.


결론: 융합형 인재가 바라보는 미래

의료 AI 시장은 이제 막 ‘기대(Hype)’의 단계를 지나 ‘실증(Implementation)’의 단계로 진입했습니다. 공학적 원리를 이해하지 못하면 환상에 속고, 임상 현장을 모르면 쓸모없는 제품을 만들게 됩니다.

앞으로도 이 블로그(Medical Deeptech)를 통해, 공학적 논리와 의학적 직관이 교차하는 지점에서 진짜 가치 있는 기술과 기업을 분석해 드리겠습니다.

댓글 남기기