본문 바로가기 메뉴 바로가기
디지털 헬스케어

오픈 AI, 글로벌 의료 시나리오 기반 AI 성능 평가 도구 ‘헬스벤치’ 공개

등록일 2025-06-11

오픈 AI, 글로벌 의료 시나리오 기반 AI 성능 평가 도구 ‘헬스벤치’ 공개

  • 미국 AI 기업 오픈AI(OpenAI)가 2025년 5월 12일, 60개국 262명의 의료진과 협력해 실제 진료 상황을 반영한 AI 성능평가 벤치마크인 헬스벤치(HealthBench)를 출시함
  • 이는 AI가 실제 임상 상황에서 얼마나 효과적으로 작동하는지를 평가하기 위한 벤치마크 도구로, 향후 AI가 건강분야에서 인간 삶에 실질적으로 기여할 수 있는 가능성을 시험하기 위함임
  • 헬스벤치는 총 5,000개의 현실 기반 시나리오로 구성된 다중 언어·다중 전환 대화 테스트를 포함하고 있으며 △응급상황 △글로벌헬스 △임상 커뮤니케이션 등 7개 핵심 주제를 중심으로 설계되었고, 모든 응답은 GPT-4.1*이 48,562개의 평가 기준을 기반으로 채점함 * GPT-4.1은 OpenAI에서 개발한 모델로, 이전에 개발된 GPT-4의 개선판이며, 더 정확하고 정교하게 사람의 언어를 이해하고 응답할 수 있는 최신 인공지능 언어모델임
  • 이 벤치마크는 AI가 실제 진료 상황에서 △얼마나 신뢰성 있게 정보를 전달하고 △의학적 맥락을 이해하며 △사용자에 따라 언어를 조정할 수 있는지를 종합적으로 점검함
  • 향후 다양한 AI 개발 주체들이 헬스벤치를 활용함으로써, 의료 분야에 AI를 보다 효과적이고 안전하게 적용할 수 있는 기반이 마련될 것으로 보여짐


[OpenAI, 2025.05.12.; Athletech News, 2025.05.21.]