예측 모델의 품질, 비뚤림 위험 및 적용 가능성을 평가하는 PROBAST 도구는 2019년 도입 이후 예측 모델링 방법론 및 인공지능 기술의 발전에 따라 업데이트의 필요성이 제기되었습니다. 본 연구는 이러한 변화를 반영하여 PROBAST-2019를 개선한 PROBAST+AI의 개발 과정을 설명합니다.
PROBAST+AI는 모델 개발과 모델 평가라는 두 가지 주요 부분으로 구성됩니다. 모델 개발 단계에서는 16개의 질문을 통해 품질과 적용 가능성을 평가하며, 모델 평가 단계에서는 18개의 질문으로 비뚤림 위험과 적용 가능성을 평가합니다. 각 부분은 참여자 및 데이터 출처, 예측 변수, 결과, 분석의 네 가지 도메인을 포함합니다. 예측 모델의 적용 가능성은 참여자 및 데이터 출처, 예측 변수, 결과 도메인에서 평가됩니다.
PROBAST+AI는 기존 PROBAST 도구를 대체할 수 있으며, 회귀 모델링 또는 인공지능 기술 사용 여부와 관계없이 의료 분야의 모든 유형 예측 모델을 평가할 수 있습니다. 이를 통해 모델 개발자, AI 기업, 연구자, 편집자, 심사자, 의료 전문가, 가이드라인 개발자 및 정책 기관 등 모든 이해관계자가 예측 모델의 품질, 비뚤림 위험 및 적용 가능성을 효과적으로 검토할 수 있습니다.
이 도구는 예측 모델의 투명성과 신뢰성을 높여 의료 분야에서 인공지능 기반 예측 모델의 책임감 있는 개발 및 활용을 촉진하는 데 기여할 것입니다.
거대 언어 모델(LLM)은 의료 질문 답변 분야에서 가능성을 보여왔으며, 특히 Med-PaLM은 미국 의사 면허 시험 스타일 질문에서 '합격' 점수를 넘어선 최초의 모델입니다. 그러나 장문 의료 질문 답변 및 실제 워크플로우 처리에는 여전히 어려움이 있었습니다.
본 연구에서는 이러한 격차를 해소하기 위해 Med-PaLM 2를 소개합니다. 이 모델은 기본 LLM 개선, 의료 도메인 미세 조정, 그리고 앙상블 정제 및 검색 체인(chain of retrieval)을 통한 추론 및 근거 개선 전략을 결합하여 개발되었습니다.
Med-PaLM 2는 MedQA 데이터셋에서 86.5%의 점수를 달성하여 Med-PaLM 대비 19% 이상 향상되었으며, MedMCQA, PubMedQA, MMLU 임상 주제 데이터셋 전반에서 성능이 크게 향상되었습니다. 상세한 인간 평가 프레임워크 결과, 의사들은 9개 임상 축 중 8개에서 Med-PaLM 2의 답변을 다른 의사의 답변보다 선호했습니다. 또한, LLM의 한계를 탐색하도록 설계된 새로운 적대적 데이터셋에서도 이전 모델 대비 유의미한 개선을 보였습니다.
실제 의료 질문을 사용한 파일럿 연구에서, 전문의들은 일반의 답변보다 Med-PaLM 2의 답변을 65% 더 선호했습니다. 전반적으로는 전문의 답변이 여전히 선호되었지만, 전문의와 일반의 모두 Med-PaLM 2가 의사 답변만큼 안전하다고 평가하여 실제 의료 애플리케이션에서의 잠재력을 입증했습니다.