유방 초음파 병변 양악성 감별에서 인공지능 ChatGPT-4V의 진단 성능

HE Yuqing ,  

WU Zizheng ,  

GUO Shuai ,  

GAO Qinzhuang ,  

LI Hui ,  

YANG Baisheng ,  

摘要

목적은 유방 초음파 병변의 양성 및 악성 판독에서 ChatGPT-4V의 진단 성능을 평가하고, 경력 낮은 의사 및 높은 의사와 비교하여 보조 진단의 가능성을 탐구하는 것이다. 방법: 2024년 1월부터 2025년 6월까지 진황도시 제1병원 유방 병변 환자를 후향적으로 포함하였으며, 병리학 검사 결과를 금본위로 삼았다. ChatGPT-4V, 경력 낮은 의사 2명(경력 3~5년) 및 경력 높은 의사 2명(경력 >10년)이 블라인드로 독립적으로 초음파 영상을 판독하였다. 민감도, 특이도, 정확도, 수신자 조작 특성 곡선(ROC) 아래 면적(AUC)을 기록하였으며, 유방 영상 보고 및 데이터 시스템(BI-RADS)을 기준으로 형태, 경계, 에코 유형, 후방 에코, 석회화 특성 인식 정확도를 평가하였다. 정확도 비교에는 McNemar 검정을, AUC 비교에는 DeLong 검정을 사용하였으며, 임상 결정 곡선으로 순이익을 평가하였다. 결과: ChatGPT-4V의 진단 성능은 경력 낮은 의사와 비슷하였으나(정확도 P>0.05), 경력 높은 의사보다는 낮았다(P<0.05). 임상 결정 곡선은 낮은 문턱 값에서 순이익이 경력 낮은 의사와 가까웠다. 경력 낮은 의사와 비교 시 에코 유형(P=0.012)과 후방 에코(P=0.018) 인식 정확도가 유의하게 낮았으며, 석회화 특성 인식에서는 통계적 차이가 없었다(P=1.000). 경력 높은 의사와 비교 시 형태, 경계, 에코 유형, 후방 에코 및 석회화 모든 초음파 특징 인식이 유의하게 부족하였다(P<0.05). ChatGPT-4V는 24례(16.0%)를 오진했으며, 악성을 양성으로 오진한 경우는 경계가 매끈한 경우가 많았고, 양성을 악성으로 오진한 경우는 불규칙한 형태가 많았다. 결론: ChatGPT-4V는 경력 낮은 의사와 유사한 성능을 보이며 1차 선별 보조에 적합하나 복잡한 특징 인식에서는 개선이 필요하며, 향후 임상 적용 가치를 높이기 위해 최적화가 가능하다.

关键词

유방암;유방 결절;대형 언어 모델;인공지능;초음파;진단 성능

阅读全文