人工知能ChatGPT-4Vによる乳腺超音波病変良悪性鑑別の診断性能

HE Yuqing ,  

WU Zizheng ,  

GUO Shuai ,  

GAO Qinzhuang ,  

LI Hui ,  

YANG Baisheng ,  

摘要

目的は、乳腺超音波病変の良性・悪性判別におけるChatGPT-4Vの診断性能を評価し、経験の浅い医師および経験豊富な医師と比較して、その補助診断の可能性を検討することである。方法:2024年1月から2025年6月まで秦皇島市第一病院の乳腺病変患者を遡及的に含め、病理検査結果をゴールドスタンダードとした。ChatGPT-4V、経験の浅い医師2名(勤務3~5年)、経験豊富な医師2名(勤務>10年)が盲検法で超音波画像を独立して判読した。感度、特異度、正確度、受信者動作特性曲線(ROC)下面積(AUC)を記録し、乳腺画像報告およびデータシステム(BI-RADS)を基準に形状、境界、エコータイプ、後方エコー、石灰化特徴の識別精度を評価した。正確度の比較にはMcNemar検定、AUCの比較にはDeLong検定を用い、臨床意思決定曲線により純利益を評価した。結果:ChatGPT-4Vの診断性能は経験の浅い医師に近く(正確度P>0.05)、経験豊富な医師よりは劣っていた(P<0.05)。臨床意思決定曲線は低閾値での純利益が経験の浅い医師に近いことを示した。経験の浅い医師と比較すると、エコータイプ(P=0.012)および後方エコー(P=0.018)の識別精度が有意に低く、石灰化特徴の識別差は統計的有意差がなかった(P=1.000)。経験豊富な医師と比較すると、形状、境界、エコータイプ、後方エコー、石灰化のすべての超音波特徴の識別が著しく不足していた(P<0.05)。ChatGPT-4Vは24例(16.0%)を誤診し、悪性を良性と誤る例は境界が滑らかなものに多く、良性を悪性と誤る例は不整形に多かった。結論:ChatGPT-4Vは経験の浅い医師に近い性能を示し、一次スクリーニング補助に適するが、複雑な特徴の認識には改良が必要であり、今後の最適化により臨床応用価値が向上すると期待される。

关键词

乳がん;乳房結節;大規模言語モデル;人工知能;超音波;診断性能

阅读全文