Performance diagnostique de l'intelligence artificielle ChatGPT-4V dans la différenciation des lésions mammaires bénignes et malignes en échographie

HE Yuqing ,  

WU Zizheng ,  

GUO Shuai ,  

GAO Qinzhuang ,  

LI Hui ,  

YANG Baisheng ,  

摘要

Objectif : évaluer la performance diagnostique de ChatGPT-4V dans la distinction entre lésions bénignes et malignes en échographie mammaire, et la comparer à celle de médecins novices et expérimentés afin d'explorer sa faisabilité comme outil d'aide au diagnostic. Méthodes : révision et inclusion de patients présentant des lésions mammaires à l'Hôpital n°1 de Qinhuangdao de janvier 2024 à juin 2025, avec la pathologie comme référence standard. ChatGPT-4V, deux médecins juniors (3 à 5 ans d'expérience) et deux médecins seniors (>10 ans d'expérience) ont interprété indépendamment et à l'aveugle les images échographiques. Sensibilité, spécificité, précision, surface sous la courbe ROC (AUC) ont été enregistrées, et la précision de l'identification des caractéristiques telles que la forme, les contours, le type d’écho, l’écho postérieur et les caractéristiques de calcification évaluée selon le système BI-RADS. Le test de McNemar a été utilisé pour comparer la précision, le test DeLong pour comparer l’AUC, et la courbe de décision clinique pour évaluer le bénéfice net. Résultats : la performance diagnostique de ChatGPT-4V est proche de celle des médecins juniors (précision P>0,05) mais inférieure à celle des médecins seniors (P<0,05). La courbe de décision clinique montre un bénéfice net à faible seuil proche des médecins juniors. Comparé aux médecins juniors, la précision d'identification du type d’écho (P=0,012) et de l’écho postérieur (P=0,018) est significativement inférieure, sans différence statistiquement significative pour les calcifications (P=1,000). Comparé aux médecins seniors, toutes les caractéristiques échographiques (forme, contours, type d’écho, écho postérieur, calcifications) sont significativement moins bien reconnues (P<0,05). ChatGPT-4V a commis 24 erreurs (16,0%) : les lésions malignes ont souvent été confondues avec des bénignes pour des contours nets, et les lésions bénignes confondues avec des malignes pour des formes irrégulières. Conclusion : ChatGPT-4V présente une efficacité proche des médecins juniors, adapté pour le dépistage de première ligne, mais nécessite des améliorations dans la reconnaissance des caractéristiques complexes, avec un potentiel d'optimisation futur pour augmenter sa valeur clinique.

关键词

cancer du sein;nodules mammaires;grands modèles linguistiques;intelligence artificielle;échographie;performance diagnostique

阅读全文