Diagnostische Leistungsfähigkeit der KI ChatGPT-4V zur Unterscheidung benigner und maligner Brustläsionen in der Ultraschallbildgebung

HE Yuqing ,  

WU Zizheng ,  

GUO Shuai ,  

GAO Qinzhuang ,  

LI Hui ,  

YANG Baisheng ,  

摘要

Ziel war die Bewertung der diagnostischen Leistungsfähigkeit von ChatGPT-4V bei der Unterscheidung zwischen benignen und malignen Läsionen in der Mammasonographie und der Vergleich mit Ärzten mit geringer und hoher Berufserfahrung, um die Brauchbarkeit als Hilfsmittel für die Diagnostik zu untersuchen. Methode: Retrospektive Einbeziehung von Patientinnen mit Brustläsionen im Ersten Krankenhaus von Qinhuangdao von Januar 2024 bis Juni 2025, mit histopathologischer Untersuchung als Goldstandard. ChatGPT-4V sowie zwei Ärzte mit geringer Berufserfahrung (3–5 Jahre) und zwei Ärzte mit hoher Berufserfahrung (>10 Jahre) beurteilten die Ultraschallbilder unabhängig und verblindet. Sensitivität, Spezifität, Genauigkeit, Fläche unter der ROC-Kurve (AUC) wurden erfasst; die Erkennungsgenauigkeit von Form, Rand, Echotyp, hinterem Echo und Verkalkungsmerkmalen wurde anhand des BI-RADS-Systems bewertet. Der McNemar-Test verglich die Genauigkeit, der DeLong-Test die AUC, klinische EntscheidungsCurves bewerteten den Netto-Nutzen. Ergebnisse: Die diagnostische Leistung von ChatGPT-4V war der von Ärzten mit geringer Erfahrung ähnlich (Genauigkeit P>0,05), aber niedriger als bei Ärzten mit hoher Erfahrung (P<0,05). Die klinische Entscheidungskurve zeigte einen Netto-Nutzen bei niedrigem Schwellenwert ähnlich wie bei Ärzten mit geringer Erfahrung. Im Vergleich zu Ärzten mit geringer Erfahrung war die Erkennungsgenauigkeit bei Echotyp (P=0,012) und hinterem Echo (P=0,018) signifikant niedriger, bei Verkalkungen jedoch nicht statistisch unterschiedlich (P=1,000). Im Vergleich zu Ärzten mit hoher Erfahrung war die Erkennung aller Ultraschallmerkmale (Form, Rand, Echotyp, hinteres Echo, Verkalkung) signifikant schlechter (P<0,05). ChatGPT-4V machte 24 Fehlklassifikationen (16,0 %), wobei maligne Läsionen bei glatten Rändern oft als benigne fehlinterpretiert wurden und benigne Läsionen bei unregelmäßiger Form öfter als maligne. Fazit: ChatGPT-4V zeigt eine Leistung nahe der von weniger erfahrenen Ärzten, eignet sich für die primäre Screening-Unterstützung, benötigt jedoch Verbesserungen bei der Erkennung komplexer Merkmale und könnte zukünftig optimiert werden, um den klinischen Wert zu erhöhen.

关键词

Brustkrebs;Brustknoten;große Sprachmodelle;künstliche Intelligenz;Ultraschall;Diagnoseleistung

阅读全文