Objetivo: evaluar la eficacia diagnóstica de ChatGPT-4V en la interpretación de lesiones benignas y malignas en ecografía mamaria, comparándola con médicos de menor y mayor experiencia para analizar su viabilidad como herramienta de diagnóstico asistido. Métodos: se realizó una revisión retrospectiva e inclusión de pacientes con lesiones mamarias en el Hospital Nº1 de Qinhuangdao entre enero de 2024 y junio de 2025, usando la biopsia patológica como estándar de oro. ChatGPT-4V, dos médicos con poca experiencia (3-5 años) y dos médicos con amplia experiencia (>10 años) interpretaron las imágenes de ultrasonido de forma independiente y en modo ciego. Se registraron sensibilidad, especificidad, precisión, área bajo la curva ROC (AUC) y se evaluó la precisión en el reconocimiento de forma, bordes, tipo de eco, eco posterior y características de calcificación según el sistema BI-RADS. Se usó la prueba de McNemar para comparar precisión, la prueba DeLong para comparar AUC y se evaluó el beneficio neto con curvas de decisión clínica. Resultados: la eficacia diagnóstica de ChatGPT-4V fue cercana a la de médicos con menor experiencia (precisión P>0.05) pero inferior a la de médicos con más experiencia (P<0.05). La curva de decisión clínica mostró que el beneficio neto en umbrales bajos era similar al de médicos con menor experiencia. En comparación con médicos con menor experiencia, ChatGPT-4V tuvo una precisión significativamente inferior en la identificación del tipo de eco (P=0.012) y eco posterior (P=0.018), sin diferencias significativas en características de calcificación (P=1.000). En comparación con médicos con mayor experiencia, el reconocimiento de todas las características ecográficas — forma, bordes, tipo de eco, eco posterior y calcificación — fue significativamente inferior (P<0.05). ChatGPT-4V cometió 24 errores (16.0%), con confusiones frecuentes de malignidad por benignidad en bordes regulares, y benignidad por malignidad en formas irregulares. Conclusión: ChatGPT-4V muestra un rendimiento cercano al de médicos con menor experiencia, adecuado para screening primario, pero necesita mejoras en el reconocimiento de características complejas y puede optimizarse para aumentar su valor clínico.
关键词
cáncer de mama;nódulos mamarios;modelos de lenguaje grande;inteligencia artificial;ultrasonido;rendimiento diagnóstico