Desempenho diagnóstico da inteligência artificial ChatGPT-4V na diferenciação de lesões mamárias benignas e malignas por ultrassonografia

HE Yuqing ,  

WU Zizheng ,  

GUO Shuai ,  

GAO Qinzhuang ,  

LI Hui ,  

YANG Baisheng ,  

摘要

Objetivo: avaliar a eficácia diagnóstica do ChatGPT-4V na interpretação de lesões benignas e malignas em ultrassonografia mamária, comparando-a com médicos de menor e maior experiência para explorar sua viabilidade como ferramenta de auxílio diagnóstico. Métodos: revisão retrospectiva e inclusão de pacientes com lesões mamárias no Hospital nº 1 de Qinhuangdao entre janeiro de 2024 e junho de 2025, usando resultados de exames patológicos como padrão ouro. ChatGPT-4V, dois médicos de menor experiência (3 a 5 anos) e dois médicos de maior experiência (>10 anos) interpretaram imagens de ultrassom de forma independente e cega. Foram registrados sensibilidade, especificidade, acurácia, curva ROC e área sob a curva (AUC), e avaliada a acurácia na identificação de forma, borda, tipo de eco, eco posterior e características de calcificação com base no sistema BI-RADS. O teste de McNemar foi usado para comparar a acurácia, o teste DeLong para comparar a AUC, e a curva de decisão clínica para avaliar o benefício líquido. Resultados: a eficácia diagnóstica do ChatGPT-4V foi próxima à dos médicos menos experientes (acurácia P>0,05), porém inferior aos médicos mais experientes (P<0,05). A curva de decisão clínica indicou benefício líquido em limiares baixos próximo ao dos médicos menos experientes. Em comparação com médicos menos experientes, a acurácia na identificação do tipo de eco (P=0,012) e do eco posterior (P=0,018) foi significativamente inferior, sem diferença estatística na identificação das características de calcificação (P=1,000). Comparado aos médicos mais experientes, o reconhecimento de todas as características ultrassonográficas — forma, borda, tipo de eco, eco posterior e calcificação — foi significativamente inferior (P<0,05). O ChatGPT-4V cometeu 24 erros (16,0%), sendo que as falsas negativas ocorriam frequentemente em bordas lisas, e as falsas positivas em formas irregulares. Conclusão: o desempenho do ChatGPT-4V é próximo ao dos médicos menos experientes, adequado para triagem básica, mas necessita de melhorias no reconhecimento de características complexas, podendo ser otimizado futuramente para aumentar seu valor clínico.

关键词

câncer de mama;nódulos mamários;modelos de linguagem grande;inteligência artificial;ultrassonografia;desempenho diagnóstico

阅读全文