Диагностическая эффективность искусственного интеллекта ChatGPT-4V в различении доброкачественных и злокачественных изменений при ультразвуковом исследовании молочной железы
Цель - оценить диагностическую эффективность ChatGPT-4V в различении доброкачественных и злокачественных образований при ультразвуковом исследовании молочной железы и сравнить с врачами с низким и высоким стажем для изучения возможности его использования в качестве диагностической поддержки. Методика: выполнен ретроспективный анализ пациентов с поражениями молочной железы, обследованных в Первой больнице Циньхуандао с января 2024 по июнь 2025 года, при этом гистологическое исследование использовалось как золотой стандарт. ChatGPT-4V, двое врачей с низким стажем (3-5 лет), двое врачей с высоким стажем (>10 лет) независимо и слепо оценивали ультразвуковые изображения. Ведён учёт чувствительности, специфичности, точности, площади под кривой ROC (AUC) и оценивалась точность определения формы, границ, типа эхосигнала, заднего эхосигнала и кальцификаций согласно BI-RADS. Точность сравнивалась с помощью теста МакНемара, AUC — с помощью теста Делонга, а чистая прибыль оценивалась на основании кривых клинического решения. Результаты: диагностическая эффективность ChatGPT-4V близка к врачам с низким стажем (P>0.05), но ниже, чем у врачей с высоким стажем (P<0.05). Кривая клинического решения показала, что чистая прибыль при низком пороге близка к врачам с низким стажем. При сравнении с врачами с низким стажем точность определения типа эхосигнала (P=0.012) и заднего эхосигнала (P=0.018) была значительно ниже, при этом различия в распознавании кальцификаций статистически незначимы (P=1.000). По сравнению с врачами с высоким стажем точность распознавания всех ультразвуковых признаков — формы, границ, типа эхосигнала, заднего эхосигнала и кальцификаций — была значительно ниже (P<0.05). ChatGPT-4V ошибочно классифицировал 24 случая (16,0%), чаще ошибочно классифицируя злокачественные образования как доброкачественные при четких границах, а доброкачественные как злокачественные при неправильной форме. Заключение: эффективность ChatGPT-4V близка к врачам с низким стажем и подходит для первичного скрининга, однако необходимы улучшения в распознавании сложных признаков для дальнейшего оптимизации и повышения клинической ценности.
关键词
рак молочной железы;узловые образования молочной железы;крупные языковые модели;искусственный интеллект;ультразвук;диагностическая эффективность