فعالية تشخيص الذكاء الاصطناعي ChatGPT-4V في التفريق بين الآفات الحميدة والخبيثة في تصوير الثدي بالموجات فوق الصوتية

HE Yuqing ,  

WU Zizheng ,  

GUO Shuai ,  

GAO Qinzhuang ,  

LI Hui ,  

YANG Baisheng ,  

摘要

الهدف هو تقييم فعالية ChatGPT-4V في تشخيص الطبيعة الحميدة والخبيثة للآفات في تصوير الثدي بالموجات فوق الصوتية، ومقارنتها مع الأطباء ذوي الخبرة المنخفضة والعالية، لاستكشاف إمكانية استخدامه كمساعد تشخيصي. المنهجية: تم استعراض وترشيح مرضى تبدلات الثدي في مستشفى تشين هوانغ داو الأول من يناير 2024 إلى يونيو 2025، مع اعتبار نتائج الفحص النسيجي المعيار الذهبي. قام ChatGPT-4V واثنان من الأطباء ذوي الخبرة المنخفضة (3-5 سنوات) واثنان من الأطباء ذوي الخبرة العالية (>10 سنوات) بقراءة صور الموجات فوق الصوتية بشكل أعمى ومستقل. تم تسجيل الحساسية والنوعية والدقة ومنحنى خصائص المستقبِل التشغيلي (ROC) ومنطقة تحت المنحنى (AUC)، وتم تقييم دقة التعرف على الشكل والحدود ونوع الصدى والصدى الخلفي وخصائص التكلس استنادًا إلى نظام تقارير وتنقيط تصوير الثدي (BI-RADS). تم استخدام اختبار McNemar لمقارنة الدقة، واختبار DeLong لمقارنة AUC، وتم تقييم صافي الفائدة بواسطة منحنى القرار السريري. النتائج: كانت فعالية تشخيص ChatGPT-4V قريبة من أطباء الخبرة المنخفضة (الدقة P>0.05)، لكنها أقل من أطباء الخبرة العالية (P<0.05). أظهر منحنى القرار السريري أن الفائدة الصافية عند العتبة المنخفضة كانت قريبة من أطباء الخبرة المنخفضة. مقارنةً بأطباء الخبرة المنخفضة، كان الدقة في التعرف على نوع الصدى (P=0.012) والصدى الخلفي (P=0.018) أقل بشكل ملحوظ، ولم تكن هناك فروق ذات دلالة إحصائية في التعرف على خصائص التكلس (P=1.000). مقارنةً بأطباء الخبرة العالية، كانت جميع خصائص الموجات فوق الصوتية مثل الشكل والحدود ونوع الصدى والصدى الخلفي والتكلس أقل بشكل ملحوظ (P<0.05). أخطأ ChatGPT-4V في 24 حالة (16.0%)، حيث كانت الأخطاء في التشخيص الحميد كخبيث أكثر شيوعًا في وجود حدود غير منتظمة، والحميد يُخطأ على أنه خبيث في حالات الشكل غير المنتظم. الخلاصة: تقارب فعالية ChatGPT-4V فعالية الأطباء ذوي الخبرة المنخفضة، وهو مناسب كمساعد للفحص الأساسي، لكنه يحتاج إلى تحسين في التعرف على الخصائص المعقدة، ويمكن تحسينه مستقبلاً لتعزيز القيمة السريرية.

关键词

سرطان الثدي;عقد الثدي;نماذج اللغات الكبيرة;الذكاء الاصطناعي;الموجات فوق الصوتية;أداء التشخيص

阅读全文