Der Vergleich erfolgte anhand von 60 Fallvignetten seltener Erkrankungen. Vier allgemeine LLMs (Claude 3.5 Sonnet, ChatGPT-4o, Gemini 1.5 Pro und Llama 3.3) sowie drei traditionelle DDSSs (Symptoma, Ada und Isabel DDx) generierten jeweils bis zu fünf Diagnosevorschläge pro Fall basierend auf anamnestischen Informationen. Übereinstimmende Diagnosen wurden mit 2 Punkten, plausible Diagnosen mit 1 Punkt bewertet, beides floss in den Diagnosescore ein. Die Bearbeitungszeit pro Fall sowie der Anteil identischer oder plausibler Diagnosen wurden gemessen. Im Ergebnis variierte die diagnostische Genauigkeit stark, wobei LLMs die DDSSs übertrafen. LLMs stellten etwa viermal häufiger eine identische Hauptdiagnose als DDSSs (35,0 vs. 8,9 %; p<0,001), und die durchschnittlichen Diagnosescores lagen bei 3,5 (LLMs) gegenüber 2,1 (DDSSs). Auch bei der Bearbeitungszeit waren LLMs effizienter mit 20 vs. 189 Sekunden pro Fall. Claude 3.5 Sonnet erzielte mit 228 den höchsten Diagnosescore auf Basis der Anamneseinformationen, gefolgt von ChatGPT-4o (224), Llama 3.3 (200), Gemini 1.5 Pro (187), Symptoma (146), Ada (124) und Isabel DDx (116). Die gebräuchlichen LLMs schnitten in puncto diagnostischer Genauigkeit und Effizienz somit besser ab als die traditionellen DDSSs, darunter kostenlose und abonnementbasierte Medizinprodukte. Bemerkenswert ist, dass auch quelloffene, lokal betriebene LLMs vielversprechende Leistungen zeigten, was auf das Potenzial sicherer, lokal eingesetzter LLMs zur diagnostischen Entscheidungsunterstützung hinweist.
Quelle: EULAR Rheumatol Open 2025; 1(2): 51-59