KI-Chatbots in der Augenheilkunde: Eine neue Ära der Diagnostik und Behandlung

Große Sprachmodelle (large language models [LLM]) könnten den Einzug von künstlicher Intelligenz in den klinischen Alltag der Augenheilkunde begünstigen. In einer Querschnittsstudie schnitt ein LLM-Chatbot in der Diagnostik von Glaukom und Retinaerkrankungen besser ab als Fachärzte.

Große Sprachmodelle (large language models [LLM]) finden zunehmend Eingang in die medizinische Entscheidungsfindung. Auch im Bereich der Augenheilkunde könnten sie der künstlichen Intelligenz den Weg in den klinischen Alltag bereiten.

Studien deuten auf diagnostische Kompetenz von Chatbots in diversen Bereichen der Augenheilkunde hin.

LLM-Chatbots haben vielversprechende Leistungen bei simulierten Prüfungsfragen des Ophthalmic Knowledge Assessment Programms erzielt und neuere Studien belegen die diagnostische Kompetenz von LLM-Chatbots bei verschiedenen ophthalmologischen Erkrankungen, vom Glaukom über die Uveitis bis hin zu seltenen Augenerkrankungen. Die Arbeiten betonen die wachsende Bedeutung von KI-Chatbots als Unterstützungswerkzeug, besonders für angehende Augenärzte, heben aber auch die Notwendigkeit weiterer Verfeinerungen hervor.

Studie verglich Kompetenz von Fachärzten mit Chatbot.

In einer vergleichenden Querschnittsstudie bewerteten zwölf Fachärzte (acht Glaukom- und vier Retinaspezialisten) sowie drei fortgeschrittene Auszubildende aus Augenkliniken der Icahn School of Medicine at Mount Sinai, New York, insgesamt 2538 Bilder hinsichtlich Genauigkeit und Vollständigkeit. Es wurden jeweils zehn Fragen zu Glaukom und Retina sowie zehn Patientenfälle ausgewählt und die Antworten mit denen des LLM GPT-4 (Stand: 12. Mai 2023) verglichen.

Prüfung von Chat-GPT auf diagnostische Genauigkeit.

Das primäre Ziel der Studie war, die diagnostische Genauigkeit und Vollständigkeit der Antworten eines LLM-Chatbots mit denen von spezialisierten Augenärzten in den Bereichen Glaukom und Retina zu vergleichen und somit eine Aussage über die Kompetenzen der KI gegenüber der von Fachärzten treffen zu können.

Überlegenheit von Chatbot gegenüber Experten.

Der LLM-Chatbot zeigte im Vergleich zu Glaukomspezialisten eine signifikant höhere Genauigkeit (mittlerer Rang 506,2 versus 403,4, p<0,001) und Vollständigkeit (528,3 versus 398,7, p<0,001) in den Antworten. Bei den Retinaspezialisten erreichte der Chatbot eine vergleichbare Genauigkeit (235,3 versus 216,1) und übertraf sie in der Vollständigkeit signifikant (258,3 versus 208,7, p=0,05). Überlegenheit bzw. Gleichwertigkeit wurden durch die statistische Auswertung bestätigt.

Potenzial von LLMs als diagnostisches Hilfsmittel in der Augenheilkunde.

Die Studie bestätigt die hohe Kompetenz von LLM-Chatbots in der Diagnose und Behandlung augenärztlicher Fälle und unterstreicht das Potenzial von LLMs als vielversprechende diagnostische Ergänzung in der Augenheilkunde.

Technische Verfeinerung als Erfolgsfaktor

Die gute Leistung des Chatbots in dieser Studie könnte auf die verfeinerten Anweisungen zurückzuführen sein, die ihn dazu brachten, im Format einer augenärztlichen Notiz zu antworten. Diese methodische Optimierung spiegelt sich in der Konsistenz und Qualität der Ergebnisse wider.

Begrenzte Aussagekraft der Studie durch limitierende Faktoren.

Die Studie war auf ein Zentrum begrenzt und spiegelt nicht die mögliche Konsistenz und Flexibilität von LLMs in einem umfassenderen, multizentrischen Rahmen wider. Trotz vielversprechender Ergebnisse ist Vorsicht bei der direkten klinischen Anwendung geboten, da komplexe Entscheidungen sowie ethische und regulatorische Fragen weiterer Klärung bedürfen.

Studienergebnisse legen Einsatz von Chatbots als Diagnosemittel in augenärztlicher Praxis nahe.

Die Studienergebnisse verdeutlichen das Potenzial von KI-Chatbots als unterstützende Diagnosewerkzeuge in der Augenheilkunde, die in bestimmten Bereichen die Kompetenz von Fachärzten übertreffen können. Die Resultate legen nahe, dass LLM-Chatbots wertvolle Hilfsmittel für eine objektive und effiziente klinische Diagnose darstellen könnten.

Autor:

Klara Schulte-Bunert

Stand:

02.04.2024

Quelle:

Huang et al. (2024) Assessment of a Large Language Model’s Responses to Questions and Cases About Glaucoma and Retina Management. JAMA Ophthalmology; DOI: 10.1001/jamaophthalmol.2023.6917