
In der Dermatologie werden seit langem die verschiedensten optischen Techniken erfolgreich eingesetzt, um Hautveränderungen zu deuten. Und was man sieht, kann heutzutage festgehalten und mit modernen Mitteln weitergeleitet und verarbeitet werden. Gerade für das sehr visuell geprägte Fach Dermatologie bietet sich die Telemedizin und auch die computergestützte Diagnostik an. Hier sind auch bereits Diagnosesysteme mit Künstlicher Intelligenz (KI) etabliert. Vor allem bei beim Erkennen und Klassifizieren verbreiteter und eindeutig ausgeprägter Hauterkrankungen sind KI-Systeme mittlerweile sehr treffsicher.
Je mehr Trainingsmaterial, desto korrekter die Diagnose
Diese Treffsicherheit der KI hängt davon ab, wie gut das selbstlernende System trainiert wurde, das heißt, dass ihm möglichst viele Bilder einer Erkrankung präsentiert wurden. Kurz: Für häufige Erkrankungen stehen viele Bilder fürs Training zur Verfügung, also kann eine hohe Diagnose-Sicherheit erzielt werden.
Doch wie sieht es bei selteneren Erkrankungen mit der Treffsicherheit der KI-Systeme aus? Ist sie der Facharzt-Diagnose gleichwertig? Das wollte eine Forschergruppe um den Heidelberger Dermatologen Professor Dr. med. Holger A. Haenssle wissen.
Einzel-Diagnose vs. Kollektiv vs. KI
Sie verglich die diagnostische Leistung dreier Gruppen:
- Kollektive menschliche Intelligenz (CoHI = collective human intelligence),
- individuelle Dermatologen sowie
- zwei KI-Systeme, die auf der Technik der faltenden neuronalen Netzwerke (Convolutional Neural Network=CNN) beruhen.
Dermatologen-Quiz für die Forschung
Dazu veranstaltete das Heidelberger Forscherteam bei einem Dermatoskopie-Kongress in München mit 120 Dermatologen ein Quiz. Den Fachärzten wurden 30 Hautläsionen mit kurzen anamnestischen Angaben gezeigt, die sie klassifizieren und diagnostizieren sollten. Unter den zu bestimmenden Fällen waren viele seltene und schwer zu diagnostizierende Erkrankungen. Abgestimmt wurde mittels eines Televoting-Verfahrens, bei dem nicht nur die richtige Antwort zählte, sondern auch die Geschwindigkeit, mit der die Lösung gefunden wurde.
Zudem werteten die Wissenschaftler nicht nur die Einzelergebnisse der Teilnehmer aus, sondern berechneten auch ein Mehrheitsvotum, das sie Schwarmintelligenz nannten.
Diese Diagnosen wurden dann mit denen der KI-Systeme verglichen. Ergebnis: Die humane Schwarmintelligenz war den KI-Systemen in diesem anspruchsvollen, aber realitätsnahen Wettbewerb deutlich überlegen.
Fazit der DDG
„Bisher betrachteten Forschende die Leistungsfähigkeit von KI-Systemen meist im Vergleich zu einzelnen Dermatologen. Diese Querschnittstudie zeigt jedoch, dass die Korrektheit der Diagnosen von kollektiver Entscheidungsfindungen durch menschliche Gruppen profitiert. Die Hinweise sind deutlich, dass die Korrektheit kollektiver humaner Intelligenz diejenige von Deep-Learning-Technologien und Einzelpersonen übertrifft“, fasst der Präsident der Deutschen Dermatologischen Gesellschaft (DDG), Professor Dr. med. Michael Hertl (Marburg) zusammen.