
Eine neue Studie, die anlässlich des EADV-Kongresses 2021 vorgestellt wurde, hat ergeben, dass ein maschinelles Lernmodell für den direkten Endverbraucher zur Erkennung von Hautkrebs fälschlicherweise seltene und aggressive Krebsarten als risikoarm klassifiziert [2].
Die auf dem 30. EADV-Kongress präsentierten Ergebnisse, legen nahe, dass Apps, die auf solchen Modellen basieren, Patienten besser nicht an die Hand gegeben werden sollten. Ohne Transparenz der Leistungskennzahlen für seltene, aber potenziell lebensbedrohliche Hautkrebsarten sei das Bereitstellen solcher Apps ethisch eher fragwürdig.
Bei der Studie konzentrierten die Forscher sich auf zwei Arten von Hautkrebs, das Merkelzellkarzinom (MCC) und das amelanotische Melanom.
Beurteilung von Machine-Learning-Modellen
Beide Hautkrebsarten sind seltene, aber besonders aggressive Krebsarten, die dazu neigen, schnell zu wachsen und eine frühzeitige Behandlung erfordern. Die Forscher erstellten einen Datensatz von 116 Bildern dieser seltenen Krebsarten und der benignen Läsionen seborrhoischer Keratose und Hämangiome und bewerteten diese Bilder mit zwei Machine-Learning-Modellen.
Das erste untersuchte Modell war ein zertifiziertes Medizinprodukt, das direkt über den App Store an die Öffentlichkeit verkauft und als in der Lage beworben wurde, 95% der Hautkrebserkrankungen zu diagnostizieren (Modell 1).
Das zweite Modell stand nur zu Forschungszwecken zur Verfügung und diente als Referenz (Modell 2).
CC und amelanotische Melanome als risikoarm eingestuft
Die Ergebnisse zeigten, dass Modell 1 17,9% der MCCs und 22,9% der amelanotischen Melanome fälschlicherweise als risikoarm einstufte. 62,2% der benignen Läsionen wurden wiederum als Hochrisiko eingestuft. Für die Erkennung von Malignität betrug die Sensitivität von Modell 1 79,4% [95% Konfidenzintervall (KI) 69,3–89,4%] und die Spezifität 37,7% [95% KI 24,7–50,8]. Für Modell 2 wurde MCC in keinem der 28 analysierten MCC-Bilder in die Top-5-Diagnose aufgenommen, was die Möglichkeit aufkommen lässt, dass das Modell nicht darauf trainiert wurde, dass diese Krankheitsklasse existiert.
Die hohe False-Positive-Rate von Modell 1 hat potenziell negative Folgen auf persönlicher und gesellschaftlicher Ebene. Die Ergebnisse werfen eine größere Frage nach der Sicherheit anderer auf dem Markt erhältlicher Modelle der künstlichen Intelligenz (KI) zur Erkennung von Hautkrebs auf.
Seltene Krankheiten oft nicht berücksichtigt
Lloyd Steele, Hauptautor der Studie am Blizard Institute, Queen Mary University of London, Großbritannien, erklärt: „Um sich zu verbessern, sollten die Modellbewertungen des maschinellen Lernens das Spektrum der Krankheiten berücksichtigen, die in der Praxis auftreten werden. Derzeit wird die Leistung dieser Modelle hauptsächlich durch die verfügbaren Bildgebungsdaten bestimmt, die besonders bei seltenen Hautkrebsarten knapp sind.“
Eine globale Zusammenarbeit zwischen Forschungsgruppen und Krankenhäusern kann ein Schritt sein, um die Lücke bei den Bildgebungsdaten von Hautkrebs zu schließen, die ein entscheidendes Element für eine hohe Leistung des maschinellen Lernens sind. Marie-Aleth Richard, Vorstandsmitglied der EADV und Professorin am Universitätsklinikum La Timone, Marseille, sagte: „Die Zahl der für Verbraucher verfügbaren Apps zur Erkennung von Hautkrebs nimmt zu, aber wie diese Studie gezeigt hat, muss mehr Transparenz die Sicherheit und Wirksamkeit dieser Apps betreffend. Darüber hinaus erkennen solche Geräte nur das, was sie analysieren sollen, und führen keine systematische Analyse der gesamten Hautoberfläche durch.“