KI in der Einzelzellforschung: Besseres Krankheitsverständnis durch neue Datenanalysen

Forschende aus München haben neue Algorithmen und Programme für Datenanalysen entwickelt. Dadurch lassen sich unter anderem das Schicksal von Zellen vorhersagen, Datensätze aus verschiedenen Experimenten vergleichen und räumliche Genexpressionsdaten sichtbar machen.

Kuenstliche Intelligenz

Wissenschaft lebt von Daten. Gerade in der Grundlagenforschung und der klinischen Forschung entstehen tagtäglich riesige Datensätze. Zwar liefern sie für einzelne Projekte wichtige Erkenntnisse, sie lassen sich jedoch häufig nicht mit den Daten anderer Projekte zusammenführen und analysieren. Das liegt zum einen daran, dass die Forschungsprojekte häufig nach unterschiedlichen Klinik- und Laborprotokollen durchgeführt wurden, zum anderen entstammen viele Datensätze klinischen Studien, die besonderen Datenschutzregeln unterliegen.

Ein neues Forschungszentrum für künstliche Intelligenz in der medizinischen Wissenschaft soll diese Probleme nun angehen und die Lücken schließen. Das »Computational Health Center des Forschungszentrums Helmholtz Munich« ist eng vernetzt mit der Technischen Universität München (TUM) und eines der europaweit größten Forschungszentren in diesem Bereich. Geleitet wird das Zentrum durch Fabian Theis.

Erste Lösungen bringen die beteiligten Wissenschaftlerinnen und Wissenschaftler bereits mit, wie sich in aktuellen Publikationen zeigt. Sie entwickelten mehrere neue Algorithmen für Datenanalysen. Alle Studien befassten sich mit großen Datensätzen und wurden als Open Access-Publikationen veröffentlicht.

Neuer Leitfaden zur Datenintegration

Das Team um Malte Lücken hat so bereits einen Leitfaden entwickelt , wie sich Datenintegrationen am besten bewerkstelligen lassen. Dadurch soll auch das Problem der sogenannten Batch-Effekte behoben werden. Das sind Fehler in den Messungen, die beispielsweise durch Umwelteinflüsse, genutzte Geräte oder die unterschiedlichen molekularen Profile der verwendeten Zellen entstehen.

Dafür hat das Team 68 verschiedene Methoden untersucht und die Daten von 23 Publikationen simuliert. Heraus kam unter anderem, dass vor allem bei komplexen Integrationen scANVI, Scanorama, scVI und scGen gut funktionierten.

Mithilfe des Leitfadens ließen sich Krankheitsprozesse über verschiedene Datensätze hinweg besser beobachten und beurteilen.

Die gesamten Ergebnisse können in der frei verfügbaren (Open Access) Veröffentlichung in »Nature Methods« nachgelesen werden.

Neuer Algorithmus für Transfer-Learning

Auch ein zweites Forschungsteam hat sich unter anderem des Problems des Batch-Effekts angenommen. Das Team um Mohammad Lotfollahi hat einen neuen Algorithmus entwickelt. Dieser Algorithmus, scArches (kurz für „Single-Cell Architecture Surgery“) macht es möglich, Datensätze aus der Einzelzellgenomik mit bereits bestehenden Referenzdaten, beispielsweise aus einem Referenzatlas wie dem »Human Cell Atlas«, zu vergleichen. Dafür müssen die Rohdaten nicht mehr weitergegeben werden und das Problem des Datenschutzes kann umgangen werden. Besonders gut eignet sich der Algorithmus für Datensatzabfragen.

In einem COVID-19-Experiment ist der Algorithmus bereits zum Einsatz gekommen. Dem Team gelang es dadurch kranke von gesunden Zellen zu unterscheiden. Das Ganze funktionierte unabhängig von biologischen Unterschieden zwischen den betroffenen Patientinnen und Patienten. Die Daten wurden in »Nature Biotechnology « veröffentlicht.

Vorhersagen zu Zellschicksalen

Neben der Problematik des Batch-Effekts hat sich das Team um Marius Lange auch einer anderen Frage gewidmet: wie sich das Zellschicksal vorhersagen lässt. Das ist für viele Forschungsbereiche interessant, denn häufig lässt sich die Entwicklung und Regeneration von Zellen nur bestimmen, indem eine Einzell-RNA-Sequenzierung durchgeführt wird. Damit können Zellen zwar ganz individuell untersucht werden, allerdings werden sie jedoch dabei zerstört und die Methode zeigt nur eine Momentaufnahme der Genexpression. Das, was mit der Zelle in der Zukunft passiert wäre, lässt sich nicht mehr zuverlässig voraussagen.

Das Team um Marius Lange hat dafür nun einen neuen Algorithmus (CellRank) entwickelt.. CellRank kann beschreiben, wie sich Zellen entwickeln. Dafür nutzt der Algorithmus »RNA Velocity«, ein Konzept zur Abschätzung der Genregulation, und die Genexpression zum Zeitpunkt des Experiments.

In der Praxis sagte der Algorithmus bereits bis dahin unbekannte Zellzwischenzustände bei der Lungenregeneration voraus, die in Experimenten bestätigt werden konnten. Die Software dafür ist auf Open-Source-Basis und die Daten wurden in »Nature Methods« publiziert.

Molekuläre Daten räumlich sichtbar machen

Omics-Daten gelten als zukunftsweisend. Sie analysieren verschiedene Aspekte im Körper auf einer globalen Ebene. Dazu zählen beispielsweise, welche Gene wo und wie exprimiert werden, welcher Stoffwechsel wo abläuft etc. Eine Möglichkeit, diese Daten zu analysieren, ist, die räumliche Genexpression von Geweben zu untersuchen. So können Zellen im Kontext betrachtet werden und Interaktionen besser verstanden werden. Das Ganze bedarf jedoch leistungsstarker Computersysteme. Das Team um Giovanni Palla und Hannah Spitzer hat dazu ebenfalls eine neue Software entwickelt, Squidpy. Sie nutzt Genexpressionsanalysen und Bildanalysen, um Omics-Daten räumlich zu verarbeiten und interaktiv zu visualisieren. Die Daten hierzu wurden ebenfalls in »Nature Methods« veröffentlicht.

Verständnis von Krankheiten voranbringen

„Wir haben vier intensive Wochen hinter uns, in denen unsere wissenschaftlichen Projekte und Methoden gleichzeitig erfolgreich publiziert wurden. (…) [Wir] nutzen und entwickeln Ansätze des maschinellen Lernens, um komplexe Daten besser darzustellen. Mit unseren drei neuesten Studien haben wir uns mit der Integration von Einzelzelldaten, dem Lernen von Trajektorien und der räumlichen Auflösung beschäftigt. Mit diesen Beiträgen aber auch darüber wollen wir die Einzelzellforschung und damit unser Verständnis von Krankheiten auf die nächste Stufe bringen.“, so Theis.

Autor:
Stand:
28.04.2022
Quelle:
  1. Deutsches Zentrum für Diabetesforschung (DZD). Schicksal von Zellen vorhersagen: Forschende entwickeln KI-Lösungen für medizinische Spitzenforschung. Pressemitteilung. Online. 03.02.2022 [zuletzt aufgerufen am 01.03.2022]
  2. Helmholtz München. Künstliche Intelligenz hilft bei der Erkennung einzelner kranker Zellen. Pressemitteilung. Online [URL: https://www.helmholtz-munich.de/aktuelles/uebersicht/pressemitteilungnews/article/49897/index.html] 30.08.2021 [zuletzt aufgerufen am 01.03.2022]
  3. Lange, M., Bergen, V., Klein, M. et al. CellRank for directed single-cell fate mapping. Nature Methods 2022; 19, 159–170. DOI: 10.1038/s41592-021-01346-6.
  4. Lotfollahi, M., Naghipourfar, M., Luecken, M.D. et al. Mapping single-cell data to reference atlases by transfer learning. Nature Biotechnology 2022; 40, 121–130. DOI: 10.1038/s41587-021-01001-7
  5. Luecken, M.D., Büttner, M., Chaichoompu, K. et al. Benchmarking atlas-level data integration in single-cell genomics. Nature Methods 2022; 19, 41–50. DOI: 10.1038/s41592-021-01336-8
  6. Palla, G., Spitzer, H., Klein, M. et al. Squidpy: a scalable framework for spatial omics analysis. Nature Methods 2022; 19, 171–178. DOI: 10.1038/s41592-021-01358-2.
  • Teilen
  • Teilen
  • Teilen
  • Drucken
  • Senden

Anzeige