Mit Hilfe moderner Untersuchungs-Methoden lassen sich heute aus Blutproben riesige Mengen von Informationen gewinnen. Forschende der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) wollen zusammen mit dem Biotech-Unternehmen BioVariance neue Verfahren aus der künstlichen Intelligenz (KI) entwickeln, um diesen Datenschatz auszuwerten und aus ihm treffsichere Schlüsse zu ziehen, etwa für die Diagnose von Krankheiten. Das Projekt „BioSamp“ wird nun vom Freistaat Bayern mit rund einer Million Euro gefördert ein Drittel davon geht an die FAU.
Die neuen KI-Verfahren sollen sowohl mit tatsächlichen Messdaten als auch mit künstlich generierten synthetischen Datensätzen trainiert werden, so dass sie danach Auffälligkeiten finden, die bei bestimmten Erkrankungen gehäuft vorkommen. Aus weniger als einem Tropfen Blut lassen sich Zehntausende von Messdaten gewinnen und mit sogenannten Omics-Analysen für die Diagnostik heranziehen.
„Im Prinzip wird dabei alles gemessen, was im Blut so vorkommt“, erklärt Prof. Dr. Daniel Tenbrinck, Professor für Data Science an der FAU. „Diese riesige Datenmenge hat das Potenzial, uns eine ganze Menge über den Gesundheitszustand von Patientinnen und Patienten zu verraten – nicht nur, an welcher Krankheit sie leiden, sondern möglicherweise sogar, von welcher Variante sie betroffen sind. Oder ob sie zwar ein erhöhtes Risiko für einen Herzinfarkt oder Diabetes haben, aber noch völlig gesund sind, so dass sich die Störung durch prophylaktische Maßnahmen verhindern lässt.“
Forschende rund um den Globus fahnden deshalb in Omics-Daten nach Auffälligkeiten, die mit bestimmten Krankheiten in Verbindung stehen. Aufgrund der Datenfülle kommen immer öfter Machine-Learning-Verfahren zum Einsatz, die dabei helfen sollen. Die künstliche Intelligenz wird dabei mit einer großen Anzahl von Omics-Daten aus Patientinnen und Patienten sowie den bei ihnen diagnostizierten Erkrankungen trainiert. Dadurch lernt der Algorithmus, Anzeichen in neuen Messwerten zu erkennen und entsprechend zu interpretieren.
Für das Training der KI werden eigentlich Omics-Daten aus Tausenden von Betroffenen benötigt. Diese zu gewinnen, ist aber ebenso zeitaufwändig wie kostspielig.Tenbrinck möchte daher zusammen mit dem Unternehmen BioVariance eine weitere Strategie nutzen. In der Fachwelt ist sie unter dem Namen „Synthetic Data Generation“, also Erzeugung künstlicher Daten, bekannt. Dabei werden mit statistischen Methoden lediglich bis zu 100 Omics-Datensätze analysiert und anschließend genutzt, um neue Datensätze zu produzieren, die sich statistisch nicht von den Daten tatsächlicher Blutanalysen unterscheiden.
Mit diesen synthetisch erzeugten Informationen kann man dann die KI trainieren. Der Algorithmus wird auf diese Weise deutlich robuster. Die Partner im BioSamp-Projekt wollen auf diese Weise zunächst die Diagnostik zweier Erkrankungen voranbringen – der schweren Depression und des chronischen Fatigue-Syndroms, einer häufigen Symptomatik bei Long Covid. Erkenntnisse aus dem Projekt sollen beitragen, nicht nur die Diagnose von Krankheiten zu verbessern, sondern auch ihre Therapie und Prävention.