IGF-Projekt: 21361 N (2020 - 2022)
Die zeitaufwendige Analyse biomedizinischer Bilddaten, z. B. in der Zellmikroskopie, wird bisher von spezialisiertem Laborpersonal durchgeführt und ist dementsprechend kostenintensiv. Die Subjektivität der Auswertung und die Anfälligkeit für anwendungs- und gerätespezifische Fehler beeinträchtigen zudem die Vergleichbarkeit der Ergebnisse.
Methoden des Deep Learning (DL), die tiefe künstliche neuronale Netze zur semantischen Wissensextraktion aus Bilddaten nutzen, ermöglichen eine Hardware-unabhängige automatisierte und objektive Bildauswertung. Die Entwicklung solcher Anwendungen erfordert jedoch Expertise und Erfahrung in den Fachgebieten Datenwissenschaften, maschinelles Lernen, Informationstechnologie und Software-Entwicklung. Über das IT-Knowhow im benötigten Umfang und in ausreichender Tiefe verfügen z. B. Analysen-Spezialisten oder Mediziner nur selten, um funktionsfähige DL-Anwendungen für ihre jeweiligen konkreten Problemstellungen selbst entwickeln zu können. Die Entwicklung spezifischer Einzellösungen bei externen IT-Büros in Auftrag zu geben, ist aus wirtschaftlichen Gründen oft nicht umsetzbar.
Ziel des Projekts war, eine intuitiv nutzbare Software zur ganzheitlichen DL-basierten Bildauswertung zu entwickeln, inklusive automatisierter Vorverarbeitung der Daten, Algorithmus-Auswahl und Konfiguration von DL-Modellen, die biomedizinische Experten für verschiedene Zell- und Gewebeanalysen auch ohne umfangreiche IT-Kenntnisse eigenständig nutzen können. Hierzu sollte mithilfe einer domänenspezifischen selbstlernenden Entscheidungslogik (engl. Automated Machine Learning; AutoML) die Konfiguration einer aus Datenvorverarbeitung, neuronaler Netzarchitektur, Lernalgorithmus und Nachbearbeitung bestehenden Datenpipeline für die zur Verfügung stehenden Rechenressourcen und den spezifischen Anwendungsfall optimiert werden. Die Datenpipeline soll im Anschluss trainiert und dem biomedizinischen Experten zur Nutzung und Integration in dessen Analyse-Workflow zur Verfügung gestellt werden.
Um den komplexen und iterativen Entwicklungsprozess einer Datenpipeline zu automatisieren, wurde ein domänenspezifisches AutoML-System basierend aufsemantischer Segmentierung von Mikroskopiedaten entwickelt. Die dazu benötigte modulare Softwarebibliothek, Daten- und Wissensbasis wurden anhand von zehn verschiedenen Anwendungsfällen aufgebaut.
Das finale AutoML-System besteht aus fünf zentralen Komponenten: 1) Ein vordefinierter Suchraum, 2) eine Wissensbasis aus Metadaten zu den Merkmalen der Anwendungsfälle und der Modell-Performance, 3) eine Datenvorverarbeitung zur Erschließung des maximal extrahierbaren Informationsgehalts, 4) ein Meta-Learning-Modell zur Bestimmung einer Rangfolge der Datenpipelines im Hinblick auf ihre Eignung für die Bearbeitung der Analyseaufgabe und 5) ein Multi-Fidelity-Ansatz zur Identifizierung der am besten performenden Datenpipeline.
Das AutoML-System wurde in eine lokal nutzbare und in eine Cloud-basierte Anwendung integriert. Bei letzterer kann über einen Internetbrowser eine neue Analyseaufgabe definiert, Daten hochgeladen, diese annotiert und das AutoML-System gestartet werden. Ausgegeben werden die Konfiguration der optimalen Datenpipeline und eine Bewertung der Auswahl. Das Modell kann nun in der Laborumgebung direkt zur Zellkulturanalyse genutzt oder in einen automatisierten Analyse-Workflow integriert werden.
Die Performance der durch das AutoML-System für verschiedene spezielle Anwendungsfälle konfigurierten Datenpipelines liegt nahe bei individuell entwickelten Modellen und bestätigt damit die Funktionalität des Ansatzes einer vollständigen Automatisierung der DL-Entwicklung und Bildauswertung in abgegrenzten Domänen, ohne gravierende Nachteile in den Modellgenauigkeiten.
Aktuell erfordern einige Analysen spezifische Nachbearbeitungsschritte, mithilfe derer die Segmentationsmasken der neuronalen Netze auf z. B. morphologische Eigenschaften hin untersucht werden können. Die modulare Software-Struktur erlaubt jedoch, erforderliche Nachbearbeitungen mithilfe einfacher Ergänzungen zu implementieren. Mit steigender Anzahl solcher Implementierungen wird die Anzahl zur Verfügung stehender standardisierter Ergänzungsmodule und dadurch auch der Funktionsumfang der Anwendung zunehmen.
Da die entwickelte Software zur automatisierten Auswertung nicht auf nur einen speziellen Anwendungsfall zugeschnitten ist, profitieren die Anbieter zahlreicher Anwendungsfälle und -nischen von den Ergebnissen. Biotechnische und medizinische Labore können mit der Software schneller belastbare und vergleichbare Ergebnisse erzielen. Software-Anbieter und KI-Entwicklungsunternehmen können ihr Produktportfolio um vergleichbare AutoML-Module erweitern und diese auf andere Anwendungsfelder transferieren, z. B. auf die Erkennung von Oberflächendefekten in der Produktionstechnik. Hersteller optischer Geräte, Laborequipment und photonischer Komponenten für die Zell-, Stammzellen- und Tumorforschung können durch Integration der Ergebnisse in bestehende Lösungen den Zeitaufwand für die Automatisierung der Auswertung reduzieren und deren Genauigkeit erhöhen. Unternehmen der genannten, KMU-dominierten Branchen können mit den Ergebnissen neue Geschäftsmodelle erschließen, z. B. den Vertrieb Hardware-unabhängiger Software-Abonnements.
Laufzeit: 01.09.2020 - 31.08.2022
Beteiligte Forschungseinrichtung
Eingebundene Unternehmen
(Projektbegleitender Ausschuss, "PA")
Von diesen Unternehmen beteiligten sich die Unternehmen ALS Automated Lab Solutions GmbH, Bayer AG, MABRI.VISION GmbH, PicoQuant GmbH und Taorad GmbH an der Deckung der auf freiwilliger Basis durch die Wirtschaft zu tragenden Administrationskosten. Die F.O.M. bedankt sich im Namen der begleitenden Branchen.
BMWK-Förderung
Deckung der Administrationskosten
Abschließende Ergebnisse
Weitere Informationen für eingebundene PA-Unternehmen
Die Projektergebnisse wurden am 23. Juni 2022 auf dem Innovationstag Mittelstand des BMWK in Berlin präsentiert.