- Erstellt von Kracher-Fischer Christian, zuletzt geändert von Köhn Philipp-Konstantin am 05. Mai 2025
Projektzusammenfassung
Ziel von DigiOmics4Austria ist das Bereitstellen einer digitalen Infrastruktur im Life Science Bereich für kleine Moleküle (Metabolite und Fremdstoffe), die den Menschen in seiner molekularen Zusammensetzung beschreibt. DigiOmics4Austria beinhaltet eine Datenbank mit spezifischen Informationen über u.a. Organe, Alter und Substanz-Referenzlevel der humanen Proben. Zudem stellt die Infrastruktur erstmals quantitative Daten zu humanen Metaboliten und Umweltgiften bereit. Die Einzigartigkeit besteht darin, dass zukünftige Forschungsergebnisse auf diese Referenz und Metadaten abgebildet werden können und somit eine Vergleichbarkeit von Tausenden von Molekülen etabliert wird, was Rückschlüsse auf Umwelteinflüsse und Gesundheitszustände erlaubt. DigiOmics4Austria bietet somit Strategien zur Früherkennung und Verhinderung von diversen Krankheiten.
Ziele
Das Ziel von DigiOmics4Austria ist die vollständige Referenz-Kartierung von Metaboliten menschlicher Organe, Gewebe, Zellen und essenzieller Biofluide im IST-Zustand darzustellen und somit als Basisreferenz zu fungieren, um die menschliche Gesundheit zu verstehen und für Diagnose, Überwachung und Krankheitsbehandlung sowie Grundlagenforschung einsetzbar sein. Die Eckpfeiler dieser Bioinformatik-Forschungsinfrastruktur werden die Bereitstellung von Daten nach den FAIR-Richtlinien, der Zugang zu Referenzdaten, sowie ein benutzerzentriertes Portfolio an Diensten, Anleitungen und Dokumentationen sein. Die Daten entsprechen den ethischen Richtlinien; es werden keine Daten veröffentlicht, welche Rückschlüsse auf Personen ermöglichen, und es wird eine Antidiskriminierungsstrategie aktiv verfolgt. DigiOmics4Austria wird für alle relevanten Interessensgruppen in Österreich offen sein und hat das Potenzial der nächste bahnbrechende Zugang für zukünftige grundlegende, angewandte und klinische Wissenschaften zu werden.
Maßnahmen
Der Antrag sieht zur Umsetzung des Vorhabens vor, sowohl Massenspektrometer (MS) für das Schließen von vorhandenen Messdatenlücken als auch Compute-Server zu beschaffen, mit denen die erhobenen Daten verarbeitet werden und in einer eigens dafür implementierten Datenbank bereitgestellt werden können. Durch ihre hohe Präzision und Geschwindigkeit sind MS-Geräte die beste Option zur Bestimmung von Bio-Molekülen in Proben und Geweben. Die Konzentrationen von Metaboliten können sich über mehrere Größenordnungen erstrecken. Für eine vollständige Charakterisierung der Moleküle sind deshalb verschiedene MS-Techniken nötig, um den ganzen Konzentrationsbereich abzudecken. Für niedrigabundante Moleküle eignen sich niedrigaufgelöste (LR) Massenspektrometer, wo hingegen hochauflösende Geräte (HR) den hohen Konzentrationsbereich gut abdecken. Das Vorhaben sieht die Beschaffung eines LR- und HR-Massenspektromers vor, um eine komplette Abdeckung der zu messenden Moleküle zu gewährleisten und vorhandene Datenbanklücken zu schließen.
Die erhobenen Daten müssen anschließend durch geeignete Programme aufgearbeitet werden, um diese in einer weiter nutzbaren Form zugänglich zu machen. Dabei sollen sowohl individuelle Benutzer*innen bequem auf die Daten zugreifen können als auch Programmierschnittstellen für automatisierte Prozesse zum Einsehen und Suchen, Filtern und Herunterladen vorhanden sein. Speziell in dem Bereich der computer-gestützten Lipidomik gibt es bereits ausgereifte Programme und Software-Lösungen, die in eigenen Vorarbeiten entwickelt wurden . Diese Software-Lösungen können als Grundlage genutzt werden, um sie an die neuen Anforderungen des Projektes anzupassen. In der Anfangsphase des Projektes wird zwar die Datenbank initial gefüllt, doch wird es Lücken in den Daten geben. Eine Strategie ist die fehlenden Daten zu interpolieren - auf der Basis von vorhandenen Daten, generiertem Wissen und geeigneten Verfahren des maschinellen Lernens -, um hochangepasste Daten-Modelle zu erhalten. Eine andere Strategie wäre das Simulieren der Daten unter Verwendung der erhobenen Daten und ihrer physikochemischen Eigenschaften in Verbindung mit den Zuständen der Proben (gesunde gegen erkrankte Zellen oder Patient*innen). Die fehlenden Daten können dann während der Benutzeranfrage interpoliert oder simuliert werden (chemisches Raummodel), was den Vorteil hat, dass neue Daten aus der Datenbank mit in die Analyse einfließen würden. Ein weiteres Merkmal der Datenbank wird sein, dass die Community ihre analysierten Daten zur Verfügung stellen und in die Datenbank hochladen kann, welche dann von erfahrenen Expert*innen überprüft und akzeptiert werden. Dies entspricht im hohen Maße den FAIR-Vorgaben.
Die benötigte Computer-Hardware setzt sich aus zwei Anforderungen zusammen: Erstens müssen die erhobenen Daten nach der Messung prozessiert und nachbearbeitet werden. Dieses erfordert ein hohes Maß an Rechenleistung, zumal auf den Rohdaten der Massenspektrometer (sehr speicherlastig) gearbeitet wird. Zweitens, sind die Merkmale einmal extrahiert, müssen die Daten zum anderen in einer geeigneten Datenbank untergebracht werden. Die Anforderungen für eine performante Datenbank sind u. a. ein hohes Maß an Parallelisierbarkeit und Transaktionssicherheit. Benutzer*innen, die die Datenbank über eine Weboberfläche nutzen, werden die Möglichkeit haben, Datensätze über mehrere Proben, Organe oder Gewebe miteinander zu vergleichen. Das Vergleichen der Datensätze wird zur Anfragezeit stattfinden, da eine Vorverarbeitung der Daten nicht umsetzbar ist. Solche Datensatzvergleiche benötigen performante Prozessoren und viel Arbeitsspeicher, um die Anfrage und deren Ergebnisse in Echtzeit bearbeiten und zurückliefern zu können. Die angeforderte Hardware wird deshalb als heterogene, virtualisierte Cloud-Umgebung betrieben, welches z. B. mit Apache Spark realisiert werden kann.
Nachhaltigkeit
Durch DigiOmics4Austria wird ein weiterer Baustein für Multiomics- und Single Cell Plattformen gelegt und eine international einzigartige Infrastruktur geschaffen. Das Zusammensetzen und integrative Analysieren aller einzelnen OMICS-Daten ist zurzeit das erklärte Ziel in der Forschung. DigiOmics4Austria wird wesentlich zur internationalen Sichtbarkeit durch die Verknüpfung zu Großprojekten wie z. B. dem Human Cell Atlas (von Stanford, US; Karolinska Institute, Schweden) beitragen. Auf Basis dessen besteht die Möglichkeit, dass neue weiterführende Projekte mit Arbeitsgruppen anderer Universitäten entwickelt und zusätzliche Mittel auf europäischer Ebene eingeworben werden, welche wiederum die Etablierung neuer Positionen für Nachwuchswissenschaftler*innen ermöglicht. Aber auch während des Studiums kann die Plattform von Nutzen sein, da die Arbeit mit den Daten direkt über interaktive Tutorials erlernt werden kann.
Projektleiter*innen | Robert Ahrends (UW) Benedikt Warth (UW) |
---|---|
Koordinator*innen innerhalb der Universität Wien | siehe Projektleiter |
Startdatum | |
Enddatum | |
Status | IN BEARBEITUNG |
Kategorisierung | Forschung |
Förderung | (Digitale) Forschungsinfrastrukturen |
Involvierte Universitäten | Internationale Lipidomics Society Universität Innsbruck Medizinische Universität Wien |
Ziel | Bereitstellen einer digitalen Infrastruktur im Life Science Bereich für kleine Moleküle |
Projektkooperation | Die ESFRI Forschungsinfrastruktur Exposome/EIRENE Austria (https://exposome.at) und assoziierte Partner sowie strategische Allianzen |
Webseite |
Projektplan
Beispiel:
- 2023-2024: In der ersten Phase werden vorhandene Softwarelösungen an die neuen Anforderungen angepasst, benötigte Hardware wird angeschafft und die Cloud-Systeme werden implementiert.
- 2024-2025: In der zweiten Phase werden Methoden und Modelle mittels maschinellen Lernens entwickelt, um fehlende Daten zu kompensieren.
- 2025: Die dritte Phase, die ein Jahr dauert und sich mit der zweiten überlappt, sieht einen Systemausbau vor, um über die Projektlaufzeit hinaus weiter angeboten zu werden.