Projektzusammenfassung


Die Forschung und Lehre in Biologie, Medizin, Ökologie, Pharmazie und weiteren Lebenswissenschaften basiert zunehmend auf der Erhebung, Analyse und Interpretation großer Datenmengen. Typische Beispiele dieser Entwicklung sind Bilddaten in der Tumordiagnostik, Echtzeit-Mikroskopie in der Molekularbiologie oder DNA-Sequenzdaten in der Genomik. In diesem Projekt wird eine digitale Infrastruktur für Daten aus Instituten des Vienna Biocenters und Partnerinstituten errichtet, mit denen aktuell und künftig anfallende Hochdurchsatzdaten effizient und schnell für Forschung und Lehre bereitgestellt, langfristig gespeichert und verarbeitet werden können. Dabei werden die bestehenden Cluster für High-Performance Computing eingebunden, was die Notwendigkeit lokaler Hardware und deren Ressourcenverbrauch stark reduziert. Dieses Projekt umfasst zudem das Training der Nutzer*innen dieser Infrastruktur und die öffentliche Bereitstellung der Daten (Open Science) in hoher Kapazität und Geschwindigkeit.

Ziele


In diesem Projekt wird eine digitale Infrastruktur errichtet, mit der Life Science Daten im Bereich des VBC und seiner Kooperationspartner schnell und sicher gespeichert werden können. Es werden schnelle und robuste Verbindungen von den Nutzer*innen im Labor bis zu den bestehenden Core Facilities und Computing Facilities ermöglicht. Dadurch können große Mengen an Life Science Daten mit hoher Bandbreite zwischen analytischen Geräten und leistungsfähigen Datenspeichern, sowie zwischen den Datenspeichern und den relevanten High-Performance Computing Clustern zur Analyse hin und (wieder) zurück transferiert werden.

Daraus ergeben sich folgende angestrebte Ziele:

  1. Schaffung von Storage Kapazitäten von 5 PetaByte (PB) im Projektzeitraum mit Hochdurchsatz-Anbindung an Aufnahmegeräten und analytischen Core Facilities und an High-Performance Computing Clustern
  2. Schaffung von Datensicherungs- und Archivierungskapazitäten von netto 5 PB
  3. Bereitstellung von Hochdurchsatz-Forschungsdaten in den Life Sciences für die Lehre, wobei bestehende Hardware für die Bearbeitung der Daten genutzt wird
  4. Anbindung der Storage Kapazitäten an Open Science Plattformen (z.B. European Open Science Cloud) und internationale Infrastrukturen (z.B. ELIXIR)
  5. Training der Forschungsgruppen im Bereich Datenmanagement und Datenharmonisierung
  6. Speicherung und Verarbeitung der Life Science Daten mit maximaler Effizienz und minimalem Ressourceneinsatz (entsprechend den „Do no significant harm“ Richtlinien)

Maßnahmen


  • Das Projekt beruht auf der Identifikation und Einbeziehung von „Data creation sites“, also derjenigen Geräte, Core facilities und Arbeitsgruppen, welche Life Science Daten in so großem Umfang erzeugen und verarbeiten, dass Standard-Desktop-Umgebungen und bestehende zentrale Dateninfrastruktur nicht ausreichend sind. Diese „Data creation sites“ sind dynamisch und werden sich durch neue Forschungsgruppen und neue analytische Kapazitäten laufend verändern.
  • Diesen „Data creation sites“ wird der Zugriff auf einen zentralen Hochleistungs-Datenspeicher ermöglicht, welcher so schnell angebunden ist, wie es die Datenerzeugung und -verarbeitung erfordern. Dabei werden außergewöhnlich hohe Datentransferraten am Campus Vienna Biocenter bereitgestellt, da dort die technischen Voraussetzungen entsprechend vorliegen.
  • Zwischen dem zentralen Hochleistungs-Datenspeicher und diesen „Data processing sites“ werden bedarfsgemäß schnelle Datenverbindungen eingerichtet. Dies ist am Campus Vienna Biocenter und zwischen diesem und dem Standort des Vienna Scientific Cluster technisch gut umsetzbar.
  • Zusätzlich zur nötigen Infrastruktur für Datenspeicherung und -transfer umfasst das Konzept ein begleitendes Training der User*innen, die Einbindung in die Lehre, sowie die Umsetzung von Open Science Prinzipien sowie die Anbindung an internationale Infrastrukturen.

Nachhaltigkeit


  • Bedarfsgerechte Planung und Umsetzung
  • Beschaffung von Komponenten mit minimalem Energieaufwand für Herstellung und Betrieb
  • Recycling von Alt-Komponenten
  • Betrieb in Serverräumen mit energieeffizienter Kühlung
  • Vermeidung von Mehrfachkapazitäten durch effiziente Vernetzung mit allen Nutzergruppen


Projektdaten
Projektleiter*innen

Thomas Rattei (UW)

Koordinator*innen
innerhalb der Universität Wien

Michael Neumayer (UW)

Startdatum

Enddatum

Status

GESTARTET

KategorisierungForschung
Förderung(Digitale) Forschungsinfrastrukturen
Involvierte Universitäten

Medizinische Universität Wien

ZielSchnelle und sichere Speicherung von Forschungsdaten aus den Lebenswissenschaften
ProjektkooperationELIXIR Österreich
Webseitehttp://lisc.univie.ac.at/datalife

Projektplan

  • 2023-2026: Projektmanagement, organisatorische Begleitung und Umsetzung
  • 2023-2025: Konzeption, Planung und Beschaffung
  • 2024-2026: Inbetriebnahme und Entwicklung von Pilotprojekten
  • 2025-2026: Vernetzung mit High-Performance Computing Centern und Übergabe in den Vollbetrieb