Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:forschungsdatenmanagement:fdl:index

Forschungsdatenlebenszyklus

Der entscheidende Punkt des Lebenszyklus' von Forschungsdaten (Abb. 1) ist die Nachnutzung – denn nur wenn Daten nachgenutzt werden können, sind sie Teil der Raum und Zeit (und Personen) transzendierenden Wissenschaft. Zur Erinnerung: Forschungsdatenmanagement ist letztlich nichts anderes als die Grundvoraussetzung für Wissenschaft, und als solches stellt Forschungsdatenmanagement auf jeder Stufe des Forschungsdatenlebenszyklus' die Wissenschaftlichkeit sicher. Zudem ist die Nachnutzung durch die einzelnen Forschenden selbst („future-me“) ein entscheidender Aspekt – zumindest für die Motivation des Forschungsdatenmanagements. Nachnutzung durch andere ist Kern der Wissenschaft, aber aus Sicht der Einzelperson zu abstrakt und nur als Motivation tauglich, wenn viel Idealismus existiert.

Abbildung 1: Der Forschungsdatenlebenszyklus. Entscheidend ist die Nachnutzung – denn nur wenn Daten nachgenutzt werden können, sind sie Teil der Raum und Zeit (und Personen) transzendierenden Wissenschaft. Im Laufe des Forschungsdatenlebenszyklus' verändert sich, was genau unter „Forschungsdaten“ zu verstehen ist. Auf jeden Fall sind es nicht nur die (Roh-)Daten, sondern genauso die Auswertungen, die daraus entstehenden Artefakte, die zur Auswertung verwendeten Werkzeuge und die schriftlichen, letztlich idealerweise zum Erkenntnisgewinn beitragenden Berichte (Veröffentlichungen i.e.S.), die die Ergebnisse in einen größeren Kontext einbetten.

Im Laufe des Forschungsdatenlebenszyklus' verändert sich, was genau unter „Forschungsdaten“ zu verstehen ist. Auf jeden Fall sind es nicht nur die (Roh-)Daten, sondern genauso die Auswertungen, die daraus entstehenden Artefakte, die zur Auswertung verwendeten Werkzeuge und die schriftlichen, letztlich idealerweise zum Erkenntnisgewinn beitragenden Berichte (Veröffentlichungen i.e.S.), die die Ergebnisse in einen größeren Kontext einbetten.

Warum ist der Forschungsdatenlebenszyklus so zentral für das Forschungsdatenmanagement?

  • Forschungsdatenmanagement fokussiert auf die Handhabung von Daten (im weiten Sinn, also inkl. der für die Datenhandhabung entwickelten Werkzeuge wie Software, Bibliographien, etc.).
  • Der Forschungsdatenlebenszyklus ist ein für Forschende intuitives Modell, das es ermöglicht, mit ihnen über das Forschungsdatenmanagement (und damit Dinge, die sie direkt betreffen) ins konstruktive Gespräch zu kommen.
  • Der Forschungsdatenlebenszyklus hilft dabei, alle wesentlichen Aspekte in den Blick zu nehmen bzw. im Blick zu behalten. Damit ist er vergleichbar z.B. entsprechenden Entwicklungszyklen für Software oder allgemein Projekte. Letztlich ist er damit ein Planungsinstrument.

Ein paar wesentliche Aspekte zum Forschungsdatenlebenszyklus

  • Der Forschungsdatenlebenszyklus ist lediglich ein Modell, und es gibt vermutlich fast so viele Varianten wie Menschen, die sich damit auseinandergesetzt haben.
  • Der Forschungsdatenlebenszyklus ist ein Zyklus, aber das bedeutet nicht zwangsläufig, dass alle Stufen nacheinander abgearbeitet werden. Dazu kommt, dass je nach Forschungsansatz unterschiedliche Aspekte unterschiedlich gewichtet werden.

Nachfolgend sei aber zunächst stichwortartig auf die einzelnen sechs Stationen des Forschungsdatenlebenszyklus' eingegangen. Zu jeder dieser Stationen wird darüber hinaus kurz angemerkt, welcher Teil des vom Autor entwickelten Laborinformationssystems LabInform jeweils eine Rolle spielt. Hierbei sei angemerkt, dass LabInform auf individuelle Forschende und kleine Gruppen fokussiert und gerade nicht auf Abhängigkeiten von Institutionen.

Planen

wissenschaftliche Aspekte:

  • Forschungsfrage präzisieren
  • Vorgehen planen
  • Überblick über mögliche Werkzeuge zur Datenerhebung (Experiment, Umfrage, Literaturrecherche, …)
  • ggf. Verteilen der Aufgaben auf Verantwortliche
  • ggf. Aufteilung in Unterprojekte und Arbeitspakete
    • klare und einheitliche Benennung hilft bei der Übersicht über die Daten
    • ein Datensatz kann am Ende durchaus mit mehreren Unterprojekten verknüpft sein

organisatorische Aspekte:

  • rechtliche Aspekte abklären
    • Urheberrechte (intellectual property rights, IPR)
    • Datenschutzaspekte
      • Klassifizierung, welche Arten von Daten anfallen
  • Beachtung existierender (institutioneller) Leitlinien zum Umfang mit Forschungsdaten
  • initialer Datenmanagementplan
    • Verantwortlichkeiten festlegen/klären
    • modulare, flexible, erweiterbare Struktur zur Datenablage klären (Dateinamenskonventionen, Verzeichnisstrukturen, …)
    • Metadatenerhebung während der Datenaufnahme im Vorfeld klären
    • Übernahme von Metadaten von Kooperationen (Bereitstellung von Proben etc.)

Verantwortlich:

  • wissenschaftlicher Projektleiter (principal investigator, PI)

LabInform:

  • Anlegen von Projekten
    • Zielstellung
    • Ablage der Dokumentation etc. von Kooperationspartnern
    • parallel Anlegen entsprechender Verzeichnisstrukturen?
  • Anlegen von Batches/Proben
    • Ablage der Informationen von Kooperationen zu den zur Verfügung gestellten Materialien
  • Zuordnung von Proben zu Projekten
    • eine Probe kann in mehreren Projekten auftauchen

Erheben

  • Datenerhebung
    • Qualitätsmanagement1)
    • Protokolle
    • Datenstrukturen: Metadaten
  • Datenspeicherung
    • Dateisystem, HPC, …
    • an vielen Stellen vermutlich erstmal lokal (aber bitte nicht auf USB-Sticks oder den Messrechnern, sondern auch dann gruppenweit auf einem NAS mit mindestens RAID1, das idealerweise regelmäßig an einen physisch getrennten Ort gespiegelt wird)
  • Datenschutz
    • drei Aspekte: Integrität, Verlust, Sicherheit (security)
    • technisch: Prüfsummen, Backups, Zugriffskontrolle
  • Metadaten während der Datenaufnahme
    • für eine Wiederholung notwendige vollständige Informationen
    • Information über die Erhebenden (Achtung: persönliches Datum!)2)
  • Schemata für Dateinamen
  • erweiterbare und klare Verzeichnisstrukturen
  • Wiki als eLN?
  • eindeutige Bezeichner (PIDs) für Proben etc.
    • ⇒ LabInform-Wiki-Komponente?

Verantwortlich:

  • individuelle Forschende im Labor
  • wissenschaftlicher Projektleiter (principal investigator, PI) für Etablierung von Abläufen, Strukturen und Konventionen

LabInform:

  • Wiki als eLN
  • eindeutige Bezeichner (PIDs) für Proben etc. (M-Komponente des LIMS)
  • Datensafe als Ablageort (internes Repositorium) für die Rohdaten
  • ggf. Messpläne etc. über Wiki-Komponente (M-Komponente in LIMS)

Auswerten

  • Vorverarbeitung
    • unbrauchbare, ungenaue und unvollständige Informationen markieren
    • ggf. schon auf dieser Stufe Rohdaten (protokolliert) löschen?
    • ggf. Export in offene Formate
  • Auswertung
    • Statistik
    • Datengewinnung
  • Zusammenfassung und Bewertung
    • Daten, die für Veröffentlichungen genutzt werden
  • Während der Datenverarbeitung/Auswertung lückenloses Protokoll aller Verarbeitungsschritte

Verantwortlich:

  • individuelle Forschende im Labor
  • wissenschaftlicher Projektleiter (principal investigator, PI) für die Einhaltung wissenschaftlicher Standards und Ansprüche

LabInform:

  • Zugriff auf die Daten über PIDs (LOIs) aus dem Datensafe
  • ggf. Ablage der Rezepte (ASpecD) sowie der erzeugten Artefakte (meist Bilder) im Datensafe
  • automatisierte Ablage der Berichte in der Wiki-Komponente von LabInform (bei den Projekten?)

Speichern

  • Auswahl der Daten
    • klare Regeln, welche Daten gelöscht werden können (opt-in)
    • Dokumentation, welche Daten warum gelöscht/nicht archiviert wurden
    • „Daten“ bezieht sich nicht mehr nur auf Rohdaten, sondern auch auf abgeleitete Daten (bzw. „Rezepte“ zur Datenverarbeitung und entsprechende Protokolle erfolgter Verarbeitungen) und aggregierte Berichte.
  • Dokumentation
    • Metadaten auf abstrakterem Niveau, für Datensammlungen, aggregiert
    • pro (Unter-)Projekt
    • für individuelle Veröffentlichungen etc.
    • kuratiert, mit klarem Fokus auf Adressaten, die nicht mit der Studie/dem Projekt vertraut sind
  • Datenformate
    • spätestens auf dieser Stufe: Konversion in langzeit-stabile Formate (offene Standards, nicht-proprietär)

Verantwortlich:

  • wissenschaftlicher Projektleiter (principal investigator, PI) für die Auswahl der Daten
  • individuelle Forschende für die Dokumentation der von ihnen erhobenen und verarbeiteten Daten
  • Institution für die Bereitstellung technischer Lösungen zur langfristigen Speicherung der Daten

LabInform:

  • Datensafe
  • LOI als PID

Veröffentlichen

  • Hochladen in Repositorium
    • intern oder extern?
  • Hochladen von Metadaten in externe Repositorien
  • Veröffentlichung der Daten
  • interne vs. externe Repositorien
  • Zugriffskontrolle, Embargo, …
  • Fokus: interne Nachnutzbarkeit wo immer möglich
  • Was soll veröffentlicht werden?
    • Erkenntnisse (Ergebnisse von Auswertungen, in größeren Kontext gestellt) – eigentliche (Fach-)Publikation3)
    • Daten, die den Erkenntnissen zugrunde liegen (inkl. Rohdaten und lückenloser Dokumentation der Verarbeitungsschritte)
    • ggf. verwendete Software/Skripte

Verantwortlich:

  • wissenschaftlicher Projektleiter (principal investigator, PI)
  • ggf. Institution für die Bereitstellung von Repositorien etc.

LabInform:

  • Veröffentlichung in der Wiki-Komponente anlegen
  • gleichzeitig Verzeichnisstruktur lokal anlegen (und ggf. lokales git-Repository)

Wiederverwenden

  • Voraussetzungen: FAIR
    1. auffindbar (findable, F)
      • klare Struktur
      • Repositorium mit Suchfunktion
      • Metadaten inkl. Verschlagwortung
    2. zugänglich (accessible, A)
      • Zugriff auf die Daten
      • Lizenzen erlauben die Nachnutzung
      • kein laufendes Embargo
    3. kompatibel (interoperable, I)
      • Datenformate: standardisiert, nicht-proprietär
      • bekannte Struktur maschinenlesbarer Metadaten, die sich auf die eigenen Bedürfnisse/Anwendungen abbilden lässt
  • Fokus: interne Nachnutzbarkeit wo immer möglich
    • die Forschenden selbst stehen im Fokus (future-me)

Verantwortlich:

  • wissenschaftlicher Projektleiter (principal investigator, PI) zumindest für die interne Nachnutzbarkeit
  • Institution und institutionsübergreifende Körperschaften für die Bereitstellung der relevanten Infrastrukturen
  • Fachgesellschaften etc. für die Entwicklung von Standards und Konventionen

LabInform:

  • Datensafe
  • LOI als PID
  • Übersicht über Proben/Batches
    • auch in den einzelnen Projekten
1)
Qualitätsmanagement ist, wie Forschungsdatenmanagement, tendenziell ein Reizwort für Forschende. Allerdings führt an einem realen Qualitätsmanagement nichts vorbei, wenn man Wissenschaft und Forschung ernst nimmt (was selten genug der Fall ist). Zum Qualitätsmanagement bei der Datenerhebung gehören – in einem experimentellen Labor – auch die korrekte Bedienung der Geräte, die Kalibration etc. dazu. Der Übergang zum nächsten Punkt, „Protokolle“, kann fließend sein, allerdings setzt Qualitätsmanagement ein Verständnis der Zusammenhänge voraus, während ein Protokoll stur abgearbeitet werden kann.
2)
Dient hauptsächlich dazu, im Nachhinein nachvollziehen zu können, wer beigetragen hat.
3)
Daten/Auswertungen ohne verbale Beschreibung und Kontextsetzung sind i.d.R. nutzlos. Aus eigener Erfahrung: Publikationen, die beschreiben, aber darüber hinaus keine Schlussfolgerungen ziehen, gibt es durchaus, aber sie tragen wenig/nichts zum wissenschaftlichen Erkenntnisgewinn bei und sind deshalb letztlich unbrauchbar.
de/forschungsdatenmanagement/fdl/index.txt · Zuletzt geändert: 2024/04/20 21:55 von till