Inhaltsverzeichnis
31. Datenverarbeitung und -Analyse: selbstdokumentierend
- Themen
- Zielstellung: Nachvollziehbarkeit und Reproduzierbarkeit
- Voraussetzung: vollständiger Parametersatz und Archivierung von Daten und Routinen
- Umsetzung in einem Gesamtsystem zur Datenverarbeitung
- Offensichtliche Vorteile bei Verwendung des Systems
- Folien
- Glossar
Zentrale Aspekte
- Nachvollziehbarkeit ist essentiell für Wissenschaftlichkeit.
Trotzdem ist sie in den seltensten Fällen real gegeben. - Jeder Verarbeitungsschritt sollte vollständig mit Parametern
und Version der Routine dokumentiert werden. - Nur Automatisierung kann eine lückenlose Dokumentation
aller Verarbeitungsschritte gewährleisten. - Nachvollziehbarkeit setzt die Archivierung sowohl der Rohdaten
als auch der Verarbeitungsroutinen voraus. - Eine lückenlose, automatisierte Selbstdokumentation lässt sich
nur in einem modularen Gesamtsystem realisieren.
Fragen zur Vertiefung und Wiederholung
Diese Fragen dienen der persönlichen Beschäftigung mit der Thematik, werden aber nicht separat in der Vorlesung besprochen.
- Was ist der Unterschied zwischen Reproduzierbarkeit und Replizierbarkeit? Was lässt sich einfacher sicherstellen bzw. liegt in der Verantwortung \emph{jedes} Wissenschaftlers?
- Warum sind ein Versionsnummernschema und ein Versionsverwaltungssystem wesentliche Voraussetzung für die Reproduzierbarkeit von Auswertungen?
- Wie lässt sich die unvermeidbare Komplexität eines Systems zur wissenschaftlichen Datenauswertung in der Praxis angehen? Welche Aspekte eines solchen Systems sind für seinen Erfolg essentiell?
Weiterführende Literatur
Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.
Die Wichtigkeit der Reproduzierbarkeit von Auswertungen ist ein Thema, das immer mal wieder durch die wissenschaftliche Öffentlichkeit geistert, oftmals im Zusammenhang mit aufgedecktem Betrug durch Datenfälschung [Crocker, 2011Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182, Jasny, 2011Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225, Peng, 2011Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227].
Ein lesenswerter Artikel, der sich mit der Reproduzierbarkeit rechnergestützter Datenauswertung befasst und zehn einfache Regeln aufstellt, ist [Sandve, 2013Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Comput. Biol. 9:e1003285]. Die behandelten Themen reichen über die dieses Kapitels hinaus. Manches dort behandelte wird erst im folgenden Kapitel behandelt werden.
- Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182
- Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225
- Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227
- Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Comput. Biol. 9:e1003285