29. Datenverarbeitung und -Analyse: selbstdokumentierend

Themen: Zielstellung: Nachvollziehbarkeit und Reproduzierbarkeit; Voraussetzung: vollständiger Parametersatz und Archivierung von Daten und Routinen; Umsetzung in einem Gesamtsystem zur Datenverarbeitung; Offensichtliche Vorteile bei Verwendung des Systems
Folien: PDF
Glossar: PDF

Zentrale Aspekte

Nachvollziehbarkeit ist essentiell für Wissenschaftlichkeit.
Trotzdem ist sie in den seltensten Fällen real gegeben.
Jeder Verarbeitungsschritt sollte vollständig mit Parametern
und Version der Routine dokumentiert werden.
Nur Automatisierung kann eine lückenlose Dokumentation
aller Verarbeitungsschritte gewährleisten.
Nachvollziehbarkeit setzt die Archivierung sowohl der Rohdaten
als auch der Verarbeitungsroutinen voraus.
Eine lückenlose, automatisierte Selbstdokumentation lässt sich
nur in einem modularen Gesamtsystem realisieren.

Fragen zur Vertiefung und Wiederholung

Diese Fragen dienen der persönlichen Beschäftigung mit der Thematik, werden aber nicht separat in der Vorlesung besprochen.

Was ist der Unterschied zwischen Reproduzierbarkeit und Replizierbarkeit? Was lässt sich einfacher sicherstellen bzw. liegt in der Verantwortung \emph{jedes} Wissenschaftlers?
Warum sind ein Versionsnummernschema und ein Versionsverwaltungssystem wesentliche Voraussetzung für die Reproduzierbarkeit von Auswertungen?
Wie lässt sich die unvermeidbare Komplexität eines Systems zur wissenschaftlichen Datenauswertung in der Praxis angehen? Welche Aspekte eines solchen Systems sind für seinen Erfolg essentiell?
Warum spielt das Paradigma der Objektorientierten Programmierung gerade bei einem Gesamtsystem zur Datenverarbeitung und -Analyse seine Stärken aus?
Welche Möglichkeiten zur Verarbeitung und Analyse mehrerer Datensätze lassen sich unterscheiden? Diskutieren Sie Vor- und Nachteile der einzelnen Lösungen. Was setzen alle diese Lösungen zwingend voraus?

Weiterführende Literatur

Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.

Die Wichtigkeit der Reproduzierbarkeit von Auswertungen ist ein Thema, das immer mal wieder durch die wissenschaftliche Öffentlichkeit geistert, oftmals im Zusammenhang mit aufgedecktem Betrug durch Datenfälschung [Crocker, 2011Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182, Jasny, 2011Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225, Peng, 2011Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227].

Ein lesenswerter Artikel, der sich mit der Reproduzierbarkeit rechnergestützter Datenauswertung befasst und zehn einfache Regeln aufstellt, ist [Sandve, 2013Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Comput. Biol. 9:e1003285]. Die behandelten Themen reichen über die dieses Kapitels hinaus. Manches dort behandelte wird erst im folgenden Kapitel behandelt werden.

Komplette Systeme zur Datenverarbeitung und -Analyse wurden mehrfach in der Literatur für unterschiedliche Disziplinen vorgestellt. Mesirov [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416] spricht in diesem Kontext von einem „System zur reproduzierbaren Wissenschaft“ (Reproducible Research System, RRS). Wie ein solches System umgesetzt wird, dazu gibt es in unterschiedlichen Disziplinen unterschiedliche Ansätze. Beispiele wären das „Pegasus Framework“ [Deelman, 2005Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237], Galaxy [Goecks, 2010Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86] und GenePatterns [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416, Reich, 2006Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501]. Vermutlich historisch der erste funktionierende und publizierte Ansatz (ReDoc), basierend auf freier Software und dem GNU-make-Werkzeug, stammt aus dem „Stanford Exploration Project“ um Jon Claerbout [Schwab, 2000Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67]. Eine gute Überblicksdarstellung sowohl grundlegender Aspekte als auch konkreter Systeme liefert [Stodden, 2014Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton].

Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton
Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182
Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237
Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86
Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225
Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416
Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227
Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501
Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Comput. Biol. 9:e1003285
Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67