Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:lehre:programmierkonzepte:ws2023:29:index

29. Datenverarbeitung und -Analyse: selbstdokumentierend

Themen
Zielstellung: Nachvollziehbarkeit und Reproduzierbarkeit
Voraussetzung: vollständiger Parametersatz und Archivierung von Daten und Routinen
Umsetzung in einem Gesamtsystem zur Datenverarbeitung
Offensichtliche Vorteile bei Verwendung des Systems
Folien
PDF
Glossar
PDF


Zentrale Aspekte

  • Nachvollziehbarkeit ist essentiell für Wissenschaftlichkeit.
    Trotzdem ist sie in den seltensten Fällen real gegeben.
  • Jeder Verarbeitungsschritt sollte vollständig mit Parametern
    und Version der Routine dokumentiert werden.
  • Nur Automatisierung kann eine lückenlose Dokumentation
    aller Verarbeitungsschritte gewährleisten.
  • Nachvollziehbarkeit setzt die Archivierung sowohl der Rohdaten
    als auch der Verarbeitungsroutinen voraus.
  • Eine lückenlose, automatisierte Selbstdokumentation lässt sich
    nur in einem modularen Gesamtsystem realisieren.

Fragen zur Vertiefung und Wiederholung

Diese Fragen dienen der persönlichen Beschäftigung mit der Thematik, werden aber nicht separat in der Vorlesung besprochen.

  • Was ist der Unterschied zwischen Reproduzierbarkeit und Replizierbarkeit? Was lässt sich einfacher sicherstellen bzw. liegt in der Verantwortung \emph{jedes} Wissenschaftlers?
  • Warum sind ein Versionsnummernschema und ein Versionsverwaltungssystem wesentliche Voraussetzung für die Reproduzierbarkeit von Auswertungen?
  • Wie lässt sich die unvermeidbare Komplexität eines Systems zur wissenschaftlichen Datenauswertung in der Praxis angehen? Welche Aspekte eines solchen Systems sind für seinen Erfolg essentiell?
  • Warum spielt das Paradigma der Objektorientierten Programmierung gerade bei einem Gesamtsystem zur Datenverarbeitung und -Analyse seine Stärken aus?
  • Welche Möglichkeiten zur Verarbeitung und Analyse mehrerer Datensätze lassen sich unterscheiden? Diskutieren Sie Vor- und Nachteile der einzelnen Lösungen. Was setzen alle diese Lösungen zwingend voraus?

Weiterführende Literatur

Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.

Die Wichtigkeit der Reproduzierbarkeit von Auswertungen ist ein Thema, das immer mal wieder durch die wissenschaftliche Öffentlichkeit geistert, oftmals im Zusammenhang mit aufgedecktem Betrug durch Datenfälschung [Crocker, 2011Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182, Jasny, 2011Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225, Peng, 2011Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227].

Ein lesenswerter Artikel, der sich mit der Reproduzierbarkeit rechnergestützter Datenauswertung befasst und zehn einfache Regeln aufstellt, ist [Sandve, 2013Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Computational Biology 9:e1003285]. Die behandelten Themen reichen über die dieses Kapitels hinaus. Manches dort behandelte wird erst im folgenden Kapitel behandelt werden.

Komplette Systeme zur Datenverarbeitung und -Analyse wurden mehrfach in der Literatur für unterschiedliche Disziplinen vorgestellt. Mesirov [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416] spricht in diesem Kontext von einem „System zur reproduzierbaren Wissenschaft“ (Reproducible Research System, RRS). Wie ein solches System umgesetzt wird, dazu gibt es in unterschiedlichen Disziplinen unterschiedliche Ansätze. Beispiele wären das „Pegasus Framework“ [Deelman, 2005Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Scientific Programming 13:219-237], Galaxy [Goecks, 2010Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86] und GenePatterns [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416, Reich, 2006Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nature Genetics 38:500-501]. Vermutlich historisch der erste funktionierende und publizierte Ansatz (ReDoc), basierend auf freier Software und dem GNU-make-Werkzeug, stammt aus dem „Stanford Exploration Project“ um Jon Claerbout [Schwab, 2000Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Computing in Science & Engineering 2:61-67]. Eine gute Überblicksdarstellung sowohl grundlegender Aspekte als auch konkreter Systeme liefert [Stodden, 2014Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton].

  • Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton
  • Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182
  • Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Scientific Programming 13:219-237
  • Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86
  • Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225
  • Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416
  • Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227
  • Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nature Genetics 38:500-501
  • Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Computational Biology 9:e1003285
  • Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Computing in Science & Engineering 2:61-67
de/lehre/programmierkonzepte/ws2023/29/index.txt · Zuletzt geändert: 2024/01/18 21:08 von till