28. Datenverarbeitung und -Analyse in der PC

Themen: Datenverarbeitung, die wissenschaftlichen Kriterien genügt; Gründe für ein System zur Datenverarbeitung; Aspekte eines Systems zur Datenverarbeitung; Ansprüche an ein System zur Datenverarbeitung
Folien: PDF

Zentrale Aspekte

Daten sind die Grundlage der empirischen Wissenschaften.
Sie sollten Jahrzehnte überdauern.
Datenverarbeitung sollte der Wissenschaftlichkeit,
insbesondere der Nachvollziehbarkeit, genügen.
Datenverarbeitung sollte systematisch erfolgen und
jeder einzelne Schritt dokumentiert werden.
Ein System zur Datenverarbeitung muss einfach nutzbar sein
und klare Vorteile bieten, um genutzt zu werden.
Ein System zur Datenverarbeitung ist viel umfassender
als einzelne Programme zur Datenanalyse.

Weiterführende Literatur

Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.

Die Unterscheidung von unvermeidlicher (essential complexity) und vermeidbarer Komplexität (accidental complexity) wurde von Fred Brooks [Brooks, 1995Brooks, Frederick P. (1995): The Mythical Man Month, Addison Wesley Longman, Boston] auf Software angewandt. Sie geht ideengeschichtlich letztlich auf die Unterscheidung zwischen Substanz (Essenz) und Akzidens von Aristoteles zurück. Vgl. dazu z.B. [Prechtl, 2008Prechtl, Peter; Burkard, Franz-Peter (Hg.) (2008): Metzler Lexikon Philosophie, J. B. Metzler, Stuttgart, Weimar].

Die Wichtigkeit der Reproduzierbarkeit von Auswertungen ist ein Thema, das immer mal wieder durch die wissenschaftliche Öffentlichkeit geistert, oftmals im Zusammenhang mit aufgedecktem Betrug durch Datenfälschung [Crocker, 2011Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182, Jasny, 2011Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225, Peng, 2011Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227].

Ein lesenswerter Artikel, der sich mit der Reproduzierbarkeit rechnergestützter Datenauswertung befasst und zehn einfache Regeln aufstellt, ist [Sandve, 2013Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Comput. Biol. 9:e1003285].

Komplette Systeme zur Datenverarbeitung und -Analyse wurden mehrfach in der Literatur für unterschiedliche Disziplinen vorgestellt. Mesirov spricht in diesem Kontext von einem „System zur reproduzierbaren Wissenschaft“ (Reproducible Research System, RRS) [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416]. Wie ein solches System umgesetzt wird, dazu gibt es in unterschiedlichen Disziplinen unterschiedliche Ansätze. Beispiele wären das „Pegasus Framework“ [Deelman, 2005Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237], Galaxy [Goecks, 2010Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86] und GenePatterns [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416, Reich, 2006Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501]. Vermutlich historisch der erste funktionierende und publizierte Ansatz (ReDoc), basierend auf freier Software und dem GNU-make-Werkzeug, stammt aus dem „Stanford Exploration Project“ um Jon Claerbout [Schwab, 2000Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67].

Darstellung wissenschaftlicher Daten ist ein wichtiges Thema, das immer wieder diskutiert wird. Ein sehr kurzer Artikel aus der Praxis mit vielen Beispielen ist [Rougier, 2014Rougier, Nicolas P.; Droettboom, Michael; Bourne, Philip E. (2014): Ten simple rules for better figures, PLoS Comput. Biol. 10:e1003833].

Prechtl, Peter; Burkard, Franz-Peter (Hg.) (2008): Metzler Lexikon Philosophie, J. B. Metzler, Stuttgart, Weimar
Brooks, Frederick P. (1995): The Mythical Man Month, Addison Wesley Longman, Boston
Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182
Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237
Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86
Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225
Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416
Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227
Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501
Rougier, Nicolas P.; Droettboom, Michael; Bourne, Philip E. (2014): Ten simple rules for better figures, PLoS Comput. Biol. 10:e1003833
Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Comput. Biol. 9:e1003285
Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67