Benutzer-Werkzeuge

Webseiten-Werkzeuge


de:lehre:programmierkonzepte:ws2018:28:index

28. Datenverarbeitung und -Analyse in der PC

Themen
Datenverarbeitung, die wissenschaftlichen Kriterien genügt
Gründe für ein System zur Datenverarbeitung
Aspekte eines Systems zur Datenverarbeitung
Nutzeransprüche an ein System zur Datenverarbeitung
Folien
PDF
Glossar
PDF


Zentrale Aspekte

  • Daten sind die Grundlage der empirischen Wissenschaften.
    Sie sollten Jahrzehnte überdauern.
  • Datenverarbeitung sollte wissenschaftlichen Ansprüchen genügen,
    insbesondere nachvollziehbar sein.
  • Datenverarbeitung sollte systematisch erfolgen und
    jeder einzelne Schritt dokumentiert werden.
  • Ein System zur Datenverarbeitung muss einfach nutzbar sein
    und klare Vorteile bieten, um genutzt zu werden.
  • Ein System zur Datenverarbeitung ist viel umfassender
    als einzelne Programme zur Datenanalyse.

Fragen zur Vertiefung und Wiederholung

Diese Fragen dienen der persönlichen Beschäftigung mit der Thematik, werden aber nicht separat in der Vorlesung besprochen.

  • Was sind wesentliche Kriterien für Wissenschaftlichkeit, auf die sich vermutlich jeder einigen wird?
  • Welche Ansprüche an die wissenschaftliche Datenanalyse lassen sich aus Sicht der Wissenschaften und aus Sicht der Programmierung stellen?
  • Welche Aspekte sollte ein Gesamtsystem zur wissenschaftlichen Datenverarbeitung und -Analyse idealerweise abdecken?
  • Welche Anforderungen lassen sich aus Nutzersicht an ein Gesamtsystem zur wissenschaftlichen Datenverarbeitung und -Analyse formulieren?
  • Wie lässt sich der unter dem Schlagwort „Domain Driven Design“ zusammengefasste Ansatz der Software-Entwicklung komplexer Systeme auf die Entwicklung eines Gesamtsystems zur wissenschaftlichen Datenverarbeitung und -Analyse anwenden? Was steht im Zentrum dieses Systems?

Weiterführende Literatur

Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.

Wer sich eingehender mit Wissenschaftstheorie und der Frage nach dem Wesen der Wissenschaft befassen möchte, der sei auf die „klassische“ Literatur, insbesondere Poppers „Logik der Forschung“ [Popper, 2005Popper, Karl (2005): Logik der Forschung, Mohr Siebeck, Tübingen] und Kuhns „Struktur wissenschaftlicher Revolutionen“ [Kuhn, 1976Kuhn, Thomas S. (1976): Die Struktur wissenschaftlicher Revolutionen, Suhrkamp, Frankfurt am Main] verwiesen. Gute einführende Werke sind „What is This Thing Called Science?“ von A. F. Chalmers [Chalmers, 1999Chalmers, Alan F. (1999): What is this thing called Science?, Open University Press, Berkshire, UK] und „Wissenschaftstheorie. Eine philosophische Einführung“ von Hans Poser [Poser, 2001Poser, Hans (2001): Wissenschaftstheorie, Reclam, Stuttgart]. Lesenswert ist auch Hackings „Einführung in die Philosophie der Naturwissenschaften“ [Hacking, 1995Hacking, Ian (1995): Einführung in die Philosophie der Naturwissenschaften, Reclam, Stuttgart]. Der Blick auf die Wissenschaft als ein „System“ geht auf Immanuel Kant [Kant, 1997Kant, Immanuel (1997): Metaphysische Anfangsgründe der Naturwissenschaft, Felix Meiner Verlag, Hamburg] zurück.

Die Unterscheidung von unvermeidlicher (essential complexity) und vermeidbarer Komplexität (accidental complexity) wurde von Fred Brooks [Brooks, 1995Brooks, Frederick P. (1995): The Mythical Man Month, Addison Wesley Longman, Boston] auf Software angewandt. Sie geht ideengeschichtlich letztlich auf die Unterscheidung zwischen Substanz (Essenz) und Akzidens von Aristoteles zurück. Vgl. dazu z.B. [Prechtl, 2008Prechtl, Peter; Burkard, Franz-Peter (Hg.) (2008): Metzler Lexikon Philosophie, J. B. Metzler, Stuttgart, Weimar].

Die Wichtigkeit der Reproduzierbarkeit von Auswertungen ist ein Thema, das immer mal wieder durch die wissenschaftliche Öffentlichkeit geistert, oftmals im Zusammenhang mit aufgedecktem Betrug durch Datenfälschung [Crocker, 2011Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182, Jasny, 2011Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225, Peng, 2011Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227].

Ein lesenswerter Artikel, der sich mit der Reproduzierbarkeit rechnergestützter Datenauswertung befasst und zehn einfache Regeln aufstellt, ist [Sandve, 2013Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Computational Biology 9:e1003285].

Komplette Systeme zur Datenverarbeitung und -Analyse wurden mehrfach in der Literatur für unterschiedliche Disziplinen vorgestellt. Mesirov spricht in diesem Kontext von einem „System zur reproduzierbaren Wissenschaft“ (Reproducible Research System, RRS) [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416]. Wie ein solches System umgesetzt wird, dazu gibt es in unterschiedlichen Disziplinen unterschiedliche Ansätze. Beispiele wären das „Pegasus Framework“ [Deelman, 2005Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Scientific Programming 13:219-237], Galaxy [Goecks, 2010Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86] und GenePatterns [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416, Reich, 2006Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nature Genetics 38:500-501]. Vermutlich historisch der erste funktionierende und publizierte Ansatz (ReDoc), basierend auf freier Software und dem GNU-make-Werkzeug, stammt aus dem „Stanford Exploration Project“ um Jon Claerbout [Schwab, 2000Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Computing in Science & Engineering 2:61-67].

Ein Buch, das nicht nur unterschiedliche (auf der Programmiersprache R basierende) Ansätze für reproduzierbare rechnergestützte Wissenschaft vorstellt, sondern darüber hinaus generelle Aspekte thematisiert, ist [Stodden, 2014Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton].

Darstellung wissenschaftlicher Daten ist ein wichtiges Thema, das immer wieder diskutiert wird. Ein sehr kurzer Artikel aus der Praxis mit vielen Beispielen ist [Rougier, 2014Rougier, Nicolas P.; Droettboom, Michael; Bourne, Philip E. (2014): Ten simple rules for better figures, PLoS Computational Biology 10:e1003833].

  • Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton
  • Prechtl, Peter; Burkard, Franz-Peter (Hg.) (2008): Metzler Lexikon Philosophie, J. B. Metzler, Stuttgart, Weimar
  • Brooks, Frederick P. (1995): The Mythical Man Month, Addison Wesley Longman, Boston
  • Chalmers, Alan F. (1999): What is this thing called Science?, Open University Press, Berkshire, UK
  • Crocker, Jennifer; Cooper, M. Lynne (2011): Addressing scientific fraud, Science 334:1182
  • Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Scientific Programming 13:219-237
  • Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86
  • Hacking, Ian (1995): Einführung in die Philosophie der Naturwissenschaften, Reclam, Stuttgart
  • Jasny, Barbara R.; Chin, Gilbert; Chong, Lisa; Vignieri, Sacha (2011): Again, and again, and again..., Science 334:1225
  • Kant, Immanuel (1997): Metaphysische Anfangsgründe der Naturwissenschaft, Felix Meiner Verlag, Hamburg
  • Kuhn, Thomas S. (1976): Die Struktur wissenschaftlicher Revolutionen, Suhrkamp, Frankfurt am Main
  • Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416
  • Peng, Roger D. (2011): Reproducible research in computational science, Science 334:1226-1227
  • Popper, Karl (2005): Logik der Forschung, Mohr Siebeck, Tübingen
  • Poser, Hans (2001): Wissenschaftstheorie, Reclam, Stuttgart
  • Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nature Genetics 38:500-501
  • Rougier, Nicolas P.; Droettboom, Michael; Bourne, Philip E. (2014): Ten simple rules for better figures, PLoS Computational Biology 10:e1003833
  • Sandve, Geir Kjetil; Nekrutenko, Anton; Taylor, James; Hovig, Eivind (2013): Ten simple rules for reproducible computational research, PLoS Computational Biology 9:e1003285
  • Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Computing in Science & Engineering 2:61-67
de/lehre/programmierkonzepte/ws2018/28/index.txt · Zuletzt geändert: 2020/09/30 21:35 von 127.0.0.1