32. Datenpräsentation: Abbildungs- und Berichterstellung
- Themen
- Zur Bedeutung der Repräsentation von Daten
- Repräsentationen sollten aus den Primärdaten automatisch generierbar sein
- Berichte: Übersicht über die Informationen zu einem Datensatz
- Vorlagen: Trennung von Inhalten und Darstellung
- Folien
Zentrale Aspekte
- Ein Bild sagt mehr als tausend Worte:
Der Wert guter Repräsentationen sollte nicht unterschätzt werden. - Charakteristika eines Datensatzes herauszuarbeiten,
ist die eigentliche intellektuelle Leistung der Auswertung. - Erkenntnisgewinn lässt sich nicht automatisieren,
viele Einzelschritte auf dem Weg dahin schon. - Berichte präsentieren übersichtlich Informationen zu einem Datensatz
und lassen sich automatisch erzeugen. - Zentraler Aspekt der Berichterstellung ist die
Trennung von verarbeitenden Routinen und Darstellung.
Weiterführende Literatur
Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.
Komplette Systeme zur Datenverarbeitung und -Analyse wurden mehrfach in der Literatur für unterschiedliche Disziplinen vorgestellt. Mesirov [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416] spricht in diesem Kontext von einem „System zur reproduzierbaren Wissenschaft“ (Reproducible Research System, RRS). Wie ein solches System umgesetzt wird, dazu gibt es in unterschiedlichen Disziplinen unterschiedliche Ansätze. Beispiele wären das „Pegasus Framework“ [Deelman, 2005Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237], Galaxy [Goecks, 2010Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86] und GenePatterns [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416, Reich, 2006Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501]. Vermutlich historisch der erste funktionierende und publizierte Ansatz (ReDoc), basierend auf freier Software und dem GNU-make-Werkzeug, stammt aus dem „Stanford Exploration Project“ um Jon Claerbout [Schwab, 2000Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67].
- Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237
- Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86
- Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416
- Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501
- Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67