32. Datenpräsentation: Darstellungs- und Berichterstellung

Themen: Zur Bedeutung der Repräsentation von Daten; Repräsentationen sollten aus den Primärdaten automatisch generierbar sein; Berichte: Übersicht über die Informationen zu einem Datensatz; Vorlagen: Trennung von Inhalten und Darstellung
Folien: PDF
Glossar: PDF

Zentrale Aspekte

Ein Bild sagt mehr als tausend Worte:
Der Wert guter Repräsentationen sollte nicht unterschätzt werden.
Charakteristika eines Datensatzes herauszuarbeiten,
ist die eigentliche intellektuelle Leistung der Auswertung.
Erkenntnisgewinn lässt sich nicht automatisieren,
viele Einzelschritte auf dem Weg dahin schon.
Berichte präsentieren übersichtlich Informationen zu einem Datensatz
und lassen sich automatisch erzeugen.
Zentraler Aspekt der Berichterstellung ist die
Trennung von verarbeitenden Routinen und Darstellung.

Fragen zur Vertiefung und Wiederholung

Diese Fragen dienen der persönlichen Beschäftigung mit der Thematik, werden aber nicht separat in der Vorlesung besprochen.

Was sind die Mindestansprüche an eine Routine zur Verarbeitung von Vorlagen?
Warum ist es essentiell, Vorlagen und Inhalteerzeugung bzw. Berichterstellung zu trennen?
Welche Aspekte der SOLID-Prinzipien und der „sauberen Architektur“ lassen sich sofort auf ein Vorlagensystem zur Berichterstellung anwenden?
Welche drei Komponenten lassen sich allgemein für die formalisierte Ablage der Metadaten zur Erzeugung von Repräsentationen über mehrere Datensätze unterscheiden?
Warum sind Anmerkungen (Annotationen) so wertvoll, und warum sollte man sie möglichst formalisiert ablegen?

Weiterführende Literatur

Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.

Komplette Systeme zur Datenverarbeitung und -Analyse wurden mehrfach in der Literatur für unterschiedliche Disziplinen vorgestellt. Mesirov [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416] spricht in diesem Kontext von einem „System zur reproduzierbaren Wissenschaft“ (Reproducible Research System, RRS). Wie ein solches System umgesetzt wird, dazu gibt es in unterschiedlichen Disziplinen unterschiedliche Ansätze. Beispiele wären das „Pegasus Framework“ [Deelman, 2005Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237], Galaxy [Goecks, 2010Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86] und GenePatterns [Mesirov, 2010Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416, Reich, 2006Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501]. Vermutlich historisch der erste funktionierende und publizierte Ansatz (ReDoc), basierend auf freier Software und dem GNU-make-Werkzeug, stammt aus dem „Stanford Exploration Project“ um Jon Claerbout [Schwab, 2000Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67]. Eine gute Überblicksdarstellung sowohl grundlegender Aspekte als auch konkreter Systeme liefert [Stodden, 2014Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton].

Darstellung wissenschaftlicher Daten ist ein wichtiges Thema, das immer wieder diskutiert wird. Ein sehr kurzer Artikel aus der Praxis mit vielen Beispielen ist [Rougier, 2014Rougier, Nicolas P.; Droettboom, Michael; Bourne, Philip E. (2014): Ten simple rules for better figures, PLoS Comput. Biol. 10:e1003833]. Ein „Klassiker“, was sowohl Beispiele als auch das theoretische Fundament hinter der (korrekten) grafischen Darstellung von Daten angeht, ist das Buch von Tufte [Tufte, 2001Tufte, Edward R. (2001): The Visual Display of Quantiative Information, Graphics Press, Cheshire, Connecticut].

Darstellungen wissenschaftlicher Daten umfassen nicht nur Abbildungen und Tabellen, sondern auch Berichte in Textform. Sowohl für den mathematischen Formelsatz als auch für den generellen naturwissenschaftlichen Textsatz gibt es Regeln und Konventionen, die u.a. von der IUPAC festgelegt wurden. Das „IUPAC Green Book“ [Mills, 1993Mills, Ian; Cvitaš, Tomislav; Homan, Klaus; Kalay, Nikola; Kuchitsu, Kozo (Hg.) (1993): Quantities, Units and Symbols in Physical Chemistry, Blackwell Science, Oxford] ist zumindest für die Physikalische Chemie dabei die Referenz, auch wenn sich viele Verlage und Journale nicht daran halten wollen. Eine allgemeine Einführung in die Typografie ist [Willberg, 2010Willberg, Hans Peter; Forssman, Friedrich (2010): Lesetypografie, Verlag Hermann Schmidt, Mainz]. Sehr in die Details geht [Forssman, 2014Forssman, Friedrich; de Jong, Ralf (2014): Detailtypografie, Verlag Hermann Schmidt, Mainz], inklusive eines ausführlichen Kapitels zum mathematischen Formelsatz. Wer sich dem Thema gerne in kleineren Schritten nähert, dem sei [Willberg, 2007Willberg, Hans Peter; Forssman, Friedrich (2007): Erste Hilfe in Typografie, Verlag Hermann Schmidt, Mainz] empfohlen.

Für eine kurze Einführung in den Textsatz von Tabellen empfiehlt sich die Dokumentation (PDF) zum LaTeX-Paket booktabs, auch wenn man nicht LaTeX verwenden möchte.

Mills, Ian; Cvitaš, Tomislav; Homan, Klaus; Kalay, Nikola; Kuchitsu, Kozo (Hg.) (1993): Quantities, Units and Symbols in Physical Chemistry, Blackwell Science, Oxford
Stodden, Victoria; Leisch, Friedrich; Peng, Rodger D. (Hg.) (2014): Implementing Reproducible Research, CRC Press, Boca Raton
Deelman, Ewa; Singh, Gurmeet; Su, Mei-Hui; Blythe, James; Gil, Yolanda; Kesselman, Carl; Mehta, Gaurang; Vahi, Karan; Berriman, G. Bruce; Good, John; Laity, Anastasia; Jacob, Joseph C.; Katz, Daniel S. (2005): Pegasus: A framework for mapping complex scientific workflows onto distributed systems, Sci. Program. 13:219-237
Forssman, Friedrich; de Jong, Ralf (2014): Detailtypografie, Verlag Hermann Schmidt, Mainz
Goecks, Jeremy; Nekrutenko, Anton; Taylor, James; Team, The Galaxy (2010): Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biology 11:R86
Mesirov, Jill P. (2010): Accessible reproducible research, Science 327:415-416
Reich, Michael; Liefeld, Ted; Gould, Joshua; Lerner, Jim; Tamayo, Pablo; Mesirov, Jill P (2006): GenePattern 2.0, Nat. Gen. 38:500-501
Rougier, Nicolas P.; Droettboom, Michael; Bourne, Philip E. (2014): Ten simple rules for better figures, PLoS Comput. Biol. 10:e1003833
Schwab, Matthias; Karrenbach, Martin; Claerbout, Jon (2000): Making scientific computations reproducible, Comput. Sci. Eng. 2:61-67
Tufte, Edward R. (2001): The Visual Display of Quantiative Information, Graphics Press, Cheshire, Connecticut
Willberg, Hans Peter; Forssman, Friedrich (2007): Erste Hilfe in Typografie, Verlag Hermann Schmidt, Mainz
Willberg, Hans Peter; Forssman, Friedrich (2010): Lesetypografie, Verlag Hermann Schmidt, Mainz