Inhaltsverzeichnis
02: Warum Forschungsdatenmanagement? (II) Zunahme von Datenmenge und Digitalität
- Themen
- Little Science, Big Science
- „Big Data“, „Datenflut“, „e-Science“ und das „vierte Paradigma“
- Die FAIR-Prinzipien zum Umgang mit Forschungsdaten
- Individuelle Forschende mit klein(er)en Datenmengen
- Folien
- Glossar
Zentrale Aspekte
- Automatisierung und Digitalisierung ermöglichen es,
nahezu beliebige Datenmengen (relativ) einfach zu erzeugen. - Die Zunahme von Datenmenge und Digitalität erzwingt,
Strategien zu ihrem Umgang zu entwickeln und zu etablieren. - „Big Data“ und das Arbeiten auf digitalen Daten anderer
ist für die wenigsten wissenschaftlichen Disziplinen relevant. - Die FAIR-Prinzipien zum Umgang mit Forschungsdaten werden
überbewertet, missverstanden und setzen den falschen Fokus. - Die Qualität von Forschungsdaten, obwohl entscheidend,
ist nur schwer durch Kriterien bestimmbar.
Fragen zur Vertiefung und Wiederholung
Diese Fragen dienen der persönlichen Beschäftigung mit der Thematik, werden aber nicht separat in der Vorlesung besprochen.
- Worin unterscheiden sich „Little Science“ und „Big Science“ grundlegend? Welchen Einfluss hatte die Großforschung (big science) auf die Wissenschaft?
- Durch welche Eigenschaften werden „Big Data“ charakterisiert?
- Was sind die vier Paradigmen der Wissenschaft nach Jim Gray? Wodurch werden sie jeweils charakterisiert?
- Was ist der Unterschied zwischen „e-Science“ und „viertem Paradigma“? Warum ist diese Unterscheidung wichtig?
- Welchen Einfluss hat die datengetriebene Wissenschaft („viertes Paradigma“) auf die wissenschaftlichen Fragestellungen und den Erkenntnisgewinn?
- Warum ist Forschungsdatenmanagement in Zeiten zunehmender Digitalität ein so drängendes Problem geworden, auch wenn beide erst einmal nichts miteinander zu tun haben?
- Warum ist das Berufsbild eines „Data Steward“ für die meisten Situationen keine zielführende Strategie, um die Qualität wissenschaftlicher Daten zu erhöhen?
- Aus welchem Verständnis von Wissenschaft kommen die FAIR-Prinzipien, und warum bringt das Probleme mit sich, wenn man sie unreflektiert auf alle Daten und Arten von Wissenschaft anwenden will?
- Welches Grundprinzip der Wissenschaft verletzt die Publikation der FAIR-Prinzipien, und warum ist das ein Problem für diese Prinzipien selbst?
- Welche beiden wichtigen Kriterien für die Auswahl von Daten werden von den FAIR-Prinzipien nicht thematisiert und bei „Big-Data“-Analysen oft ignoriert? Welche Probleme ergeben sich daraus?
- Was ist der Unterschied zwischen Korrelation, Koinzidenz und Kausalität? Wieso ist es in den Wissenschaften essentiell, diese drei Begriffe sauber auseinanderzuhalten?
- Welche Probleme ergeben sich aus der Verwendung von KI/ML als Werkzeug für den wissenschaftlichen Erkenntnisgewinn?
Weiterführende Literatur
Eine kommentierte und handverlesene Liste mit weiterführender Literatur zum Thema. Die Auswahl ist zwangsläufig subjektiv.
Die Unterscheidung von „Big Science“ und „Little Science“ geht auf De Solla Price [Price, 1963Price, de Solla, Derek John (1963): Little science, big science, Columbia University Press, New York] zurück, der Begriff „Big Science“ (Großforschung) wird kurz vor ihm von Alvin Weinberg [Weinberg, 1961Weinberg, Alvin (1961): Impact of large-scale science on the United States, Science 134:161-164] geprägt. Wieder aufgegriffen und in einer im Sinne des Wortes gelehrten Art interdisziplinär betrachtet wird diese Unterscheidung von C. Borgman [Borgman, 2015Borgman, Christine L. (2015): Big Data, Little Data, No Data: Scholarship in the Networked World, MIT Press, Cambridge, MA].
Für das „vierte Paradigma“ vgl. den Sammelband von Hey et al. [Hey, 2009Hey, Tony; Tansley, Stewart; Tolle, Kristin (Hg.) (2009): The Fourth Paradigm, Microsoft Research, Redmont, Washington], hier insbesondere den Beitrag von Jim Gray, aber auch [Bell, 2009Bell, Gordon; Hey, Tony; Szalay, Alex (2009): Beyond the data deluge, Science 323:1297-1298]. Der Begriff „Datenflut“ (original: data deluge) entstammt dem Titel von [Bell, 2009Bell, Gordon; Hey, Tony; Szalay, Alex (2009): Beyond the data deluge, Science 323:1297-1298].
Die FAIR-Prinzipien wurden 2016 von Wilkinson et al. veröffentlicht [Wilkinson, 2016Wilkinson, Mark D.; Dumontier, Michel; Aalbersberg, IJsbrand Jan; Appleton, Gabrielle; Axton, Myles; Baak, Arie; Blomberg, Niklas; Boiten, Jan-Willem; da Silva Santos, Luiz Bonino; Bourne, Philip E.; Bouwman, Jildau; Brookes, Anthony J.; Clark, Tim; Crosas, Mercè; Dillo, Ingrid; Dumon, Olivier; Edmunds, Scott; Evelo, Chris T.; Finkers, Richard; Gonzalez-Beltran, Alejandra; Gray, Alasdair J. G.; Groth, Paul; Goble, Carole; Grethe, Jeffrey S.; Heringa, Jaap; 't Hoen, Peter A. C; Hooft, Rob; Kuhn, Tobias; Kok, Ruben; Kok, Joost; Lusher, Scott J.; Martone, Maryann E.; Mons, Albert; Packer, Abel L.; Persson, Bengt; Rocca-Serra, Philippe; Roos, Marco; van Schaik, Rene; Sansone, Susanna-Assunta; Schultes, Erik; Sengstag, Thierry; Slater, Ted; Strawn, George; Swertz, Morris A.; Thompson, Mark; van der Lei, Johan; van Mulligen, Erik; Velterop, Jan; Waagmeester, Andra; Wittenburg, Peter; Wolstencroft, Katherine; Zhao, Jun; Mons, Barend (2016): The FAIR Guiding Principles for scientific data management and stewardship, Sci. Data 3:160018]. Ihre „Umdeutung“, genauer gesagt Fokussierung auf den Kontext von KI/ML findet sich im Beitrag von Barend Mons [Mons, 2020Mons, Barend (2020): Invest 5%; of research funds in ensuring data are reusable, Nature 578:491].
Wer sich für die Historie relevanter Konzepte wie Verknüpfung von Wissen untereinander interessiert, dem sei der Beitrag von Vannevar Bush – „As we may think“ – empfohlen [Bush, 1945Bush, Vannevar (1945): As we may think, Atlantic Monthly 176:101-108]. Tim Berners-Lee reflektiert in seiner Beschreibung der Geschichte des „World Wide Web“ [Berners-Lee, 1999Berners-Lee, Tim (1999): Weaving the Web : the original design an ultimate destiny of the World Wide Web by its inventor, HarperSanFrancisco, New York] diese Ideen. Die „Mother of all Demos“ von Doug Engelbart, in der neben dem Hyperlink auch die Videokonferenz, kollaboratives Arbeiten an einem Dokument über Netzwerk, ein Betriebssystem mit Fenstern und die Computermaus vorgestellt wurden, findet sich in voller Länge bei Youtube: https://yewtu.be/watch?v=yJDv-zdhzMY.
- Hey, Tony; Tansley, Stewart; Tolle, Kristin (Hg.) (2009): The Fourth Paradigm, Microsoft Research, Redmont, Washington
- Bell, Gordon; Hey, Tony; Szalay, Alex (2009): Beyond the data deluge, Science 323:1297-1298
- Berners-Lee, Tim (1999): Weaving the Web : the original design an ultimate destiny of the World Wide Web by its inventor, HarperSanFrancisco, New York
- Borgman, Christine L. (2015): Big Data, Little Data, No Data: Scholarship in the Networked World, MIT Press, Cambridge, MA
- Bush, Vannevar (1945): As we may think, Atlantic Monthly 176:101-108
- Mons, Barend (2020): Invest 5%; of research funds in ensuring data are reusable, Nature 578:491
- Price, de Solla, Derek John (1963): Little science, big science, Columbia University Press, New York
- Weinberg, Alvin (1961): Impact of large-scale science on the United States, Science 134:161-164
- Wilkinson, Mark D.; Dumontier, Michel; Aalbersberg, IJsbrand Jan; Appleton, Gabrielle; Axton, Myles; Baak, Arie; Blomberg, Niklas; Boiten, Jan-Willem; da Silva Santos, Luiz Bonino; Bourne, Philip E.; Bouwman, Jildau; Brookes, Anthony J.; Clark, Tim; Crosas, Mercè; Dillo, Ingrid; Dumon, Olivier; Edmunds, Scott; Evelo, Chris T.; Finkers, Richard; Gonzalez-Beltran, Alejandra; Gray, Alasdair J. G.; Groth, Paul; Goble, Carole; Grethe, Jeffrey S.; Heringa, Jaap; 't Hoen, Peter A. C; Hooft, Rob; Kuhn, Tobias; Kok, Ruben; Kok, Joost; Lusher, Scott J.; Martone, Maryann E.; Mons, Albert; Packer, Abel L.; Persson, Bengt; Rocca-Serra, Philippe; Roos, Marco; van Schaik, Rene; Sansone, Susanna-Assunta; Schultes, Erik; Sengstag, Thierry; Slater, Ted; Strawn, George; Swertz, Morris A.; Thompson, Mark; van der Lei, Johan; van Mulligen, Erik; Velterop, Jan; Waagmeester, Andra; Wittenburg, Peter; Wolstencroft, Katherine; Zhao, Jun; Mons, Barend (2016): The FAIR Guiding Principles for scientific data management and stewardship, Sci. Data 3:160018