Daten, Daten, Daten – überall sind Daten!

Wir hatten ja unter dem Stichwort Data Driven History ja bereits mehrfach auf die wachsende Bedeutung von Daten auch für die Historische Forschung hingewiesen und unter anderem auch die Möglichkeiten und Grenzen des Google-Projektes Ngram diskutiert.

Nun steht bei JSTOR unter dem Titel Data for Research (DFR) ein neues, speziell auf geisteswissenschaftliche Analysen zugeschnittenes Tool zur Verfügung. Das Prinzip von DFR ist das gleiche wie von Google Ngram, indem grosse Textcorpora nach verschiedenen Häufigkeiten und Wortmustern durchsucht und graphisch dargestellt werden können. Anders als Ngram verwendet aber JSTOR einen klar umrissenen Textcorpus, nämlich die eigenen rund sechs Millionen Volltexte von wissenschaftlichen Aufsätzen, die in den eigenen Kollektionen enthalten sind. Anders als bei Google sind diese Texte sehr präzise metadatiert und erlauben deshalb wesentlich präzisere Abfragen.

DFR ist ein sehr gutes Beispiel für den neuen unter dem Label Open Science Data disktuierten Trend, immer mehr Forschungsdaten in einem maschinell weiterverwertbaren Zustand zur Verfügung zu stellen. Hierzu passt auch die Ankündigung des für die Geisteswissenschaften zentralen digitalen Repositoriums HathiTrust Digital Library, demnächst den eigenen Datenbestand ebenfalls für Textmining zur Verfügung zu stellen.

Die Graphik oben zeigt übrigens das Aufkommen des Wortes «Foucault» in den Beständen von JSTOR seit 1960. Allerdings darf der Abfall der Kurve nach 2000 nicht fehlinterpretiert werden: Vermutlich hat dieser Einbruch weniger mit der Beliebthet von Foucault in den letzten Jahren zu tun, sondern ist das Ergebnis der sogenannten Moving Wall, die JSTOr für die meisten Zeitschriften verwendet. Auch präzise Metadaten, wie hier bei JSTOR, schützen also nicht vor ungenauen Aussagen, wenn man nicht auch den Kontext und den Entstehungszusammenhang der Datenbasis berücksichtigt.

(Danke Claudia Prinz für den Hinweis!)

Schreibe einen Kommentar