Geschichte und Wikipedia (II): Zahlenspiele

wikistics

Dies zu Beginn des zweiten Eintrag dieser kleinen Blog-Reihe gleich vorweg: Ich werde hier nicht die Meinung vertreten, dass die zählbare Indikatoren die einzigen oder wichtigsten Indizien sind, um sich ein Bild über die Bedeutung von Wikipedia zu machen. Für aufschlussreich halte ich sie allemal. Und sei es nur, um sich zu vergegenwärtigen, welche Aussagen mit Auszählungen gemacht werden können, und welche nicht.

Die deutsche Wikipedia umfasst 944’000 Einträge (Stand August 2009). Das ist eine Menge. Doch wie viele davon behandeln Themen, die (im engeren oder weiteren Sinne) mit Geschichte zu tun haben? Eine Volltext-Suche in Wikipedia mit dem Begriff „Geschichte“ ergibt 231’312 Treffer – also fast ein Viertel. Klar, dass es in diesen Artikeln nicht unbedingt um Geschichte gehen muss, wenn der Begriff „Geschichte“ drin vorkommt. Die Suche nach „Kategorie:Geschichte“ (eine Bezeichnung, die jeweils von den Nutzer/innen zu einem Artikel vergeben wird, der ihrer Ansicht nach in diese Kategorie gehört) ergibt 1943 Treffer. Dabei sind jeder Kategorie von den User/innen weitere Unterkategorien und unterschiedlich viele Lemmata zugeordnet worden. Die Kategorien sind in ihrer inhaltlichen Breite sehr divers (Kategorie Geschichte Neuseelands; Kategorie Geschichte Wiesbadens), die Anzahl an Lemmata schwankt pro Kategorie zwischen 20 und 100. Nehmen wir eine durchschnittlich Zahl von 60 Lemmata an, gelangen wir zu einer Schätzung von rund 116’000 Lemmata, die von den User/innen in die Kategorie Geschichte eingereiht wurden. Als Vergleich seien hier Anzahl Lemmata/Artikel aus anderen Werken angeführt – jedoch nur für den Vergleich der Grössenordnung, denn, wie gesagt, hier geht es nicht um eine Gleichsetzung in Bezug auf Ausführlichkeit, Auswahl oder Qualität, hier unterscheiden sich die folgenden Werke untereinander und von Wikipedia):

Dieser Zahlenspielerei haftet der Mangel an, dass wir nicht wissen, wann ein Lemmata als zur Geschichte gehörig eingestuft wird – und wann nicht. Unklar bleibt auch, wie sich die Einträge inhaltich oder typologisch gliedern. Anhand der eigenen Erfahrung und der berichteten Erfahrung von Kolleginnen udn Kollegen können wir davon ausgehen, dass die Geschichte der westlichen Hemisphäre vorherrschend ist, das Kriegsgeräte und -ereignisse, technikgeschichtliche Themen und Lokalgeschichte und Biographien sehr gut vertreten sind. Genaues wissen wir nicht; weder über die Verteilung, und schon gar nicht über die Qualität. Die Redaktionsgruppe Geschichte hat selber vermutlich keinen Überblick – sie teilt jedwelche Erkenntnisse dieser Art jedenfalls nicht mit.

Zufälliger Artikel
Es gibt jedoch eine einfach Möglichkeit, wie man sich einigermassen verlässlich einen Eindruck von der Verteilung nach Sachgebieten und Typen machen kann. Wikipedia bietet die Funktion „Zufälliger Artikel„, bei der ein vom Rechner zufällig ausgewählter Artikel aufgerufen wird. Dies ermöglicht im Prinzip ((vorausgesetzt, wir vertrauen darauf, dass diese Auswahl wirklich zufällig getroffen und nicht durch andere Parameter irgendwie beeinflusst wird: Aktualität oder Beliebtheit von Artikeln u.ä. )) die Ziehung einer statistisch repräsentativen Stichprobe, die ausgewertet (genauer: ausgezählt) und auf die Gesamtheit hochgerechnet werden kann.

Ich habe das im Frühling 2007 anlässlich einer Lehrveranstaltung an der Pädagogischen Hochschule FHNW zu Wikipedia mit drei Ziehungen zu je 100 Lemmata ausprobiert, was vermutlich als verlässliche Stichprobe zu klein ist, aber doch erste Hinweise zu geben vermag und als „Proof of Concept“ ausreichen dürfte.
Ich habe also einhundertmal auf „Zufälliger Artikel“ geklickt und die aufgerufenen Artikel kategorisiert anhand eines einfachen Rasters, das ich aus den unterschiedliche Typen der behandelten Gegenstände entwickelte, wobei es mir nicht auf theoretische Genauigkeit und Schlüssigkeit, sondern mehr auf empirisch-pragmatische Handhabbarkeit ankam.
Für die Entscheidung, ob ich einen Eintrag als „historisch relevant“ bezeichnete, nahm ich formale Kriterien: der Artikel musste über die Hälfte seines Umfangs Sachverhalte behandeln, die vor 1990 anzusiedeln waren. Bei biographischen Einträgen musste die Person vor 1990 gestorben sein, damit der Artikel als „historisch“ galt.

Auswertung
Die einzelnen Auswertungen der drei Durchgänge (und Erläuterungen zu den Kategorien) sind hier zu finden, die Links zu den einzelnen Lemmata der jeweiligen Ziehungen (wer meine Kriterien und/oder meine Genauigkeit bei der Auswertung bezweifelt) sind auf delicious abgelegt (Ziehung 1, 2 und 3).

Verteilung „historische“ Artikel
1 2 3 Total % GS % Alle
Dokument/ Schriftstück/ Vertrag/ Buch

1

1

7

9

11.25

3.00

Begriffe

3

2

1

6

7.5

2.00

Gegenstände

1

0

1

2

2.5

0.67

Personen

9

13

12

34

42.5

11.33

Institutionen

2

0

6

8

10

2.67

Zeitabschnitte

0

2

0

2

2.5

0.67

Ereignisse

0

3

2

5

6.25

1.67

Epochen

2

0

0

2

2.5

0.67

Gebäude

3

2

2

7

8.75

2.33

Ort, Örtlichkeit

1

1

1

3

3.75

1.00

Region, Fluss, Strasse

0

2

0

2

2.5

0.67

Land/Nation

0

0

0

0

0.00

0.00

Kontinent

0

0

0

0

0.00

0.00

Welt

0

0

0

0

0.00

0.00

Begriffsklärung

0

0

0

0

0.00

0.00

Andere

0

0

0

0

0.00

0.00

22

26

32

80

100.00

26.67

In der oben stehenden Tabelle sind die Kategorien zu sehen und für jede Ziehung (1, 2 und 3) die Anzahl von Artikeln, die der jeweiligen Kategorie zugeordnet wurden und als Artikel mit historischem Inhalt gemäss oben aufgeführter Definition beurteilt wurden. In den beiden Spalten am rechten Rand werden Prozentzahlen aufgeführt: In der linken Spalte der prozentuale Anteil der jeweiligen Kategorie an der Gesamtheit der Artikel, die als historisch beurteilt wurden, und in der rechten Spalte der prozentuale Anteil an der Gesamtheit aller Artikel.

Als arithmetisches Mittel an Artikeln, die als Beiträge mit historischem Inhalt beurteilt werden können, erscheint bei dieser Ziehung ein Wert von 26.67 Prozent, bei einer Standardabweichung von 4.08. 27 Prozent von 944’000 sind 254’880 Einträge. Da liegen die 231’000 Treffer bei der internen Suche mit dem Begriff „Geschichte“ also in der gleichen Grössenordnung. Über 40 Prozent der Einträge (N=34) widmen sich Personen oder Familien/Geschlechter: Das ist die weitaus grösste Gruppe an Einträgen, gefolgt von solchen zu Schriftstücken im weitesten Sinne und Institutionen (wozu Vereine, Verbände, Organisationen und andere Körperschaften gezählt wurden). Es gibt also starke Indizien dafür, dass jener Teil von Wikipedia, der dem Gebiet Geschichte zugeschlagen werden kann, in erster Linie ein historisch-biographisches Lexikon darstellt. Dies trifft zumindest auf die Häufigkeit von Einträgen zu. Würde man noch die Anzahl Wörter pro Beitrag erfassen, würde sich das Bild vielleicht noch etwas verschieben.

Einschränkungen
Hier kann man völlig zu Recht einige Einwände anbringen. Eine solche Auswertung müsste doch etwas stärker differenzieren, um etwa die kursierenden Einschätzungen zu bekräftigen oder abzuschwächen, dass die Wikipedia-Artikel vorzugsweise der Zeitgeschichte zuzurechnen sind oder bestimmte Themenbereiche und Fragestellungen (etwa Militärgeschichte) bevorzugen. Betrachten wir einmal die biographischen Einträge, die als historisch bewertet wurden (N=34), ergeben sich folgende Resultate: Rund 30 Prozent dieser Einträge (N=13) betreffen Personen, die im weitesten Sinne der Zeitgeschichte zugeordnet werden können (Teil der Lebenszeit im 20. Jahrhundert), nur rund 12 Prozent (N=5) befassen sich mit der Lebensgeschichte von Frauen. Die Annahmen werden also eher bestätigt, doch für eine abschliessende Beurteilung ist die Stichprobe zu klein.

Berechtigt ist auch der Einwand, dass die Gesamtheit aller Artikel bei einer solchen Auswertung nicht aussagekräftig sei, da darin kaum beachtete oder abwegige Lemmata gleich viel Gewicht erhielten wie solche von bedeutendem Inhalt. Leuchtet ein, nur, wie soll die „Bedeutsamkeit“ eines Artikels festgelegt werden? Eine Möglichkeit wäre die Liste der am meisten abgefragten Lemmata in Wikipedia, wie sie „Wikistics“ anbietet. ((zwar von Wikipedia aus verlinkt, aber doch etwas obskure Seite, da kaum etwas über den Hintergrund der Macher preisgegeben wird – daher hier nur zur Illustration angeführt)) Demnach wären Einträge wie „1. Weltkrieg“, „2. Weltkrieg“ und Adolf Hitler bedeutsam, gefolgt von weiteren Personen (Samuel F.B. Morse, Charles Darwin) und historisch bedeutsamen Objekten und Örtlichkeiten (Berliner Mauer). Eine andere Möglichkeit wäre die Nutzung eines Referenz-Wertes. Es könnte beispielsweise im Historischen Lexikon der Schweiz jene Artikel ausgewählt werden, die mehr als 1’000 Worte umfassen. Schliesslich darf man beim HLS davon ausgehen, dass die Länge eines Artikels der Bedeutung entspricht, die die Fachredaktion ihm beimisst.

Überblick über die Blog-Reihe „Geschichte und Wikipedia“ im ersten Beitrag.

4 Gedanken zu „Geschichte und Wikipedia (II): Zahlenspiele“

  1. Meine Güte, da mutiert unser braves Weblog schleichend zu Kollega Hodels Preprint-Server. Ob wir demnächst eine Textlängenbegrenzung werden einführen müssen? Kündige hiermit einen Crashkurs «Textsorten-Erkennung im Zeitalter von Web 2.0» an.

  2. Nur keine Sorge. Ist nur ein temporäres Aufbäumen gegen die 140-Zeichen-Vorgabe, mit der ich Neo-Twitterer mich noch nicht habe abfinden können. Allerdings werden ja wohl bald bei hist.net nicht nur die Textmengen und -sorten automatisch erkannt und gesperrt, sondern vermutlich (wie bei den städtischen und kantonalen Verwaltungen) auch die Zugänge zu Facebook, Twitter und Co. – Dann gibt es von mir hier nur noch den sprichwörtlichen „Pieps“.

  3. Ist es eigentlich noch von statistischer Relevanz zu schauen, ob und wie viele Belege in einem Wikipedia Artikel sind? Ich hatte das vor 1 1/2 Jahren mal durchgeführt – also vor, für das Internet, prähistorischen Zeiten 😉

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert