Schlagwort-Archive: Quellen

«Die Quellen sprechen» – Projekt des Bayrischen Rundfunks

Die Quellen sprechen - Bayerischer Rundfunk & Institut für Zeitgeschichte
Uns erreicht eine Mitteilung von der Pressestelle des bayerischen Rundfunks bezüglich eines interessanten Projekts, das wir gerne unserer geschätzten Leserschaft empfehlen wollen:

„Der Bayerische Rundfunk hat in Zusammenarbeit mit dem Institut für Zeitgeschichte ein Langzeitprojekt zur Holocaust-Dokumentation gestartet. Schauspieler und Zeitzeugen lesen Hunderte von ausgewählten Dokumenten zur Judenverfolgung durch die Nationalsozialisten. Historiker erläutern die politischen Hintergründe und diskutieren Forschungsfragen. Die Texte werden in Bayern 2 gesendet und stehen dauerhaft im Internet zur Verfügung.“ ((Anmerkung der hist.net-Redaktion: Wir gehen davon aus, dass auch Schauspielerinnen, Zeitzeuginnen, Nationalsozialistinnen und Historikerinnen „mitgemeint“ sind.))

Mehr Informationen (und die Hör-Dokumente) sind auf der Projekt-Website «die-quellen-sprechen.de» zu finden.

Schmalenstroer.net – Geschichtsblog des Monats Dezember 2010


Zum Jahresende (bzw. zum Jahresanfang) sei die Gelegenheit genutzt, im Rahmen der Serie Geschichtsblog des Monats nach einer Reihe von Gruppen-, Medien- und Institutionsblogs wieder auf ein individuelles Geschichtsblog hinzuweisen: Schmalenstroer.net. Der Betreiber Michael Schmalenstroer, Student der Geschichte an der Universität Freiburg und Mitarbeiter am Lehrstuhl von Prof. Asch, ist damit der erste Geschichtsblogger, der zum zweiten Mal in dieser Rubrik Aufnahme findet. Denn er betreut auch das hier bereits früher behandelte, bislang einzigartige Geschichtsblog „Klio surft„.
Weiterlesen

Seconde vie pour un défunt: le Journal de Genève est disponible en ligne

Sur un site dédiés à ses archives le journal Le Temps a mis en ligne l’ensemble des archives du Journal de Genève (1826-1998). 550’000 pages ont été numérisés aux prix d’env. CHF 1.09/la page, une numérisation financée par un partenariat public-privé. La Gazette de Lausanne et Le Nouveau Quotidien, dont Le Temps détient les archives, devraient suivre dans une année.

La recherche dans ces archives est performante et rapide. Une liste des résultats est fournie en montrant des vignettes du titre, un extrait de texte montrant le mot recherché dans son contexte fait défaut. Au bout du lien l’article recherché peut être visualisé de manière isolé ou dans le contexte de sa page. La vue «article» offre de notables avantages: elle montre les occurrence. on peut naviguer d’un occurrence à l’autre. Mais surtout elle est imprimable et lors de l’impression la référence de l’article est ajoutée. Pour sauvegarder seul le format html est proposé.

Malheureusement il n’est pas possible d’afficher le texte reconnu. Non seulement cela aurait facilité la citation de passages, mais cela aurait aussi permit de juger de la qualité de la reconnaissance et donc du recall à espérer.

La Bibliothèque de Genève et la Bibliothèque nationale ont étroitement collaboré à ce projet. Sur son site la BN dévoile encore d’autres projets du même type avec L’Express et L’Impartial.

Reste à espérer que la Neue Zürcher Zeitung, qui a également numérisée ses archives, trouve elle aussi des mécènes pour mettre à disposition du grand public son patrimoine d’importance national, et même international.

Was ist Digital Curation?

Als ich zum ersten Mal von der Digital Curation hörte, hat mich der Ausdruck so befremdet, dass ich mich gleich danach erkundigen musste. Heute frage ich mich, warum mir dieser Begriff nicht schon seit langem geläufig ist, schliesslich beschreibt er die Langzeitarchivierung, das Gebiet, auf dem meine Umgebung forscht.
Weiterlesen

Google kauft hist.net

Wie Google und hist.net heute bekannt geben, hat Google die Mehrheit am Schweizer Portal für Geschichte und Digitale Medien „hist.net“ übernommen. Für Google ist dies ein weiterer Schritt in die Domäne wissenschaftsorientierter Dienstleistungen im Zusammenhang mit Google Scholar. „Wir sind sehr glücklich, dass wir mit hist.net einen starken Partner im Bereich der Geschichtswissenschaften gewinnen konnten“, lässt sich Geschäftsführer Eric Schmidt in einer heute veröffentlichten Medienmitteilung zitieren. „Wir halten Google Scholar für ein grossartiges Produkt, das aber noch durch genuinen Input von Fachexperten verbessert werden kann. Die Erfahrungen der Schweizer Kollegen von hist.net sind dabei immens wertvoll.“ Man habe mit den Geschichtswissenschaften in einem überschaubaren Bereich erste Erfahrungen sammeln wollen, erklärte Schmidt den ungewöhnlichen Entscheid, in einem geisteswissenschaftlichen Fachbereich zu investieren. Über die genaue Art der Kooperation und über mögliche neue Dienste liessen weder Google noch hist.net etwas verlauten und stellten weitere Informationen in naher Zukunft in Aussicht. Weiterlesen

Web 2.0 als kulturwissenschaftliches Archiv, oder: Foucault goes Youtube

Foucault on Youtube

Regula Freuler weist heute in der NZZ am Sonntag (erfreulicherweise online erreichbar, leider ohne Links) darauf hin, dass auf dem Online-Video-Flohmarkt nicht nur selbstgebastelte Möchtegern-Kömodien, Musik-Promotionsmaterial oder geklautes Fernseh- oder Spielfilmmaterial zu finden ist, sondern auch interessante Dokumente für die Wissenschaftsgeschichte (der Philosophie und Kulturwissenschaften). Sie führt als Beispiele Interviews mit Hannah Arendt ((Interview aus der Reihe „Un Certain Regard“ von Roger Errera ausgestrahlt am 7. Juni 1974. Das Interview fand in New York statt)) und Jaques Derrida ((keine Angaben über Zeit und Ort der Aufnahme)) oder ein Gespräch zwischen Michel Foucault und Noah Chomsky ((Live-Gespräch aus dem Jahr 1971 im holländischen Fernsehen, keine näheren Angaben erhältlich)) an.

Dieser Hinweis wirft mehrere Fragen auf Weiterlesen

Individuelle Qualitätssicherung in Wikipedia: Praxisbericht

Desanka Schwara stellte anlässlich ihres Kommentars zum Werkstatt-Gespräch zu Wikipedia in den Wissenschaften eine konkrete Frage zur Qualitätssicherung in Wikipedia:

Darf ich die „Probe aufs Exempel“ machen? Lieber Jan, kannst Du mir sagen, wer die „Nymphe Hybris“ ist? Sie soll laut Wikipedia die Mutter des Gottes Pan sein. Und die „Hybriden“? Die ganzen klugen Bücher (und Menschen), die sich auf diesem Gebiet auskennen, wissen nichts davon (der grosse, der kleine und der neue Pauly nicht, alle Oxford und Cambridge Nachschlagewerke zu alter Geschichte nicht, auch einschlägige Experten nicht). Wie kann ich herausfinden, woher diese Information in Wikipedia stammt, und wie kann ich sie überprüfen? Und evtl. noch mehr darüber lesen? Das wäre echt toll.

Gut, ich habe die Frage als Aufforderung genommen, Nachforschungen zum Sachverhalt anzustellen, obwohl ich kein Althistoriker bin (oder wie sagt man den Menschen, die alte Geschichte betreiben?). Anhand dieses Beitrags möchte ich zeigen: Weiterlesen

Visualisierungen II

Da wir es heute schon einmal ausführlich vom Thema Visualisierung hatten, hier ein interessanter Hinweis aus dem Weblog des unermüdlichen Mark Buzinkay: Ausführlich stellt er ManyEyes vor, ein von IBM entwickeltes Instrument, um grosse Datenmengen zu visualisieren. Das ist nicht ganz die im vorherigen Beitrag von Jan Hodel sehr anschaulich beschriebene Brachialmethode (die m.E. eine Spielerei, aber sonst rein gar nichts ist), sondern einen Tick komplexer und hat auch nicht Quellen im Stil von Wikipedia als Grundlage.

Als Einstiegsliteratur zum Thema eigent sich übrigens folgender Aufsatz: Schwartz, Dieter: Visualisierung in digitalen Bibliotheken. Aufbereitung von Daten und ihre Darstellung in virtuellen Welten, in: B.I.T. online, 6 (2003), 4, S. 343-346. Weitere Literaturangaben finden sich in der Literaturliste meines Seminars «Im Netz des Wissens. Struktur und Chaos im World Wide Web», das im Sommersemester 2006 am Institut für Medienwissenschaft stattfand.

Narrationen im digitalen Zeitalter

Der folgende Beitrag fasst meine Ausführungen während der Tagung „Das Internet als Raum des historischen Lernens“ noch einmal in geraffter Form zusammen. Er befasst sich mit der Rolle, die Narrationen im digitalen Zeitalter spielen können und fokussiert auf die Situation des web 2.0, das heisst von Weblogs und Wikis.
Weiterlesen

HOK Reden: Internet Governance

Wer regiert das Internet? Die Frage ist in einem Blog-Eintrag nicht zu beantworten – wenn sie überhaupt zu beantworten ist. Ein guter Ausgangspunkt ist die Artikel-Sammlung von Telepolis, die sich unter dem Titel „Cyber-Weltgipfel“ seit der WSIS in Genf Ende 2003 mit Fragen der Internet-Regulierung befasst. Im Wesentlichen dreht sich die Auseinandersetzung darum, wer die Informationen verwalten darf, die das Internet überhaupt am Laufen halten: die Domain-Informationen, bzw. die Informationen darüber, wer welche Domains verwaltet. Das war jahrelang eine informelle Sache von US-amerikanischen Hochschul-Angestellten und Verwaltungsinstanzen der US-Regierung, welche die Entwicklung des Internets (zumindest seiner Ursprünge) finanzierte. Neuerdings wacht die ICANN, eine Stiftung nach amerikanischem Recht, über die Namensgebung im Internet.

Der jüngste Artikel „Weiter Uneinigkeit über Kontrolle des Internet“ behandelt die momentan unklare Interessenlage. Neben der US-Regierung, die noch immer massgeblich Einfluss nehmen will, ist auch die UNO-Tochterorganisation ITU (Internationale Telecommunication Union) daran interessiert, hier ihren Einflussbereich zu definieren. Dies steht im Widerspruch zum Internet Governance Forum (IGF), das im Oktober unter der Leitung der UN erstmals zusammentraf. Im IGF arbeiten im Gegensatz zur ITU nicht nur Regierungsdelegationen, sondern auch Vertreter der Wirtschaft und der Zivilgesellschaft zusammen. Dies soll einen Ausgleich der verschiedenen Interessen an der Regulierung des Internets gewährleisten, bedeutet aber eine Einschränkung des staatlichen Vorrechts auf Regelsetzung.

Dabei geht es noch gar nicht um technische Spezifikationen, welche das W3C durchzusetzen versucht (mit mässigem Erfolg, weil fast alle grossen Web-Unternehmen oder auch Microsoft die Standards ignorieren und lieber selber welche etablieren), und auch nicht um die Bereitstellung der technischen Infrastruktur, also der physikalischen Netze (die etwa beim Streit um die (hier bereits besprochene) Net Neutrality im Mittelpunkt stehen).

Sollen Aber sie wirft eine weitere Frage auf: inwiefern sind die Machtverhältnisse im Internet für die Historische Online-Kompetenz von Relevanz? Und in welchen Kompetenz-Bereich sind diese Fragen anzusiedeln? Hier ist zugleich anzufügen, dass Kompetenzen nicht mit Wissen gleichzusetzen ist. Dennoch bleiben viele Kompetenzmodelle unklar in der Frage, inwiefern Wissen Bestandteil, Gegenstand oder Voraussetzung von Kompetenzen ist.

Das Wissen über die Funktionsweise von ICT (Neuen Medien) und den Interessengruppen, welche die Entwicklung von Anwendungen vorantreiben und die Nutzungsmöglichkeiten regeln, ist für alle Kompetenzbereiche von Bedeutung. Ich weise es in erster Linie dem Bereich „Lesen“ zu, da die Kompetenz, sich über die Interessen und Machtverhältnisse zu informieren, Grundlage dafür ist, ihre Auswirkungen für „Lesen“, „Schreiben“ und „Reden“ einzuschätzen. Die Fähigkeit zur Einschätzung ist wiederum mit der Kompetenz der Reflexion und der Erörterung („Reden“) verbunden.

Übersicht: HOK Reden

Aus der Welt der Blogs: Welcome as new member of the category „Primarily Non-English Language“ History Blog

Also bitte, Cliopatra, der Geschichts-Blog im englischsprachigen Raum (und zukünftiger Blog des Monats), hat meinen Blog entdeckt – und im über 500 Einträge umfassenden Blog-Verzeichnis („Blogroll“ für Insider, noch umfassender als in meinem letzten Hinweis) in der Kategorie „Primarily Non-English Language“ eingeordnet. Prima. Wie meint Blog-Gründer Ralph E. Luker:

Even if English is your primary language, try exploring these in other languages

Ja, genau! Und auch wenn die Muttersprache Deutsch ist, darf man diesen Blog erforschen!

Übersicht: Aus der Welt der Blogs

Aus der Welt der Wikis: Wikipedia und die Wissenschaft

Ich lese gerade einen Artikel in Telepolis von Karin Wehn und Martin Welker mit dem Titel „Weisheit der Massen„, der (so mein erster Eindruck) leider die Chance vergibt, erhellende Aussagen über die Rolle des Wikipedia-Modells für wissenschaftliches Arbeiten zu liefern. Zum einen bleiben die Überlegungen an der (oft Wikipedia-Einträgen vorgeworfenen) Oberfläche allgemeiner Erkenntnisse, dadurch schleichen sich unpräzise Aussagen in die Argumentation ein, die zu falschen Schlüssen führt.

So wird der Artikel gleich eingeführt mit einem Zitat von Norbert Bolz aus einem Interview im Magazin Spiegel im Zusammenhang mit Wikipedia:

Da entsteht ein weltweites Laienwissen, das in Konkurrenz zum Expertenwissen tritt.

Wikipedia als „Laienwissen“ zu bezeichnen, zielt aber an der Realität vorbei und verstellt den Blick auf die eigentlichen Probleme dieses Ansatzes der Texterstellung. Es handelt sich um ehrenamtliches Wissen, das zuweilen auch von ausgewiesenen Experten stammen kann, bzw. kontrolliert wird (ausser man lässt nur Enzyklopädie-Fachredaktoren als Experten gelten). Gerade in den naturwissenschaftlichen Bereichen sind dem Laienwissen Grenzen gesetzt, es ist nicht die Regel, dass Hobby-Physiker versuchen, die Relativitätstheorie zu erklären. Viel aussagekräftiger ist die Frage nach der Selbstzuschreibungs-Möglichkeiten zu Wissenbereichen, bzw. den dazugehörigen gesellschaftlichen Legitimationen. In der Geschichte fühlen sich viele „nicht-akademische“ Historiker berufen, ihre Ansichten darzutun – dies ist aber nicht ein Phänomen, das allein bei Wikipedia auftritt. Die Ehrenamtlichkeit, also die Frage, mit wieviel unbezahlter Arbeit die Autor/innen jeweils in Wikipedia Einträge erstellen und bearbeiten können und vor allem – warum sie das tun, aufgrund welcher Motivation – wäre weitaus interessanter, als jene, ob hier Profis am Werk sind, deren Arbeit einem Produktionsplan folgt und von einer Herausgeberschaft kontrolliert wird.

Stattdessen steuern Wehn und Welker bei der Frage der Autoren in spekulatives Fahrwasser:

Leider sind die Motive derjenigen, die zu einem Artikel beitragen, unbekannt. Die Verfasser können im Negativfall politische oder kommerzielle Altruisten, Spaßvögel oder Vandalen sein. Manche Verfasser überschätzen ihre fachliche Kompetenz und liefern stattdessen Spekulationen, Gerüchte, Hörensagen oder unkorrekte Information. Freiwillige Beiträge repräsentieren in hohem Maße die Interessen und das Wissen einer selbsterwählten Gruppe von Mitwirkenden. Es gibt keine systematische Instanz (wie bei klassischen Enzyklopädien etwa ausgebildete Redakteure) und keinen systematischen Wissensorganisationsplan, der sicherstellt, dass offensichtlich wichtige Themen adäquat behandelt werden.

Hier reproduzieren Wehn und Welker nur gängige Klischees anstatt anhand präzis formulierter Hypothesen Fragen zu stellen und Möglichkeiten zu erwägen, wie Antworten darauf gefunden werden könnten. Es gibt (beispielsweise) Instanzen der Qualitätssicherung bei Wikipedia (Administratoren) – diese sind durchaus der Befragung würdig, doch dafür müsste man diese Instanzen einmal zu analysieren versuchen. Und die offensichtlich wichtigen Themen bedürfen wohl nicht eines systematischen Wissensorganisationsplanes, um ausgewählt zu werden – sonst wären sie ja eben nicht offensichtlich, sondern nur einem eingeweihten Kreis von Wissenden in ihrer Wichtigkeit ersichtlich.

Es folgt die Feststellung, dass Wikipedia gerne im wissenschaftlichen Alltag als Referenz genutzt wird, und Seminar- und Hausarbeiten von per Copy/Paste eingefügten Wikipedia-Artikeln strotzen. (Was hierbei ausgeblendet bleibt, ist der Umstand, dass die Nutzungsrechte an den Inhalten dank der General Public License von Wikipedia ganz anders gelagert sind als bei herkömmlichen Publikationen. Aber auch wenn Copy/Paste von Wikipedia-Wissen bei entsprechenden Nachweisen urheberrechtlich erlaubt ist, sagt dies noch nichts über die wissenschaftliche Redlichkeit aus). Wehn und Welker stellen die Frage, ob Wikipedia für die wissenschaftliche Nutzung etwas taugt – und verweisen darauf, dass Wikipedia-Gründer Jimmy Wales selber vom Zitieren aus Wikipedia abrät.

Dann folgt ein Vergleich von Wikipedia mit herkömmlichen Enzyklopädien. Welche Funktion Enzyklopädien als Gattung in der wissenschaftlichen Arbeit spielen können oder sollen (bzw. die Grundaussage, der auch Wales folgt, wonach Enzyklopädien ganz generell als Nachschlagewerke und nicht als zitierfähige Literatur gelten können, egal ob sie online oder gedruckt erscheinen, von einer Fachredaktion oder einer Community erstellt werden), beschäftigt Wehn und Welker nicht – sie interessieren sich nur dafür, ob Wikipedia „gleich gut“ wie herkömmliche Lexika sind.

Dabei kommen die gängigen Argumente: Die Artikel können zu jedem Zeitpunkt beliebig schlecht sein – Qualität ist nicht garantiert. Und vor allem Studienanfänger können dies noch nicht erkennen. Daher müsse die sach- und fachgerechte Nutzung von Wikipedia gelernt – und gelehrt werden.

Doch bei diesem (naheliegenden) Analyse-Ergebnis fallen einige Ungenauigkeiten auf. So behaupten Wehn und Welker:

Die Stärke von Wikipedia, das kollaborative Arbeiten an einem Gegenstand, ist streng wissenschaftlich gesehen eine Schwäche, da der Text eine Gemeinschaftsarbeit darstellt, oftmals keinem Autor eindeutig zuzuordnen ist und zudem meist nur einen Zwischenstand der Arbeiten darstellt.

Diese Aussage suggeriert, dass gemeinschaftlich erstellte Texte von mehr als einem Autor nicht wissenschaftlich seien (das würde auf eine ganze Reihe naturwissenschaftlicher Studien zutreffen – übrigens ist auch Text von Wehn und Welker eine Gemeinschaftsarbeit…), bzw. sie verwischt den Kernpunkt der Unwissenschaftlichkeit (der fehlenden Nachprüfbarkeit): dass anonymes und pseudonymes Mitarbeiten möglich ist – ein wesentlicher Grund für den Erfolg der Wikipedia, weil dadurch die Hemmschwelle zur Beteiligung niedrig genug war, um die kritische Masse an Beteiligten für dieses Projekt zu generieren.

Die Problematik der ständigen Veränderungen der Artikel wird noch weiter problematisiert:

Zitierte Versionen eines Artikels können schon wenige Stunden später Korrekturen oder andere Verbesserungen enthalten; folgt man später dem Link des von einem wissenschaftlichen Autor rezipierten und zitierten Artikels, hat man damit die aktuellste Version verpasst.

Hier ist Wehn und Welker die schon länger existierende Möglichkeit in Wikipedia entgangen, auf Archiv-Versionen von Artikeln zu verweisen: jede Fassung eines Wikipedia-Beitrages hat eine eigene URL und somit kann sogar besser als bei anderen Verweisen auf Internet-Ressourcen genau jene Version nachgewiesen werden, mit der man gearbeitet hat. (Zur Präzisierung beachte die Kommentare am Ende dieses Eintrages).

Noch einmal an der Problematik vorbei argumentieren Wehn und Welker bei der Frage des wissenschaftlichen Anspruchs von Wikipedia-Beiträgen:

Insbesondere bei den Punkten Unvoreingenommenheit, Nachvollziehbarkeit, Nachprüfbarkeit und Quellentransparenz hapert es leider bei Wikipedia. Die Wikimedia-Stiftung ist sich dessen bewusst und versucht mit Anleitungen zum Schreiben eines guten Artikels oder mit Workshops, die Qualität im obigen Sinne zu verbessern. Da meist Laien die Wikipedia-Texte erstellt haben, ist der Alltagscharakter der Texte evident.

Zum einen wird hier der Gesamtheit der Wikipedia-Texte und Wikipedia-Autor/innen Laienhaftigkeit unterstellt. Hier täte etwas Differenzierung Not. Zum anderen wird unterschlagen, dass auch Einträge in herkömmlichen Enzyklopädien „Alltagscharakter“ haben: es geht ja oft eben darum, Laien (als Rezipienten) gewisse Sachverhalte (nicht immer wissenschaftliche notabene) zu vermitteln. Und schliesslich kann auch in herkömmlichen Enzyklopädien den Ansprüchen der Nachvollziehbarkeit, der Nachprüfbarkeit und der Quellentransparenz nicht immer in gleicher Weise nachgekommen werden, in der Regel aus Platzgründen. Hier haben die Leser/innen dem Herausgeber zu vertrauen. Online-Enzyklopädien, die sogar noch Kommentare und Diskussionen erlauben (und Ergänzungen) wären hier eigentlich im Vorteil.

Die Überlegungen von Wehn und Welker sind geprägt von der (nicht belegten) Vorstellung, dass es sich bei Wikipedia um ein „Laienprojekt“ handelt und dass sich dies aufgrund der Rahmenbedingungen des Projekts (gemeinschaftliches, anonymes Schreiben ohne Möglichkeiten, sich als Autor/in zu profilieren, also Verantwortung zu übernehmen und zugeschrieben zu erhalten) auch nicht ändern werde. Mit dieser Einstellung, so fürchte ich, kommt man dem Potential und der Bedeutung von Wikipedia nicht auf die Spur. Hierfür braucht es noch mehr untersuchungen des Phänomens Wikipedia, wie sie teilweise von Wehn und Welker zitiert wurden (Andreas Brändle, Viégas/Wattenberg/Dave), wie sie aber (dies ist auf Wikipedia selber dokumentiert) noch weit aus ausführlicher schon vorhanden und im Entstehen begriffen ist

Übersicht: Aus der Welt der Wikis

HOK Lesen: Suchen und Finden: Das unsichtbare Web (Nachtrag)

Wer sich nicht durch den englischen, fachwissenschaftlichen Text von Landowski und Mayr zum unsichtbaren Web mühen mag, hat auch die Möglichkeit, sich das Feature „Was die Suchmaschine nicht findet“ des Deutschlandradios (dr) zu Gemüte zu führen (schriftlich oder als Audio-Datei). Zitat:

Google hat in vielen Köpfen die Illusion festgesetzt, mit der simplen Eingabe eines Stichwortes könne man die Weisheit der Welt aus dem Internet saugen. Das unsichtbare Netz zeigt, dass die Dinge komplizierter liegen, auch die beste Suchsoftware kann nicht Erfahrungswissen und Fingerspitzengefühl bei der Recherche ersetzen. Letztlich ist die elektronische Welt des Internets, ob sichtbar oder unsichtbar, auch nicht so viel anders als die wirkliche Welt: Sich darin zu orientieren ist eine Lebensaufgabe.

Übersicht: HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Das unsichtbare Web

Die Informationswissenschaftler Mayr und Lewandowski nehmen in einer aktuellen Publikation das Thema des „unsichtbaren Webs“ oder des „Deep Web“ (oder in ihrem Fall präziser: des „invisible academic web“) auf: jener Teil des Webs, der von Suchmaschinen nicht erfasst wird und damit für die meisten Nutzer/innen des Internets unsichtbar bleibt. Dazu gehören einerseits Seiten, die aus technischen Gründen von den Suchrobotern nicht gefunden werden oder deren Inhalte nicht indiziert werden können. Nicht gefunden werden Seiten, zu welchen keine oder falsche Links führen, aber auch Bereiche oder ganze Websites, deren Betreiber willentlich die Suchroboter mit entsprechenden Einstellungen ausschliessen und ihre Inhalte nicht in die Suchmaschinen indiziert haben wollen (ein Umstand, den Mayr und Lewandowski in ihren Übelegungen nicht berücksichtigen). Zu den nicht indizierbaren Dateien gehörten früher auch PDF-Dateien, heute sind es Musik-, Video- aber auch Flash-Dateien, während Bild-Dateien ja schon ziemlich gut in die Suchmaschinen-Abfragen eingebunden wurden.

Zum unsichtbaren Web (und hierauf konzentrieren sich Mayr und Lewandowski) gehören auch die zahlreichen via Web erreichbaren Datenbanken: angefangen von öffentlich zugänglichen Bibliothekskatalogen bis hin zu kostenpflichtigen Text- und Bilddatenbanken. Nicht (mehr) dazu gehören datenbankbasierte Web-Angebote wie etwas Amazon, deren Inhalte durch zahlreiche dynamische Verlinkungen von den Suchrobotern umfassend indiziert werden können.

Eine Studie von Michael K. Bergman aus dem Jahr 2001 schätzte, dass die Datenmenge in den Datenbanken jene des in Suchmaschinen indizierten Webs um das 550-fache (!) übersteige. Mayr und Lewandowski kommen bei einer kritischen Würdigung nun zum Schluss, dass die wirklich für wissenschaftliche Zwecke interessanten und relevanten Text-Datenbanken vielleicht gleich viel Daten beherbergen wie das „offene Web“ auch: also in der Grössenordnung von einigen Milliarden Dokumenten. Weggerechnet wären dabei Datenbanken mit technischen Inhalten oder Rohdaten und Bilder (zum Beispiel Satellitenbilder). Ob sie beispielsweise Patentrecht- oder Zeitungsvolltext-Datenbanken auch zu der relevanten Menge gezählt haben, erläutern Mayr und Lewandowski nicht näher.

Sie gehen auch nicht näher auf den (von ihnen erwähnten) Umstand ein, dass im „offenen Web“ nur ein Bruchteil der Inhalte wissenschaftlichen Ursprungs sind. Eine Schätzung von Lawrence und Giles (aus dem Jahr 1999) geht davon aus, dass 6% der im Web auffindbaren Inhalte als wissenschaftlich bezeichnet werden können. Folglich sind im unsichtbaren Web fast zwanzigmal mehr wissenschaftlich relevanten Daten vorhanden als im offenen Web.

Natürlich versuchen die Suchmaschinen, die sich als Suchinstrumente zu stark etabliert haben, um den Nutzer/innen wieder Datenbankabfragen beliebt machen zu können, die Inhalte des unsichtbaren Webs zu erschliessen: Google Scholar oder Scirus suchen gezielt Inhalte dieser Datenbanken ab und sind zu diesem Zweck Kooperationen mit wissenschaftlichen Verlagen und Datenbankbetreibern eingegangen. Oftmals kann man Inhalte zwar finden, muss diese aber bezahlen, wenn man sie einsehen will.

Mayr und Lewandowski plädieren einerseits dafür, genauere Untersuchungen über Art und Umfang des unsichtbaren Webs anzustellen (sie selber stellen nach eigener Deklaration nur plausible Überlegungen an), und andererseist, dass sich verschiedene Körperschaften und Institution in Kooperationen zur Erschliessung des unsichtbaren Webs zusammenschliessen sollten (ähnlich dem von ihnen erwähnten, aber nicht sehr erfolgreichen Projekt Vascoda). Ähnliche Forderungen zu europäischen Gegeninitiativen zu den US-amerikanischen Projeken zur Erschliessung des Webs (insbesondere durch Google) sind auch schon erhoben worden, etwa im Zusammenhang mit dem Buch-Digitalisierungsprojekt von Google.

Literatur:

Übersicht: HOK Lesen: Suchen und Finden