Distant Reading mit Voyant – Web2-Unterricht

Teile uns

Nach dem einführenden Post zu Digital Humanities und Distant Reading stelle ich hier eine Analyselandschaft vor, die erste Erfahungen mit der computergestützten Literaturwissenschaft ermöglicht.

Voyant ist ein browserbasiertes Open Source Tool-Portal zur Text- und Korpusanalyse. Die Tools können auch installiert und lokal genutzt werden. Es ist kostenfrei, leicht und nach einer kurzen Einführung auch von Laien intuitiv nutzbar. Eine Registrierung ist nicht nötig.

Voyant bietet über 20 Untersuchungs- und Visualisierungstools. Anwendungen wie TaPor lassen sich einbinden, es könnten sogar eigene Tools entwickelt werden. Literarische Texte können in fast allen Textformaten importiert werden: TXT, HTML, XML, RDF, RTF, MS-Word. Sie lassen sich auch über einen URL von einer Internetseite laden. Selbst GoogleDocs Dokumente und zip-Files sollen kein Problem sein.

Die Ergebnisse lassen sich exportieren, z. B. als HTML-Quellcode, als fertig generierte URL, als bibliographische Zitation, als tabellarisierte oder rohe Datensätze. Die Ausgabe erfolgt über .xml-, .html- oder reine Text-Dateien.

Die Tools sind auf deutsch beschrieben im LitRe-Wiki der Uni Göttingen, auf das ich mich im Folgenden vor allem abstütze. Noch detailliertere Beschreibungen finden sich in der Voyant Tools Documentation.

1) Daten laden

Auf der Startseite hat man verschiedene Möglichkeiten Daten einzuspeisen:

Ein Text wird ins Eingabefenster kopiert und mit Reveal importiert.
Über die Upload-Funktion wählt man eine oder mehrere Dateien auf der Festplatte aus.
Falls der Text online verfügbar ist, genügt auch die URL des Texts.

Für die folgenden Beispiele habe ich die 28 Szenen von Goethes Faust I aus dem Projekt Gutenberg-DE kopiert und als TXT-Dateien mit der Nummer und dem Szenentitel hochgeladen.

2) Das Voyant-Interface

Das Standard-Interface mit dem geladenen Korpus ist in verschiedene Panels unterteilt:

*Voyant* Standard-Interface mit den Szenen von *Faust I*

Jedes Panel bietet eine Reihe von Funktionssymbolen an. Mithilfe des Zahnrads kann man Optionen einstellen wie Wortfilter. Das Fragezeichen gibt kurze Erklärungen und führt weiter auf die Projektseite zu den Tutorials, Videos und zu dem Quick Guide. Über das Diskettensymbol können die Daten gesichert werden in der Form einer URL oder als HTML-Snippets. Da die Sicherung aber nur für kurze Zeit erhalten bleibt, lohnt es sich, wichtige Ergebnisse regelmässig zu exportieren.

2.1 Reader

Oben in der Mitte des letzten Screenshots zeigt der Reader die geladenen Texte an. Unter dem Text kann man über die farbigen Balken, welche die Grösse der einzelnen Texte des Korpus symbolisieren, von Text zu Text navigieren, im Beispiel Faust I von Szene zu Szene. Unter diesen Balken lässt sich der Text über ein Suchfeld durchsuchen. Im Kopfbereich des Readers kann man URLs generieren, weitere Tools auswählen und kurze Helptexte zum Panel einblenden. Wenn man die Maus auf ein Wort des Texts bewegt, wird dessen Häufigkeit im Korpus angezeigt.

Im linken und rechten Panelbereich werden Analyse- und Interpretationstools geladen.

2.2 Cirrus

Dieses Panel wird im linken oberen Bereich des Interfaces angezeigt:

Cirrus visualisiert die häufigsten Wörter des Korpus in einer Wordcloud.
Je grösser und zentraler die Wörter angeordnet sind, desto häufiger kommen sie im Korpus vor. Ihre Farbe und ihre absolute Position haben keine Bedeutung. Wenn man mit der Maus über ein Wort fährt, wird dessen Häufigkeit eingeblendet.
Klickt man im oberen Bereich auf Terms, sieht man die der Wolke zu Grunde liegende Wortliste mit der Häufigkeit der Wörter und einer Timeline der Fundstellen. Darunter befindet sich wieder ein Suchfeld.
Über Links wird ein Netzwerkdiagramm erstellt, in dem die Schlüsselwörter grün und die damit verbundene Begriffe orange dargestellt werden.
Fährt man mit der Maus über den oberen Bereich von Cirrus, werden vier Symbole angezeigt: Hier kann man URLs generieren, zu anderen Tools wechseln oder die Kontexthilfe anzeigen. Hier lassen sich durch einen Klick auf das Optionen-Symbol auch die Einstellungen verändern. Mit der Option Stoppwords kann man Funktionswörter ausschliessen, mit der White List die erlaubten Wörter selbst definieren.
Im unterren Bereich von Cirrus kann man mit dem Schieberegler Terms die angezeigten Wörter der Wortwolke von 25 auf 500 Wörter erhöhen.
Mit Scale wechselt man vom ganzen Korpus zu den Einzeltexten.
Summary bietet einen Überblick über die Merkmale der geladenen Dokumente wie die gesamte Anzahl und die Anzahl der darin befindlichen Tokens und Types.

2.3 Trends

Dieses Linien-Diagramm visualisiert die Verteilung der Worthäufigkeiten über das ganze Korpus oder einen einzelnen Text. Die Auswahl erfolgt über Scale. Die Linienfarben entsprechen den Worten. Ein Klick auf einen Punkt in der Linie zeigt im Reader die Textstelle an. Über das Suchfeld können Begriffe ergänzt werden.

2.4 Summary

Diese Tabellenasicht im linken unteren Bereich bietet grundsätzliche Informationen zum Korpus:

Anzahl geladener Dokumente: nach der Länge geordnet: die Anzahl Wörter des Korpus, die Anzahl individueller Wörter.
Textlängen: die kürzesten und die längsten Texte.
Wortdichte: die Texte mit der höchsten und der tiefsten Wortdichte.
Durchschnittliche Satzlängen: die Texte mit den höchsten und tiefsten Satzlängen.
Distinctive words: Die häufigsten Schlüsselwörter in den einzelnen Texten.
Auch in diesem Panel kann man über Optionen Stoppwörter definieren.

2.5 Documents

In dieser Tabellenansicht werden die einzelnen Texte des Korpus aufgeführt mit den folgenden Informationen: Texttitel, Tokens (Anzahl Wörter), Types (Anzahl individueller Wörter), Ratio (Types/Tokens), durchschnittliche Satzlänge.

Über das Suchfeld durchsucht man das Korpus.
Bei Mouseover zum Fragezeichen wird das Tool kurz erklärt.
Mit Modify kann man das Korpus modifizieren.
Mit Download lässt sich das Korpus herunterladen.

2.6 Phrases

Diese Tabellenansicht zeigt die Phrasen (Mehrwortgruppen) des ganzen Korpus: Phrase, Anzahl, Länge in Anzahl Wörtern, Trend (Verteilung in den Texten des Korpus).

Bei Mouseover zum Fragezeichen wird das Tool kurz erklärt.
Mit dem Suchfeld kann gefiltert werden.
Mit dem Schieberegler kann die Länge der Phrasen bestimmt werden.

2.7 Contexts

Das Tool Contexts zeigt die Schlüsselwörter in ihrem unmittelbaren Umfeld: fünf Wörter davor und fünf Wörter danach. Dieser Kontext lässt sich mit dem Schieberegler bis auf maximal 50 Wörter erhöhen. Im Suchfeld kann man weitere Schlüsselwörter eingeben.

2.8 Bubblelines

Dieses Tool visualisiert die Worthäufigkeit im ganzen Korpus. Jeder Einzeltext wird durch eine horizontale Linie repräsentiert und ist in Segmente gleicher Länge unterteilt. Wenn man mit der Maus über eine Blase fährt, sieht man die Worthäufigkeiten in diesem Segment. Über das Suchfeld können weitere Schlüsselwörter eingegeben und über die Optionen auch Stoppwörter definiert werden.

2.9 Weitere Voyant Tools

Hier findet sich ein Überblick zu den weiteren verfügbaren Tools.

Die Tools sind auf deutsch beschrieben im LitRe-Wiki der Uni Göttingen.
Noch detailliertere Beschreibungen finden sich in der Voyant Tools Documentation.
Sehr praktisch ist auch die Kontexthilfe bei den einzelnen Tools, auf die man wie folgt gelangt:
- Mouseover in der Titelleiste
- Klick auf das Fragezeichen
- Unter Umständen ein Klick auf „more Help“!

3. Datenexport

Jedes Panel verfügt in der Kopfleiste über ein Export-Funktionssymbol: das Quadrat mit dem Pfeil, der nach oben zeigt:

Die Daten eines Panels können in der Form einer URL gespeichert werden oder es kann auch ein HTML-Snippet generiert werden für das Einbetten dieser Sicht in eine Webseite. Die Daten lassen sich in verschiedenen Formaten exportieren und später in Voyant wieder importieren.

Da die automatische Datensicherung nur für kurze Zeit erhalten bleibt, lohnt es sich, das Projekt regelmässig zu sichern. Dies kann man über das entsprechende Symbol in der Kopfleiste von Voyant tun. Dann wird ein Zip-Archiv generiert mit den Daten und Tools.

4. Anwendungsbeispiele

Wenn man ein Gefühl dafür entwickeln möchte, was für Fragestellungen mit Voyant beantwortet und wie die Visualisierungen ausgewertet werden können, empfiehlt sich das Studium einiger der folgenden kurz kommentierten Beispiele.

4.1 Voyant Visualisierung

Kurzes Erklärvideo zur Visualisierung mit Voyant auf dem Hintergrund eines PDF-Kapitels über die Gebrüder Wright und deren Gleitflugversuche.

4.2. Franz Kafka: Der Prozess

Die DH Regensburg stellt eine Voyant Übung vor, die 2015 im Rahmen der DH-Summerschool in München angeboten wurde. Das Thema war: Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften.

Im Rahmen dieser Übung wird Franz Kafkas digitalisierter Roman „Der Prozess“ mit den Voyant Tools automatisch analysiert. Im Zentrum stehen fünf Fragen mit Lösungstipps zu Types und Tokens,Lemmata, Wortarten, Adjektiven und Kollokationen („Wortpaare), vom Aufruf des Tools über das Importieren des Übungstexts bis zur Analyse. Am Schluss wird „Der Prozess“ mit den Texten „Das Schloss“ und „Amerika“ verglichen.

4.3. Unterrichtsprojekt: Voyant Analyse von Goethes Die Leiden des jungen Werthers

Kühner, Janina: Fachdidaktisches Essay: Beispielhafte Konzeption einer Literaturunterrichtseinheit mit Voyant:

Janina Kühner beschreibt eine Unterrichtsreihe zur Epoche Sturm und Drang für die gymnasiale Oberstufe. Sie zeigt beispielhaft auf, wie literarische Texte im Unterricht mithilfe der Voyant Tools analysiert und visualisiert werden können. Grundlage sind konkrete Aufgabenstellungen zu Johann Wolfgang Goethes ‚Die Leiden des jungen Werthers‘. Es geht um Feststellungen zu den handelnden Personen, um Themen und Motive der Epoche, um Werthers Beziehungen zu Lotte und um seinen sich wandelnden Gemütszustand. Kühner beschränkt sich dabei auf die drei Voyant Tools Cirrus, Contexts und MicroSearch. Schwierigkeiten für Lehrer/innen und Schüler/innen werden ebenso skizziert wie die Vorteile der Visualisierung mit Voyant.

4.4. Frauenfiguren in Märchen der Gebrüder Grimm

Im LitRe-Wiki der Uni Göttingen zu Voyant wird an einem Anwendungsbeispiel eine Contentanalyse kommentiert zum Thema Frauenfiguren und ihre Darstellungen in Märchen der Gebrüder Grimm. Die zwei Hauptfragen sind:

Wie werden Frauen und Mädchen in Schneewittchen, Dornröschen sowie Hänsel und Grethel charakteristisch dargestellt?
Welche Rollen erfüllen sie?

Gezeigt wird alles von der Beschaffung des digitalen Texts, über das Aktivieren einer deutschsprachigen StopList, über die Arbeit mit der Favoritenliste und das Filtern mit dem KWIC-Panel. Die Autoren betonen, dass eine solche Analyse ein hohes Mass an manueller Eigenleistung erfordere, dass aber dank des KWIC-Panels die Untersuchung der händisch ausgesuchten Keywords vereinfacht werde.

4.5. Religiöse Begrifflichkeiten in Reden Adolf Hitlers

Ein Blog von marfrom. Uni Paderborn. Analyse von 13 Reden Adolf Hitlers mit Voyant an der Spring School:

Im diesem Beispiel aus den digitalen Geschichtswissenschaften geht es um die Analyse von 13 Reden Adolf Hitlers aus 13 verschiedenen Jahren der Zeit der NS-Herrschaft. Aus jedem Jahr eine Rede. Dieser breite zeitliche Kontext erlaube es, gewisse Trends darzustellen. Die Reden werden im Hinblick auf religöse Begrifflichkeiten und Deutungsmuster ausgewertet. Ausgangspunkt ist die Suche nach den Begriffen „gott*“ und „heil*“. Der Autor weist nach, dass der Krieg durch Sakralisierung als gerechtfertigt und notwendig herausgestellt werden sollte. Er weist am Schluss seiner Ausführungen aber auch darauf hin, dass Distant Reading keine inhaltliche Auswertung zu ersetzen vermöge.

4.6. E.T.A. Hoffmann: Der Sandmann

Das LitRe-Wiki der Uni Göttingen nähert sich am Beispiel von E.T.A. Hoffmanns „Der Sandmann“ dem „Rechnen von Literatur“ an.

Mit Voyant werden die Worthäufigkeiten der Wörter „Auge“ und „wohl“ untersucht. Wordclouds, Konkordanz und Distributionsgraph seien „sehr einfache frequenzbasierte Mittel der digitalen Suche nach Wörtern und Wortverbindungen, um Muster innerhalb eines Texts oder Korpus zu erkennen.“ Solche schnell generierte Überblicke könnten als Heuristik für die weitere Analyse eines Textes dienen.

4.7 Anne McGrail

Anne McGrail beschreibt auf ihrem Blog im Artikel „Week 5: Voyant Tools for Distant Reading of Project Gutenberg Texts“ eine Unterrichtseinheit. Sie führt ihre SuS zuerst ein in Franco Morettis Distant Reading mit der Lektüre der Kapitel „The Slaughterhose of Literature“ und „Conjectures on World Literature“. Ihre Präsentation dazu findet sich hier: Franco Moretti’s New Method of Reading.

Danach wählen die SuS bei Gutenberg einen Roman aus, den sie nicht lesen müssen, dem sie sich aber in einer Analyse mit Voyant Tools annäheren wollen. Ihre Step-by-step Instructions dazu finden sich hier:

5. Datenportale Literatur

Im Post Open Data – Portale und Anwendungen habe ich eine Übersicht zu Open Data aus den verschiedensten Bereichen zusammengestellt.

Hier weise ich ergänzend auf einige Literaturportale hin:

AAC-Austrian Academy Corpus: Eine umfangreiche und komplex strukturierte Sammlung digitaler Volltexte zur deutschen Sprache und Literatur von 1848 bis 1989.
corpus.byu.edu: eine Sammlung linguistisch annotierter Online-Korpora.
Deutsches Textarchiv (DTA): Wissenschaftliches digitales Textarchiv mit Texten aus der Zeit von 1600 bis 1900 als linguistisch annotiertes Volltextkorpus. Jeder DTA-Text lässt sich mit Voyant Tools analysieren.
DigBib.Org: Die freie digitale Bibliothek: Sammlung gemeinfreier Literatur.
- Werke Friedrichs des Grossen. Uni Trier.
- Das Deutsche Wörterbuch von Jakob und Wilhelm Grimm. Uni Trier.
- MWB: Das mittelhochdeutsche Wörterbuch. Uni Trier.
- Spuren geistlicher Sehnsucht: Die Uni Trier digitalisiert Heiltumsdrucke im Forschungsprojekt rheinische Wallfahrtslandschaft.
- Das Goethe Wörterbuch: Uni Trier: Ein Autorenwörterbuch, ein umfassender Thesaurus der Goethezei, ein Nachschlagewerk für sprach- und literaturgeschichtliche, kultur-, geistes- und realgeschichtliche Sachinteressen.
Erlanger Liste: Digitale Texte, Verzeichnisse und weitere Seiten. Digitalisierungsprojekte an der Universität Trier.
Generische Suche von DARIA-DE.
Literaturnetz.org: Sammlung von urheberrechtsfreien Texten. Nach Genres und Autoren durchsuchbar.
Mannheimer Korpus 1 und 2: 1949 – 1974. Institut für Deutsche Sprache. Ca. 2,5 Millionen Wörter, verschiedene Genres und Register.
Open Library: Kunst, Fantasy, Biografien, Wissenschaft, Rezepte, Romane.
Projekt Gutenberg-DE: Deutschsprachige E-Texte von Autoren, die vor mehr als 70 Jahren gestorben sind. Project Gutenberg: 56’000 freie eBooks.
Wikisource: Sammlung von Texten, die urheberrechtsfrei sind oder unter einer freien Lizenz stehen.
Zeno.org im TextGrid Repository: Umfangreiche Sammlung deutschsprachiger Literatur bis ca. 1900 aus Belletristik und Sachliteratur. Literatur (693 Autoren), Märchen (58 Texte), Geschichte (14 Texte), Kulturgeschichte (113 Texte), Kunst (12 Texte), Musik (81 Texte), Naturwissenschaften (20 Texte), Philosophie (248 Texte), Nachschlagewerke (27 Texte).

6. Weitere Umgebungen

Literatur und Textanalyse: Ngram Viewer. Mit dem Google Ngram Viewer kann per Mausklick untersucht werden, wie häufig ein bestimmtes Wort während der letzten zwei Jahrhunderte in Büchern verwendet wurde. Dahinter steht eine Datenbank von 500 Milliarden Wörtern, hauptsächlich in Englisch.
Die Nutzung von Voyant ist kompatibel zu anderen Toolsammlungen wie TaPor oder JSTOR
Ähnliche Tools sind AntConc oder Wmatrix.

7. Abschliessnde Gedanken

Voyant ist eine mächtige, aber trotzdem auch für Laien nutzbare Analyselandschaft. Damit kann man in das Konzept der Digital Humanities einführen und spannende Erfahrungen mit Distant Reading sammeln.
Die Schüler gewinnen Kenntnisse im Umgang mit Visualisierungstools. Ihre Textkompetenz wird verbessert und sie erhalten ein erweitertes Textverständnis. Der erste Schritt zu Textverständnis ist oft ein Überblick über die im Text behandelten Themen.
Die Visualisierung grosser Datenmengen kann zu neuen Ideen und Fragestellungen führen. Das LitRe-Wiki weist aufgrund der hohen Menge an Daten darauf hin, dass die Analysen literarischer Texte vorwiegend auf Hypothesen gestützt werden sollten. Literaturwissenschaftliche Hypothesen aufzustellen und diese (computergestützt) zu überprüfen, gerade dies ist eine von den Universitäten gewünschte «basale Kompetenz».
Philippe Wampfler hat in seinem Post «distant reading – Datenanalyse im Literaturunterricht gefordert, dass bei der Arbeit mit literarischen Texten oder Sachtexten der Bezug auf quantitative Argumente immer wieder geübt werden sollte:
- „Lernende werden durch die Verwendung solcher Tools ermuntert, einerseits kreative Fragen an literarische Texte zu stellen, andererseits einen Einblick in Grundprinzipien der quantiativen Literaturanalyse und eines ‚distant reading‘ zu erhalten.“
- „Fragen wie die Zusammensetzung der Korpora, der Umgang mit der deutschen Morphologie bei der statistischen Erfassung, der digitalen Aufbereitung von Texten erhalten beim eigenen Experimentieren mit Suchschnittstellen plötzlich eine größere Relevanz.“
Die Geisteswissenschaften können damit aktuelle Themen wie Open Data und Big Data diskutieren und ihren Beitrag leisten zur Sensibilisierung der Schülerinnen und Schüler für die Möglichkeiten und Grenzen automaisierter Abläufe.
Eine ganze Reihe überfachlicher Kompetenzen aus den Informatiklehrplänen liessen sich damit im Deutschunterricht aufnehmen: Algorithmen und Programme, Information und Daten, Modelle und Visualisierung, Experimentieren. Und: Informatik wird bei der Arbeit als Kulturtechnik sichtbar!