Figurennetzwerke erstellen

Teile uns

Im letzten Post DraCor – Dramenanalyse habe ich gezeigt, wie man aus Dramen-Textsammlungen automatisch Figuren-Netzwerke generiert.

Heute skizziere ich, wie man eigene Figuren-Netzwerke erstellen kann. Textgrundlage ist Gottfried Kellers Novelle „Romeo und Julia auf dem Dorfe“.

Tools

  • Stanford NER (Named Enity Recognition) für das Extrahieren der Personennamen.
  • Ezlinavis zum Erstellen eigener Figuren-Netzwerke.

Wir suchen zuerst den digitalen Text und bereiten diesen für die Analyse vor. Dann ermitteln wir mit Stanford NER die Personen und Orte im Text. Anschliessend entwickeln wir aus den im Text farbig markierten Personen mit Ezlinavis eine Personenkonstellation.

Text suchen und vorbereiten

  • Wir suchen den Text über das Suchfeld und laden ihn von https://textgridrep.org/ herunter. Dann öffnen wir ihn, kopieren ihn in einen Editor und speichern ihn als Text-Datei (.txt): Romeo und Julia auf dem Dorfe.txt.
TextGrid Repository: „Romeo und Julia auf dem Dorfe“

Text mit dem Stanford NER annotieren

Mit Hilfe des kostenlosen Stanford Named Entity Recognizers lassen sich alle Ortsnamen, Figurennamen, Organisationsnamen und einige weitere Entitäten im Text automatisch extrahieren und farbig in einem Interface anzeigen . Der annotierte Text kann gespeichert, exportiert und in weiteren Programmen verwendet werden. Für das Programm ist eine aktuelle Java Version Voraussetzung.

Installation und Nutzung mit der deutschen Erweiterung

  • Das Programm Stanford NER kann hier heruntergeladen werden.
Download Stanford NER
  • Jetzt doppelklicken wir im entpackten Ordner die Datei ner-gui.bat. Es öffnet sich das NER-GUI. Später starten wir das GUI über einen Doppelklick auf stanford-ner.jar.
  • Dann laden wir die deutsche Erweiterung hier herunter und öffnen sie:

Stanford German NER model
  • Anschliessend suchen wir die Datei german.conll.germeval2014.hgc_175m_600.crf.ser.gz und kopieren sie in den Stanford NER Ordner Classifiers.
  • Im GUI des Stanford NER wählen wir mit Load CRF from file aus dem Unterordner Classifiers des Stanford NER Ordners die deutsche Erweiterung aus.
  • Jetzt erscheinen auf der rechten Seite vier Kategorien: Personen, Orte, Organisationen und Vermischtes.
  • Nun laden wir über File – Open File eine Textdatei oder fügen einen Text mit Copy und Paste ein.
  • Mit Run NER wird das Programm ausgeführt. Jetzt werden alle Personen, Orte, Institutionen und einige weitere Entitäten im Text markiert und farblich hervorgehoben.
  • Den getaggten Text speichern wir mit File save tagged file.
Stanford NER: „Romeo und Julia auf dem Dorfe“
  • Wird die Datei mit Wordpad geöffnet, erkennen wir Annotationen wie <PERSON>Sali</PERSON>
Stanford NER: „Romeo und Julia auf dem Dorfe“ getagged in Wordpad
  • Eine ausführlichere Beschreibung mit Screenshots findet sich hier, ein Videotutorial hier:

Die Daten könnten nun mit dem kostenlosen browserbasierten CATMA weiterbearbeitet werden. Mit diesem Tool lassen sich Textdateien importieren, kollaborativ annotieren, analysieren, visualisieren und exportieren. Dazu müsste die vorher erstellte NER-Datei mit Wordpad in eine XML-Datei umgewandelt werden und dann in CATMA importiert werden.

Ein eigenes Netzwerk erstellen mit Ezlinavis

Ezlinavis ist ein kostenloses browserbasiertes Tool, in das Daten manuell eingetippt werden, um ungerichtete Netzwerke zu erstellen. Es ist keine Registrierung notwendig. Die Entstehung des Netzwerks kann während der Eingabe mitverfolgt werden.

Das Netzwerk stellt dar, welche Figuren zusammen vorkommen und man erkennt auch, wie häufig sie insgesamt auftreten.

  • Wir öffnen Ezlinavis.
  • In der linken Spalte geben wir zuerst ein Segment ein (Kapitel, Akte, Szenen). Semente können hierarisch sein, z. B.:
    • # Erster Akt
    • ## Erste Szene
    • Person1
    • Person2
  • Dann fügen wir mit Blick auf den mit Stanford NER getaggten Text auf je einer neuen Zeile die Personennamen ein, unter Umstädnen gegliedert nach Segmenten:
    • # 1
    • Romeo
    • Julia
    • Manz
    • Marti
  • Auf der rechten Seite entsteht ein Netzwerk.

Ezlinavis: Beginn von „Romeo und Julia auf dem Dorfe“
  • Im mittleren Bereich wird eine CSV-Datei der Eingaben erstellt, die sich exportieren lässt.
  • Darunter setzen wir nach einer Leerzeile mit Teil 2 fort, bis alle Teile mit den darin vorkommenden Figuren erfasst sind.
  • Über Graph können wir verschiedene Visualisierungsformen auswählen: NOverlap oder ForceLink oder ForceAtlas2.
  • Die Netzwerke können als Screenshot gespeichert oder als Tabellendaten heruntergeladen und in anderen Tools weiterbearbeitet werden, z. B. in Gephi. -> Gephi Tutorial
  • Die Einheiten im linken Bereich können statt nach Kapiteln geordnet auch als einzelne Beziehungen angelegt werden, zum Beispiel so:
    • # 1
    • Marti
    • Manz
    • # 2
    • Sali
    • Vrenchen
  • Für jede Verbindung, die einem wichtig ist, wird eine eigene Einheit angelegt. Damit können also freie Netzwerke erstellt werden.
Ezlinavis: „Romeo und Julia auf dem Dorfe“: freies Netz
  • Über den Link Examples können 25 bestehende Netzwerke geladen und für eigene Zwecke genutzt werden.
Ezlinavis – Examples: W. Shakespeare „Hamlet“

Eine Excel Karte erstellen

Mit BatchGeo könnten die Ortsdaten auf einer Karte dargestellt werden:

  • Eine Spalte muss Standortdaten enthalten (Postleitzahlen, Ortsnamen oder eine vollständige Adresse).
  • Das Excel Dokument öffnen. Alle Daten in die Zwischenablage kopieren.
  • Auf das Kästchen mit den Beispieldaten klicken und dann die eigenen Daten einfügen.
  • „Optionen überprüfen und einstellen“.
  • Aus jeder Dropdown-Liste die richtige Standortspalte auswählen.
  • Auf „Karte erstellen“ klicken und dem Geokodierer bei seiner Arbeit zuschauen.

Hier ist das sehr geraffte Video, an das ich mich in diesem Post vor allem gehalten habe. Die angesprochenen Tools werden hier im Zusammenspiel mit CATMA vorgeführt.

Tutorial Netzwerkanalyse mit Ezlinavis

 

Links

Diese Posts könnten Sie auch interessieren

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert