Sentimentanalyse mit SentText

Teile uns

 

Bei der Sentimentanalyse handelt es sich „um die automatisierte Analyse von in Texten dargestellten menschlichen Gefühlen, Empfindungen und/oder Meinungen“. Es geht darum, „ein Stimmungsbild zu erzeugen und die im Text manifestierten Meinungen und Gefühle herauszufiltern“. (Marie Flüh, 2019).  

Marie Flüh, Projektmitarbeiterin an der Universität Hamburg, hat eine ganze Reihe von spannenden Aufsätzen zur Sentimentanalyse und zu SentText veröffentlicht. Darauf stütze ich mich in diesem Post vor allem ab.

Sentimentanalysen werden schon länger eingesetzt, um Stimmungen zu überwachen, z. B. an der Börse, in den sozialen Medien oder in Blog-Kommentaren. Mit Social Listening oder Social Media Monitoring analysiert man zum Beispiel Tweets zur eigenen Marke. So sucht man auch Hassbotschaften im Netz.

Spannend ist die Sentimentanalyse auch bei literarischen Texten, bei politischen Reden oder bei Schüleraufsätzen.  

Sentimentanalysen gehören als Text Mining Verfahren zur digitalen Literaturwissenschaft und zu den Digital Humanities. Mit Distant Reading lassen sich durch computergestützte Methoden gezielt grosse Textmengen, ja ganze Textkorpora untersuchen und vergleichen. Sentimentanalysen zählen aus, ob Texte eine positive oder negative Grundstimmung haben. Man sucht also gezielt nach Gefühlen – auf der Ebene des Autors, des Werks oder des Lesers. 

Zwei Methoden werden unterschieden: die Methode des maschinellen Lernens und der lexikonbasierte Ansatz. 

 

 

  • Maschinelles Lernen basiert auf den Verfahren des Close Readings. Bei diesem Ansatz werden literarische Texte manuell annotiert und dann als Trainingskorpora für das maschinelle Lernen genutzt.  
  • Lexikonbasierte Sentimentanalysen: Texte werden mit Sentimentwörterbüchern verglichen und statistisch ausgewertet.

Das Wörterbuch SentiWS (SentimentWortschatz) ist eine deutschsprachige Liste der Uni Leipzig, die für Gefühlswörter die Wortart, die Flexionsformen und die Polarität mit Werten zwischen +1 und -1 erfasst. Das Wörterbuch enthält 1.650 positive und 1.800 negative Grundformen, insgesamt ca. 18’000 negative und 16’000 positive Wortformen. SentiWS enthält nicht nur Adjektive und Adverbien, sondern auch Nomen und Verben, die Träger von Gefühlen sind.  Dies ist ein Auszug aus dem SentiWS: 

Die lexikonbasierte Sentimentanalyse hat aber auch Schwächen. Sentimentwörterbücher werden unter Umständen historischem Vokabular bzw. früheren orthografischen Schreibungen nicht gerecht. Implizite Emotionen wie bei der Ironie oder bei der Litotes werden nicht unbedingt erkannt. Auch Negationen oder gar doppelte Verneinungen können die Analyse verfälschen.

SentText

SentText ist ein neues, kostenloses, webbasiertes Open Source Tool zur lexikonbasierten Sentimentanalyse. Es wurde 2019/20 von der Uni Regensburg entwickelt. Mit SentText kann man Texte in Bezug auf positive und negative Stimmungen analysieren. Das Programm ist wegen seiner Einfachheit und dank der graphischen Benutzeroberfläche auch für Nichtexperten geeignet. 

 

Starten einer Analyse

Über „Dateien auswählen“ lädt man die TXT- oder XML-Dateien der zu untersuchenden Texte hoch. Dann wählt man ein Sentimentwörterbuch aus: SentiWSBAWL-R oder man importiert im CSV-Format ein eigenes. Unter „More Options“ passt man die Analyseparameter an. Man kann die Lemmatisierung, Negationen, Case Sensitivity und die Stoppwortliste ein- bzw. ausschalten. Hier lässt sich die Stoppwortliste auch ergänzen.  Dann startet man die Analyse. 

 

SentText: Startseite

Die Panels

 

 

Das Interface der Hauptseite besteht aus vier Panels:

  • Im Info Panel werden die gewählten Parameter angezeigt. 
  • Im Corpus Panel sieht man die hochgeladenen Dateien. Hier scrollt man durch die Ergebnisse der einzelnen Werke. Man kann sich auch mit Ordnern organisieren und so ganze Korpora vergleichen.
  • Im Visualize Panel werden die Resultate als Visualisierungen angezeigt. 
  • Im Text Panel steht der Text: die positiven Gefühlswörter sind blau, die negativen rot, die neutralen gelb eingefärbt.

SentText Panels

Klickt man im Text auf ein Wort, erscheinen zusätzliche Features, mit denen man die Wörterliste selbst korrigieren kann. Man kann manuell auch Sentimentwörter entfernen oder neue ergänzen.

 

Manuelle Korrektur der Sentimentwörterliste

Markiert man einen Textabschnitt, erhält man zusätzliche Informationen: die Anzahl Wörter, die Anzahl der darin enthaltenen Sentimentwörter und den Sentimentwert des ganzen Abschnitts. 

 

Sentimentwerte zu einem markierten Textabschnitt
Klickt man im Text auf ein Wort, kann man manuell Sentimentwörter entfernen oder neue ergänzen.  
 

Resultate und Visualisierungen

  • Charts of Polarity weighting zeigt, ob der Gefühlswert des analysierten Texts insgesamt positiv oder negativ ist. Hier im linken Screenshot für Kafkas „Verwandlung“.                   
  • Bei Charts of Word-level wird ein Kreisdiagramm mit den prozentualen Werten angezeigt. Hier im rechten Screenshot für Hesses „Der Steppenwolf“.  
  • Im Bereich Cloud & Bar chart wird eine Wortwolke generiert mit den häufigsten positiven und den häufigsten negativen Begriffen. Hier für Hesses „Der Steppenwolf“.
  •  
  • Pie chart: Distribution of positive to negative sentences erstellt ein Kreisdiagramm auf Satzebene. Hier im linken Screenshot für Süskinds Roman „Das Parfum“.
  • Timeline: Development of the sentiment erzeugt einen Zeitstrahl mit der emotionalen Entwicklung des ganzen Romans. Hier im rechten Screenshot für Süskinds „Das Parfum“.
  • Unter Table: The strongest ten sentences werden die positivsten und die negativsten Sätze des ganzen Romans angezeigt. Hier für G. Hauptmanns Komödie „Der Biberpelz“.       
  • Im Corpus Panel kann man direkt neben dem analysierten Werk über das Speichersymbol die Visualisierungen herunterladen als CSV-, PNG oder XML-Dateien.
  • Im Corpus Panel  lassen sich mehrere Dateien in Ordnern zu Textkorpora zusammenführen und diese miteinander vergleichen, z. B. Beispiel romantische mit naturalistischen Novellen oder Dramen von Goethe mit Dramen von Schiller. Als Textgrundlage bieten sich neben literarischen Werken beispielweise auch Schulaufsätze verschiedener Klassen, Bundestagsreden von CDU und SPD, WhatsApp-Chats oder Kommentare verschiedener Zeitungen an.
Hilfe: findet man unter About und Documentation.

Datenschutz: Sobald man eine Sitzung geschlossen oder eine neue Analyse gestartet hat, werden alle Analysedaten gelöscht. Deshalb sollte man wichtige Resultate regelmässig speichern.

 

Lerneinheit

Marie Flüh hat für forText eine 90-minütige Lerneinheit erstellt für die lexikonbasierte Sentimentanalyse bedeutender griechischer Dramen mit den Vorarbeiten, der Einführung in die Funktionen von SentText und mit Lösungen zu den Beispielsaufgaben.

Lernziele: „Zentrale Schritte der Korpuskonstituierung umsetzen, Hochladen der Texte und Kennenlernen der Analyseparameter, Analyse einzelner Texte und Interpretation der Analyseergebnisse, vergleichende Analyse der Homerischen Epen und Interpretation der Analyseergebnisse, manuelle Korrektur der Sentimentwerte, gattungstypologische Korpuskonstituierung, vergleichende Sentimentanalyse der drei Teilkorpora.“ (Marie Flüh: Sentimentanalyse mit SentText. Eine Lerneinheit. 29.06.2020.) 

 

Fragestellungen

Werk: Welche Emotionen prägen ein Werk? Ist die Stimmung insgesamt positiv oder negativ?

Figuren: Welche Gefühle lassen sich welchen Figuren zuordnen?

Beziehungen: Welche Emotionen bestimmen die Beziehungen welcher Figuren?

Gattungsvergleiche: Die Untersuchung ausgewählter Dramen-, Novellen- oder Romankorpora einzelner Autoren oder Epochen.

HandlungIn welchen Textteilen finden sich viele positive bzw. negative Gefühlswörter? 

Rezeption: Wird ein bestimmtes Werk von den Kritikern eher positiv oder negativ bewertet?

Literaturgeschichte: Im Rahmen einer Korpusanalyse könnte untersucht werden, welche Gefühle für eine Epoche besonders wichtig waren.

 

Weitere Tools

LIWC: In der kostenlosen, webbasierten Demoversion kann man einen Text in einen Editor kopieren und analysieren lassen. Man kann ihn dabei vorher klassifizieren als persönliches Schreiben, als persönliche E-Mail-Korrespondenz, als berufliche Korrespondenz, als Social Media Text, als kommerzielles Schreiben oder als professionelles bzw. wissenschaftliches Schreiben. Dann wird aufgrund der verwendeten Funktionswörter eine Ein-Wort-Analyse durchgeführt. Die Demoversion unterstützt nur englischen Text.

 

Korpora

  • Deutsches Textarchiv (DTA): digitales Vollltextkorpus mit über 4000 historischen Druckwerken zwischen 1600 und 1900.
  • DraCor: Drama Corpora Project: 500 deutschsprachige, 200 russische und vielen weiteren Dramen in anderen Sprachen.
  • DROC: Deutsches Romankorpus: 90 annotierte Fragmente deutschsprachiger Romane.
  • DWDS: Digitales Wörterbuch der Deutschen Sprache.
  • HathiTrust Digital Library: Online-Volltextdatenbank mit circa 8 Millionen Büchern, sowohl Primär als auch Sekundärliteratur.
  • Lyrikline: Autoren, Gedichte, verfilmte Gedichte, Videoportraits.
  • Märchenkorpus.
  • Parlamentsreden aus dem Deutschen Bundestag.
  • Projekt Gutenberg-DE: Klassische Literatur online. Digitale Bibliothek mit deutschsprachigen E-Texten von Autoren, die vor mehr als 70 Jahren gestorben sind.
  • TextGrid Repository: Volltextsammlung mit über 600 deutschsprachigen Autor*innen.
  • Zeno: Informationsportal. Die grösste deutschsprachige  Volltextbibliothek. Basiert auf der Reihe Digitale Bibliothek.
 

Links

 

Diese Posts könnten Sie auch interessieren

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert