Catching the gist – Beispielhafte Analyse von Parteiprogrammen zur Bundestagswahl 2017 mit Text Mining

Eine zentrale Aufgabe des Text Minings besteht darin, große Textmengen auf das Wesentliche zu reduzieren. Dennoch sollte dabei nicht vergessen werden, dass es meist die Kombination aus quantitativen („Distant Reading“) und qualitativen („Close Reading“) Verfahren ist, die in der Realität Anwendung findet.

Parteiprogramme wie die zur Bundestagswahl dieses Jahres sind häufig leicht aufzufinden, nur ein Verständnis für diese zu entwickeln nimmt viel Zeit in Anspruch – kaum verwunderlich jedoch, bedenkt man, dass die Inhalte solcher Parteiprogramme häufig auf über 100 Seiten festgehalten sind. Um sich also ein ganz allgemeines Bild von der Parteienlandschaft machen zu können, müsste man im Umkehrschluss jedes einzelne dieser Parteiprogramme aufmerksam durchlesen. Stattdessen wollte ich versuchen, die Kernpunkte eines solchen Wahlprogramms mit Text Mining zu extrahieren.

Je mehr ich mich jedoch mit dem Thema beschäftigte, umso präziser wurden auch die Fragestellungen, die ich diesbezüglich entwickelte. So kam beispielsweise die Frage auf, ob sich mittels Text Minings möglicherweise Inkonsistenzen innerhalb zwei Programmversionen einer Partei, hier der CDU/CSU, aufdecken lassen. Dazu dienten in diesem Fall das „lange“ Parteiprogramm sowie die Kurzversion als Korpora, die mit dem Text- und Data Mining Tool „RapidMiner“ analysiert und verglichen werden sollten.

Mit 3 Schritten zum Ziel:

Der „RapidMiner“ kann ohne tiefgreifende Kenntnisse in Programmiersprachen wie Python oder Java verwendet werden, dennoch ist auch hier bei der Einarbeitung in das Programm ein gewisser Aufwand nicht gänzlich zu vermeiden.

Es folgt die zur oben aufgeführten Fragestellung zugehörige Prozesskette:

cducsu_operatoren1

Schritt 1. Mit „Read Document“ wurden die beiden zu vergleichenden Dokumente (Voll- und Kurzversion) in einem ersten Schritt hochgeladen. Der eigentliche Vorgang der Dokumentbearbeitung findet dann in dem Unterprozess „Process Documents“ statt:

cducsu_operatoren2

Schritt 2. Mit dem Operator „Tokenize“ wird das Dokument in einzelne Token, hier in einzelne Wörter, aufgesplittet. Anschließend gleicht man mit dem „Filter Stopwords“-Operator die vorliegenden Texte mit einem Wörterbuch deutscher Stoppwörter ab, diese werden dann aussortiert.

Schritt 3. Der Operator „Transpose“ sorgt außerdem dafür, dass jedes zu untersuchende Wort eine eigene Zeile bekommt, sodass die im Anschluss stattfindende Auswertung erleichtert wird. Mit „Generate Attributes“ kann man unter Zuhilfenahme sogenannter „Regular Expressions“ weitere relevante Attribute hinzufügen (Beispiel: „att_1 > att_2“ für Begriffe, die im Vergleich häufiger im langen Parteiprogramm als in der kurzen Version auftauchen).

Und jetzt?

Bildschirmfoto 2017-11-08 um 11.56.02.png

Die fertige Ergebnistabelle kann nun zur Weiterverarbeitung exportiert werden, der „RapidMiner“ selbst bietet außerdem Möglichkeiten zur weiteren Visualisierung an. Ich habe meine Daten in eine Excel-Tabelle gebracht und daraus folgende Diagramme erstellt:

cducsucducsu2

Vielseitige Anwendbarkeit

In einem anderen Fall durchsuchte ich die Parteiprogramme der Parteien CDU/CSU, SPD, Die Linke, FDP, Die Grünen und AfD mit dem „RapidMiner“ gezielt nach bestimmten Begrifflichkeiten1, beispielsweise nach „Arbeit“ oder „Rente“ (mit „Filter Tokens (by Content)“ sowie der Einstellung „contains“ + „arbeit“).

bundestagswahl_vergleich

Allein innerhalb einer solchen vorab klar definierten Fragestellung eröffnen einem die Untersuchungen mit Text Mining also neue Möglichkeiten und Ideen, aus denen wiederum immer wieder neue Fragen entstehen können.

Ausblick

Offen bleibt lediglich die Frage, ob und welche Tools zukünftig Text Mining für die breite Masse zugänglich machen, denn es soll nicht allein am Informatiker oder Informationswissenschaftler liegen, ein Verständnis für solche Technologien zu entwickeln und zum Beispiel durch die Vereinfachung der „Lesbarkeit“ längerer Parteiprogramme und öffentlich relevanter Dokumente auch die Demokratie ein Stück weit mehr zu sichern.


Literatur

1. Hier wurden die laut einer von Infratest dimap durchgeführten Bürgerumfrage 5 wichtigsten politischen Probleme als Begriffe verwendet, aus: https://interaktiv.morgenpost.de/probleme-bundestagswahl-2017/  

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s