Die Analysen basieren auf dem Datensatz Rohdaten_Methodenzentrum_nachFakultät.xlsx
. Dieser beinhaltet insgesamt 4 offene Fragen aus der Studierendenbefragung - Technikumfrage. Die 4 offenen Fragen sind
Im Gespräch vom 14.Juni 2020 wurden gewünscht, eine automatische Inhaltsanalyse hinsichtlich zweier Fragestellungen vorzunehmen:
Die Grundannahme hinter der Messung der Polarität ist die Vermutung, dass die Wortwahl nicht zufällig erfolgt, sondern über die Benutzung spezifischer Wörter Polariäten abgeleitet werden können. Viele dieser Verfahren haben ihren Ursprung in der psychologischen Forschung; es kann z.B. gezeigt werden, dass sich für bestimmte Situationen ein Zusammenhang zwischen der Persönlichkeit und der Wortwahl herleiten lässt. Darüber hinaus werden Polaritätsmessungen klassischerweise für Produktreviews genutzt, um Aussagen über die Zufriedenheit mit bestimmten Produkten herleiten zu können.
Die Anwendung und damit die Aussagekraft von Polaritätsmessungen hängt im Wesentlichen von 2 Entscheidungen ab:
1. Auswahl eines geeigneten Polaritätswörterbuchs: Das Wörterbuch bestimmt sich nach dem Kontext der Fragestellung und dem Typ der Daten – in diesem Fall nutzen wir das Wörterbuch LIWC2001. Die Entscheidung für das Wörterbuch begründet sich vor allem darin, dass dieses (deutsche) Wörterbuch ausgiebig getestet wurde.
2. Anwendung der statistischen Methode: Die hier angewandte Methode berücksichtigt sowohl Negationen (z.B. “nein”, “nicht”) als auch verstärkende (z.B. “sicher”) und abschwächende (z.B. “wenig”, “kaum”) Worte. Die Berechnung der Polarität wird für die Satzlänge gewichtet.
Für unterschiedliche Wörterbücher und andere Gewichtungsmethoden können sich durchaus andere Ergebnisse und Schlussfolgerungen ableiten lassen.
Die Anwendung des Wörterbuchs basiert auf der Grundform der Wörter, d.h. in einem ersten Schritt wenden wir Part-of-Speech (POS) Tagging an, um die Grundform aller Wörter zu bestimmen. Das Verfahren basiert auf statistischen Modellen; daher muss berücksichtigt werden, dass diese Modelle auch Fehler in der Zuordnung der Wortarten machen. Ein großer Unterschied ergibt sich z.B. dadurch, dass POS-Tagger oftmals auf anderen Datentypen (z.B. Wikipedia) trainiert werden. Hier verwenden wir den Universal Dependencies Parser. Basierend auf den Worttypen wird dann die Grundform des Wortes hergeleitet. Es erfolgt keine Nachkorrektur der geparsten Daten!
In der folgenden Abbildung stellen wir nur diejenigen Antworten dar, bei denen mindestens ein Polaritätwort erkannt wurde. Die meisten der Antworten beinhalten keines der Wörter aus dem Polaritätswörterbuch. Wenn diese Wörter mit in die Abbildung aufgenommen werden, clustern die Antworten um den Wert \(0\).
Ein anderes Bild ergibt sich für die Frage nach den Herausforderungen – nicht nur sind die Antworten hier im Schnitt deutlich länger, sondern es zeigen sich auch weniger Unterschiede zwischen den Fakultäten. Auch hier haben wir wieder in der Abbildung diejenigen Antworten nicht berücksichtigt, in denen kein Polaritätswort vorkommt (und somit eine Polarität von \(0\) haben). Bedingt durch die deutlich längeren Antworten, ist das allerdings weniger häufig der Fall.
Ähnlich sieht es aus, wenn die durchschnittlichen Polaritätswörter für diese Frage dargestellt werden.
Bevor wir die Ergebnisse der Themenmodellierung präsentieren, beschreiben wir (kurz) das hier angewandte Verfahren der Datenaufbereitung und -analyse.
Die Datenaufbereitung besteht aus zwei Schritten:
In einem ersten Schritt werden (wieder) mittels Part-of-Speech Tagging die Wortformen bestimmt, z.B. Nomen, Verb, Adjektiv. Das Verfahren ist identisch zur Bestimmung der Lemmas (und wurde bei der Datenaufbereitung der Polaritätsmessung bereits beschrieben).
In einem zweiten Schritt werden die Nomen in einen allgemeinen Korpus aufgenommen, aus dem dann für die jeweiligen Fragen die relevanten offenen Fragen gefiltert werden. Falls Zahlen und Punkte (fälschlicherweise) als Nomen identifiziert wurden, werden diese Worte für den weiteren Verlauf der Analyse herausgenommen.
Eine der entscheidensten Fragen bei der automatischen Themenmodellierung ist die Frage nach der Anzahl der Themen. Für die meisten Modelle muss diese Anzahl vor der Themenmodellierung a priori definiert werden. Alle quantitativen Maße, die etwas über die Qualität der Modelle in Abhängigkeit der Anzahl der Themen aussagen, können nur als Hilfestellung verstanden werden – relevant ist die (subjektive) Interpretation der resultierten Themen. Wir haben für jedes der hier angewandten Themenmodelle einige der quantitativen Maße berechnet und auf Basis dieser Maße die Anzahl der Themen festgelegt. Die Bandbreite in der Anzahl der Themen ist begrenzt durch unsere Vorannahmen über die Daten: Wir erwarten mehr als 3 Themen, aber gleichzeitig weniger als 30. Falls sich bei der Interpretation der Themenwörter herausgestellt hat, dass einige Wörter nicht gut einem Thema zuzuordnen waren, haben wir die Anzahl verändert und die Modellierung erneut auf Basis der neuen vorgegebenen Anzahl vorgenommen.
Basierend auf den quantitativen Maßen haben wir ein Themenmodell mit 5 Themen berechnet. In der Abbildung wird die relative Häufigkeit über alle offenen Fragen zu dieser Frage und die ersten 6 wahrscheinlichsten Themenwörter dargestellt:
In der folgenden Tabelle werden die 10 Top-Wörter für jedes Thema ausgegeben (Spalten V
) – für insgesamt 4 Metriken (Spalte metric
). Nicht alle Metriken eignen sich gleichermaßen, um Sinn aus den Wörtern zu machen, aber in der Gesamtschau sollten sinnvolle Label für die 5 Themen vergeben werden können. Jedem Thema wurde eine Farbe zugewiesen.
Die Themenwörter lassen sich auch als Wortwolke darstellen. Diese Wortwolken basieren auf der Metrik der wahrscheinlichsten Wörter und sind je nach Thema entsprechend eingefärbt.
Die geschätzten Effekte der Zugehörigkeit zu einer Fakultät auf die einzelnen Themen sind wie folgt – jeweils wieder eingefärbt für die 5 Themen:
bzw. anders herum dargestellt
Basierend auf den quantitativen Maßen haben wir ein Themenmodell mit 9 Themen berechnet. In der Abbildung wird die relative Häufigkeit über alle offenen Fragen zu dieser Frage und die ersten 6 wahrscheinlichsten Themenwörter dargestellt:
In der folgenden Tabelle werden die 10 Top-Wörter für jedes Thema ausgegeben (Spalten V
) – für insgesamt 4 Metriken (Spalte metric
). Nicht alle Metriken eignen sich gleichermaßen, um Sinn aus den Wörtern zu machen, aber in der Gesamtschau sollten sinnvolle Label für die 9 Themen vergeben werden können. Jedem Thema wurde eine Farbe zugewiesen.
Die Themenwörter lassen sich auch als Wortwolke darstellen. Diese Wortwolken basieren auf der Metrik der wahrscheinlichsten Wörter und sind je nach Thema entsprechend eingefärbt.
Die geschätzten Effekte der Zugehörigkeit zu einer Fakultät auf die einzelnen Themen sind wie folgt – jeweils wieder eingefärbt für die 9 Themen:
bzw. anders herum dargestellt
Basierend auf den quantitativen Maßen haben wir ein Themenmodell mit 6 Themen berechnet. In der Abbildung wird die relative Häufigkeit über alle offenen Fragen zu dieser Frage und die ersten 6 wahrscheinlichsten Themenwörter dargestellt:
In der folgenden Tabelle werden die 10 Top-Wörter für jedes Thema ausgegeben (Spalten V
) – für insgesamt 4 Metriken (Spalte metric
). Nicht alle Metriken eignen sich gleichermaßen, um Sinn aus den Wörtern zu machen, aber in der Gesamtschau sollten sinnvolle Label für die 6 Themen vergeben werden können. Jedem Thema wurde eine Farbe zugewiesen.
Die Themenwörter lassen sich auch als Wortwolke darstellen. Diese Wortwolken basieren auf der Metrik der wahrscheinlichsten Wörter und sind je nach Thema entsprechend eingefärbt.
Die geschätzten Effekte der Zugehörigkeit zu einer Fakultät auf die einzelnen Themen sind wie folgt – jeweils wieder eingefärbt für die 6 Themen:
bzw. anders herum dargestellt
Für die Frage nach den technischen Tools haben wir uns entschieden, getrennt nach Fakultät Wortwolken zu erstellen. Diese Wortwolken basieren erneut auf den Nomen – allerdings haben wir für diese Frage die Nomen weitestgehend (nach)korrigiert, so dass unterschiedliche Schreibweise desselben Tools (weitestgehend) berücksichtigt werden. Die Farben entsprechen wieder der Farbgebung in den fakultäts-spezifischen Abbildungen.
Wir haben zwei Varianten der Wortwolken generiert – die erste Variante bildet die absoluten Häufigkeiten, mit der innerhalb der fakultäts-spezifischen Antworten die Tools genannt wurden, ab. Das ist die wohl bekannteste Anwendung für Wortwolken: Terme zählen und grafisch abbilden. Mit der zweiten Variante haben wir versucht, Unterschiede zwischen den fakultäts-spezifischen Antworten darzustellen. Dafür gewichten wir die Terme über alle Fakultäten (TF-IDF), so dass die diskriminierende Terme einen hohen Wert erhalten (und Terme, die gleichermaßen in allen Fakultäten genannt werden, einen entsprechenden niedrigen Wert). Aus der Abbildung können Unterschiede erkannt werden – gleicherwohl zeigt sich auch, dass die Daten noch weiter manuell (nach)korrigiert werden müssten.
Agrar | Bio | Chemie |
Forst | Geo | Jura |
Mathe | Med | Philo |
Physik | SoWi | Theo |
WiWi | ||