Auftrag und Fragestellung

Die Analysen basieren auf dem Datensatz Rohdaten_Methodenzentrum_nachFakultät.xlsx. Dieser beinhaltet insgesamt 4 offene Fragen aus der Studierendenbefragung - Technikumfrage. Die 4 offenen Fragen sind

Im Gespräch vom 14.Juni 2020 wurden gewünscht, eine automatische Inhaltsanalyse hinsichtlich zweier Fragestellungen vorzunehmen:

  1. Polarität: Wie positiv oder negativ sind die einzelnen Äußerungen zu bewerten? Gibt es Unterschiede zwischen den Fakultäten?
  2. Themen: Welche Themen lassen sich automatisch extrahieren und wie sieht die Themenverteilung zwischen den Fakultäten aus?

Polarität Gesamt und nach Fakultät

Die Grundannahme hinter der Messung der Polarität ist die Vermutung, dass die Wortwahl nicht zufällig erfolgt, sondern über die Benutzung spezifischer Wörter Polariäten abgeleitet werden können. Viele dieser Verfahren haben ihren Ursprung in der psychologischen Forschung; es kann z.B. gezeigt werden, dass sich für bestimmte Situationen ein Zusammenhang zwischen der Persönlichkeit und der Wortwahl herleiten lässt. Darüber hinaus werden Polaritätsmessungen klassischerweise für Produktreviews genutzt, um Aussagen über die Zufriedenheit mit bestimmten Produkten herleiten zu können.

Die Anwendung und damit die Aussagekraft von Polaritätsmessungen hängt im Wesentlichen von 2 Entscheidungen ab:
1. Auswahl eines geeigneten Polaritätswörterbuchs: Das Wörterbuch bestimmt sich nach dem Kontext der Fragestellung und dem Typ der Daten – in diesem Fall nutzen wir das Wörterbuch LIWC2001. Die Entscheidung für das Wörterbuch begründet sich vor allem darin, dass dieses (deutsche) Wörterbuch ausgiebig getestet wurde.
2. Anwendung der statistischen Methode: Die hier angewandte Methode berücksichtigt sowohl Negationen (z.B. “nein”, “nicht”) als auch verstärkende (z.B. “sicher”) und abschwächende (z.B. “wenig”, “kaum”) Worte. Die Berechnung der Polarität wird für die Satzlänge gewichtet.

Für unterschiedliche Wörterbücher und andere Gewichtungsmethoden können sich durchaus andere Ergebnisse und Schlussfolgerungen ableiten lassen.

Datenaufbereitung

Die Anwendung des Wörterbuchs basiert auf der Grundform der Wörter, d.h. in einem ersten Schritt wenden wir Part-of-Speech (POS) Tagging an, um die Grundform aller Wörter zu bestimmen. Das Verfahren basiert auf statistischen Modellen; daher muss berücksichtigt werden, dass diese Modelle auch Fehler in der Zuordnung der Wortarten machen. Ein großer Unterschied ergibt sich z.B. dadurch, dass POS-Tagger oftmals auf anderen Datentypen (z.B. Wikipedia) trainiert werden. Hier verwenden wir den Universal Dependencies Parser. Basierend auf den Worttypen wird dann die Grundform des Wortes hergeleitet. Es erfolgt keine Nachkorrektur der geparsten Daten!

T3: Welche genauen/weiteren technischen Voraussetzungen zur Teilnahme an Online-Veranstaltungen fehlen Ihnen?

In der folgenden Abbildung stellen wir nur diejenigen Antworten dar, bei denen mindestens ein Polaritätwort erkannt wurde. Die meisten der Antworten beinhalten keines der Wörter aus dem Polaritätswörterbuch. Wenn diese Wörter mit in die Abbildung aufgenommen werden, clustern die Antworten um den Wert \(0\).

T7: Mit welchen (nicht-technischen) Herausforderungen und Schwierigkeiten sind Sie im Sommersemesters 2020 konfrontiert?

Ein anderes Bild ergibt sich für die Frage nach den Herausforderungen – nicht nur sind die Antworten hier im Schnitt deutlich länger, sondern es zeigen sich auch weniger Unterschiede zwischen den Fakultäten. Auch hier haben wir wieder in der Abbildung diejenigen Antworten nicht berücksichtigt, in denen kein Polaritätswort vorkommt (und somit eine Polarität von \(0\) haben). Bedingt durch die deutlich längeren Antworten, ist das allerdings weniger häufig der Fall.

T8: Wo sehen Sie weitere Schwierigkeiten, individuell oder im Hinblick auf Ihre Veranstaltungen, die ein Hindernis für Ihre Teilnahme an Online-Veranstaltungen sein könnten?

Ähnlich sieht es aus, wenn die durchschnittlichen Polaritätswörter für diese Frage dargestellt werden.

Themenmodellierung

Bevor wir die Ergebnisse der Themenmodellierung präsentieren, beschreiben wir (kurz) das hier angewandte Verfahren der Datenaufbereitung und -analyse.

Datenaufbereitung

Die Datenaufbereitung besteht aus zwei Schritten:

  1. Es werden alle Nomen extrahiert. Erfahrungsgemäß haben Nomen einen relativ starken deskriptiven und damit sinnstiftenden Wert für die automatische Modellierung von Themen. Daher haben wir uns dazu entschieden, nur Nomen in die Analyse mit einfließen zu lassen – auch wenn das gleichzeitig heißt, dass der Umfang der Daten sich reduziert. Offene Antworten ohne Nomen werden in der weiteren Analyse damit nicht berücksichtigt.
  2. Die offenen Antworten werden dann nach jeweiliger Frage (T3, T7, T8, L8) getrennt voneinander analysiert. Je nach Frage unterscheidet sich die angewandte Methode.

Part-of-Speech (POS) Tagging

In einem ersten Schritt werden (wieder) mittels Part-of-Speech Tagging die Wortformen bestimmt, z.B. Nomen, Verb, Adjektiv. Das Verfahren ist identisch zur Bestimmung der Lemmas (und wurde bei der Datenaufbereitung der Polaritätsmessung bereits beschrieben).

Korpus der Nomen

In einem zweiten Schritt werden die Nomen in einen allgemeinen Korpus aufgenommen, aus dem dann für die jeweiligen Fragen die relevanten offenen Fragen gefiltert werden. Falls Zahlen und Punkte (fälschlicherweise) als Nomen identifiziert wurden, werden diese Worte für den weiteren Verlauf der Analyse herausgenommen.

Anzahl der Themen

Eine der entscheidensten Fragen bei der automatischen Themenmodellierung ist die Frage nach der Anzahl der Themen. Für die meisten Modelle muss diese Anzahl vor der Themenmodellierung a priori definiert werden. Alle quantitativen Maße, die etwas über die Qualität der Modelle in Abhängigkeit der Anzahl der Themen aussagen, können nur als Hilfestellung verstanden werden – relevant ist die (subjektive) Interpretation der resultierten Themen. Wir haben für jedes der hier angewandten Themenmodelle einige der quantitativen Maße berechnet und auf Basis dieser Maße die Anzahl der Themen festgelegt. Die Bandbreite in der Anzahl der Themen ist begrenzt durch unsere Vorannahmen über die Daten: Wir erwarten mehr als 3 Themen, aber gleichzeitig weniger als 30. Falls sich bei der Interpretation der Themenwörter herausgestellt hat, dass einige Wörter nicht gut einem Thema zuzuordnen waren, haben wir die Anzahl verändert und die Modellierung erneut auf Basis der neuen vorgegebenen Anzahl vorgenommen.

T3: Welche genauen/weiteren technischen Voraussetzungen zur Teilnahme an Online-Veranstaltungen fehlen Ihnen?

Basierend auf den quantitativen Maßen haben wir ein Themenmodell mit 5 Themen berechnet. In der Abbildung wird die relative Häufigkeit über alle offenen Fragen zu dieser Frage und die ersten 6 wahrscheinlichsten Themenwörter dargestellt:

In der folgenden Tabelle werden die 10 Top-Wörter für jedes Thema ausgegeben (Spalten V) – für insgesamt 4 Metriken (Spalte metric). Nicht alle Metriken eignen sich gleichermaßen, um Sinn aus den Wörtern zu machen, aber in der Gesamtschau sollten sinnvolle Label für die 5 Themen vergeben werden können. Jedem Thema wurde eine Farbe zugewiesen.

Die Themenwörter lassen sich auch als Wortwolke darstellen. Diese Wortwolken basieren auf der Metrik der wahrscheinlichsten Wörter und sind je nach Thema entsprechend eingefärbt.

Die geschätzten Effekte der Zugehörigkeit zu einer Fakultät auf die einzelnen Themen sind wie folgt – jeweils wieder eingefärbt für die 5 Themen:

bzw. anders herum dargestellt

T7: Mit welchen (nicht-technischen) Herausforderungen und Schwierigkeiten sind Sie im Sommersemesters 2020 konfrontiert?

Basierend auf den quantitativen Maßen haben wir ein Themenmodell mit 9 Themen berechnet. In der Abbildung wird die relative Häufigkeit über alle offenen Fragen zu dieser Frage und die ersten 6 wahrscheinlichsten Themenwörter dargestellt:

In der folgenden Tabelle werden die 10 Top-Wörter für jedes Thema ausgegeben (Spalten V) – für insgesamt 4 Metriken (Spalte metric). Nicht alle Metriken eignen sich gleichermaßen, um Sinn aus den Wörtern zu machen, aber in der Gesamtschau sollten sinnvolle Label für die 9 Themen vergeben werden können. Jedem Thema wurde eine Farbe zugewiesen.

Die Themenwörter lassen sich auch als Wortwolke darstellen. Diese Wortwolken basieren auf der Metrik der wahrscheinlichsten Wörter und sind je nach Thema entsprechend eingefärbt.

Die geschätzten Effekte der Zugehörigkeit zu einer Fakultät auf die einzelnen Themen sind wie folgt – jeweils wieder eingefärbt für die 9 Themen:

bzw. anders herum dargestellt

T8: Wo sehen Sie weitere Schwierigkeiten, individuell oder im Hinblick auf Ihre Veranstaltungen, die ein Hindernis für Ihre Teilnahme an Online-Veranstaltungen sein könnten?

Basierend auf den quantitativen Maßen haben wir ein Themenmodell mit 6 Themen berechnet. In der Abbildung wird die relative Häufigkeit über alle offenen Fragen zu dieser Frage und die ersten 6 wahrscheinlichsten Themenwörter dargestellt:

In der folgenden Tabelle werden die 10 Top-Wörter für jedes Thema ausgegeben (Spalten V) – für insgesamt 4 Metriken (Spalte metric). Nicht alle Metriken eignen sich gleichermaßen, um Sinn aus den Wörtern zu machen, aber in der Gesamtschau sollten sinnvolle Label für die 6 Themen vergeben werden können. Jedem Thema wurde eine Farbe zugewiesen.

Die Themenwörter lassen sich auch als Wortwolke darstellen. Diese Wortwolken basieren auf der Metrik der wahrscheinlichsten Wörter und sind je nach Thema entsprechend eingefärbt.

Die geschätzten Effekte der Zugehörigkeit zu einer Fakultät auf die einzelnen Themen sind wie folgt – jeweils wieder eingefärbt für die 6 Themen:

bzw. anders herum dargestellt

L8: Welche Tools nutzen Sie für die digitale Zusammenarbeit mit Ihren Kommilitonen?

Für die Frage nach den technischen Tools haben wir uns entschieden, getrennt nach Fakultät Wortwolken zu erstellen. Diese Wortwolken basieren erneut auf den Nomen – allerdings haben wir für diese Frage die Nomen weitestgehend (nach)korrigiert, so dass unterschiedliche Schreibweise desselben Tools (weitestgehend) berücksichtigt werden. Die Farben entsprechen wieder der Farbgebung in den fakultäts-spezifischen Abbildungen.

Wir haben zwei Varianten der Wortwolken generiert – die erste Variante bildet die absoluten Häufigkeiten, mit der innerhalb der fakultäts-spezifischen Antworten die Tools genannt wurden, ab. Das ist die wohl bekannteste Anwendung für Wortwolken: Terme zählen und grafisch abbilden. Mit der zweiten Variante haben wir versucht, Unterschiede zwischen den fakultäts-spezifischen Antworten darzustellen. Dafür gewichten wir die Terme über alle Fakultäten (TF-IDF), so dass die diskriminierende Terme einen hohen Wert erhalten (und Terme, die gleichermaßen in allen Fakultäten genannt werden, einen entsprechenden niedrigen Wert). Aus der Abbildung können Unterschiede erkannt werden – gleicherwohl zeigt sich auch, dass die Daten noch weiter manuell (nach)korrigiert werden müssten.

Variante 1: Absolute Häufigkeiten

Agrar Bio Chemie
Forst Geo Jura
Mathe Med Philo
Physik SoWi Theo
WiWi

Variante 2: Diskriminierende Terme