Auftrag und Fragestellung

Die Analysen basieren auf dem Datensatz Rohdaten_Methodenzentrum_nachFakultät.xlsx. Dieser beinhaltet insgesamt 4 offene Fragen aus der Studierendenbefragung - Technikumfrage. Die 4 offenen Fragen sind

Im Gespräch vom 14.Juni 2020 wurden gewünscht, eine automatische Inhaltsanalyse hinsichtlich zweier Fragestellungen vorzunehmen:

  1. Polarität: Wie positiv oder negativ sind die einzelnen Äußerungen zu bewerten? Gibt es Unterschiede zwischen den Fakultäten?
  2. Themen: Welche Themen lassen sich automatisch extrahieren und wie sieht die Themenverteilung zwischen den Fakultäten aus?

Polarität Gesamt und nach Fakultät

Die Grundannahme hinter der Messung der Polarität ist die Vermutung, dass die Wortwahl nicht zufällig erfolgt, sondern über die Benutzung spezifischer Wörter Polariäten abgeleitet werden können. Viele dieser Verfahren haben ihren Ursprung in der psychologischen Forschung; es kann z.B. gezeigt werden, dass sich für bestimmte Situationen ein Zusammenhang zwischen der Persönlichkeit und der Wortwahl herleiten lässt. Darüber hinaus werden Polaritätsmessungen klassischerweise für Produktreviews genutzt, um Aussagen über die Zufriedenheit mit bestimmten Produkten herleiten zu können.

Die Anwendung und damit die Aussagekraft von Polaritätsmessungen hängt im Wesentlichen von 2 Entscheidungen ab:
1. Auswahl eines geeigneten Polaritätswörterbuchs: Das Wörterbuch bestimmt sich nach dem Kontext der Fragestellung und dem Typ der Daten – in diesem Fall nutzen wir das Wörterbuch LIWC2001. Die Entscheidung für das Wörterbuch begründet sich vor allem darin, dass dieses (deutsche) Wörterbuch ausgiebig getestet wurde.
2. Anwendung der statistischen Methode: Die hier angewandte Methode berücksichtigt sowohl Negationen (z.B. “nein”, “nicht”) als auch verstärkende (z.B. “sicher”) und abschwächende (z.B. “wenig”, “kaum”) Worte. Die Berechnung der Polarität wird für die Satzlänge gewichtet.

Für unterschiedliche Wörterbücher und andere Gewichtungsmethoden können sich durchaus andere Ergebnisse und Schlussfolgerungen ableiten lassen.

Datenaufbereitung

Die Anwendung des Wörterbuchs basiert auf der Grundform der Wörter, d.h. in einem ersten Schritt wenden wir Part-of-Speech (POS) Tagging an, um die Grundform aller Wörter zu bestimmen. Das Verfahren basiert auf statistischen Modellen; daher muss berücksichtigt werden, dass diese Modelle auch Fehler in der Zuordnung der Wortarten machen. Ein großer Unterschied ergibt sich z.B. dadurch, dass POS-Tagger oftmals auf anderen Datentypen (z.B. Wikipedia) trainiert werden. Hier verwenden wir den Universal Dependencies Parser. Basierend auf den Worttypen wird dann die Grundform des Wortes hergeleitet. Es erfolgt keine Nachkorrektur der geparsten Daten!

T3: Welche genauen/weiteren technischen Voraussetzungen zur Teilnahme an Online-Veranstaltungen fehlen Ihnen?

In der folgenden Abbildung stellen wir nur diejenigen Antworten dar, bei denen mindestens ein Polaritätwort erkannt wurde. Die meisten der Antworten beinhalten keines der Wörter aus dem Polaritätswörterbuch. Wenn diese Wörter mit in die Abbildung aufgenommen werden, clustern die Antworten um den Wert \(0\).

T7: Mit welchen (nicht-technischen) Herausforderungen und Schwierigkeiten sind Sie im Sommersemesters 2020 konfrontiert?

Ein anderes Bild ergibt sich für die Frage nach den Herausforderungen – nicht nur sind die Antworten hier im Schnitt deutlich länger, sondern es zeigen sich auch weniger Unterschiede zwischen den Fakultäten. Auch hier haben wir wieder in der Abbildung diejenigen Antworten nicht berücksichtigt, in denen kein Polaritätswort vorkommt (und somit eine Polarität von \(0\) haben). Bedingt durch die deutlich längeren Antworten, ist das allerdings weniger häufig der Fall.