Der Einfluss des grammatischen Geschlechts auf das Verständnis von Rollenbegriffen im Deutschen

Wie die männliche Dominanz im Deutschen nachgewiesen werden soll

Oft heißt es, es gebe Studien, die klar belegten, die deutsche Sprache sei männlich geprägt und führe in ihrer herkömmlichen Form zu Voreingenommenheit und Benachteiligung von Frauen. Doch wie soll die männliche Dominanz in der deutschen Sprache wissenschaftlich nachgewiesen werden? Welche Aussagekraft haben die Ergebnisse? Dieser Frage gehen wir hier nach, indem wir einen einschlägigen Artikel leicht verständlich analysieren. Mittlerweile liegt ein Briefwechsel zwischen den für diese Veröffentlichung zuständigen Editoren der Fachzeitschrift und einigen kritischen Lesern vor, der ebenfalls auf dieser Seite veröffentlicht wird.

Analyse einer psycholinguistischen Forschungsarbeit einschließlich der darin gewählten Methodik

Der 2019 in der Fachzeitschrift „Discourse Processes“ erschienene Forschungsbeitrag der Autorengruppe um Julia Misersky „Grammatical Gender in German Influences How Role-Nouns Are Interpreted: Evidence from ERPs “ soll zeigen, dass die deutsche Sprache durch eine männlich geprägte Voreingenommenheit dominiert sei. Die englische Abkürzung „ERP“ bedeutet „ereigniskorreliertes Hirnpotential“ (event-related brain potential). Im Folgenden wollen wir analysieren, welche Methoden dafür genutzt wurden, und wie aussagekräftig die durch diese Studie gewonnenen Ergebnisse sind.

Wie wissenschaftlich ist die Notwendigkeit zum Gendern? Eine Korrespondenz mit der Fachzeitschrift, in dem ein einschlägiger Artikel erschienen ist, und der Deutschen Forschungsgemeinschaft (DFG) bestätigt nun grundlegende Mängel in der Studie. Unter anderem war die Sprache gar nicht Gegenstand der Begutachtung.
Wie wissenschaftlich ist die Notwendigkeit zum Gendern? Eine Korrespondenz mit der Fachzeitschrift, in dem ein einschlägiger Artikel erschienen ist, und der Deutschen Forschungsgemeinschaft (DFG) bestätigt nun grundlegende Mängel in der Studie. Unter anderem war die Sprache gar nicht Gegenstand der Begutachtung.

In aller Kürze lässt sich die Vorgehensweise der Studie folgendermaßen zusammenfassen (siehe Twitter-Beitrag):

  1. Zunächst fällt beim Lesen des auf englisch verfassten Artikels auf, dass die übliche Unterscheidung zwischen dem Genus (dem sogenannten grammatischem Geschlecht), dem Sexus (also dem tatsächlichen, biologischen Geschlecht), und dem Gender (also dem sozialen Geschlecht bzw. der Geschlechterrolle) weder klar definiert noch durchgängig korrekt zugeordnet wird.
  2. Die Beispielsätze, anhand derer die Probanden Geschlechterrollen wahrnehmen sollen, sind nach folgendem Schema konstruiert, das lediglich beispielhaft im Artikel erklärt wird: „Gruppe A ging zur Mensa, weil manche der Gruppe B Hunger hatten.“ Welche weiteren Sätze ggf. außerdem verwendet wurden, bleibt unerwähnt. Es fällt auf, dass die beiden Personengruppen keinen Bezug zueinander haben. Aus diesem Schema werden nun vier Kombinationen gebildet, indem die Gruppen folgendermaßen ersetzt werden: Gruppe A durch Studenten bzw. Studentinnen und Gruppe B durch Männer bzw. Frauen. Dadurch entstehen vier Kombinationen.
  3. Über das Universitätssystem, das den Autoren zur Verfügung stand, werden nun Probanden rekrutiert. Es fällt auf, dass diese eine sehr homogene Gruppe bilden. 20 Leute nehmen insgesamt an der Studie teil, von denen 65% Frauen sind. Der Artikel lässt offen, ob es sich dabei um Studenten aus eigenen Kursen handelt, oder sogar eigene Mitarbeiter einbezogen wurden. Es ist möglich, dass manche Probanden durch Kurse im Bereich der Gender Studies voreingenommen waren. Diese Vermutung legen die Autoren dadurch nahe, weil die Probanden für ihre Teilnahme entweder bezahlt wurden oder Studienpunkte erhielten. Dass die Gruppe insgesamt sehr homogen war, zeigt sich durch die Beschreibung, es handle sich ausschließlich um Rechtshänder zwischen 19 und 29 Jahren ohne Sehbehinderung, die in der Nähe der Forschungseinrichtung ansässig waren.
  4. Die Probanden bekommen die Satzkonstruktionen aus Punkt zwei am Bildschirm angezeigt. Dabei wird die Zeit gemessen, die nötig ist, um nicht näher spezifizierte Fragen mit ja oder nein zu beantworten.
  5. Die Zeitmessung wird dann auf verschiedene Weisen statistisch ausgewertet und in zweierlei Zeitfenster aufgeteilt. In einem der beiden Zeitfenster zeigt sich so das erhoffte Ergebnis: Sätze mit maskulinen Wörtern seien besser verständlich, wenn diese Wörter biologisch männliche Personen bezeichneten.
  6. Nun wird geschlussfolgert, dass sich die so gewonnenen Ergebnisse von den 20 recht homogenen Probanden auf alle weltweit lebenden, schätzungsweise 105 Millionen Deutschmuttersprachler übertragen ließen.
  7. Die Reproduzierbarkeit der Studie wird dadurch stark eingeschränkt, dass weder die genauen angezeigten Texte noch der zur Auswertung programmierte Computercode zur Verfügung gestellt werden. Über die Beispielsätze ist lediglich bekannt, nach welchem Schema sie erstellt wurden. Welche Ja/Nein-Fragen das Textverständnis beurteilen sollten, wird nicht erklärt. Ob im Computercode Fehler vorliegen, kann nicht ohne weiteres nachgeprüft werden.

Auch soll erwähnt werden, dass die Autoren zwar erklären, durch 20 Probanden das für statistische Untersuchungen erforderliche Minimum an Teilnehmern gewonnen zu haben. Nicht erklärt wird jedoch, dass diese Studie keinesfalls als repräsentativ anzusehen ist. Die Probandengruppe ist viel zu homogen, um für alle Deutschmuttersprachler weltweit eine Aussage ableiten zu lassen.

Hinzu kommt, dass der Artikel durch wiederverwendeten Text geprägt ist. Einerseits hatten die Autoren frühere Texte teils wörtlich in diesem Artikel übernommen – insbesondere in ihrem Methodenteil. Andererseits weisen nachfolgende Artikel einiger der Autoren teils längere Passagen identischen Wortlauts auf – leider ohne Kennzeichnung. Laut von der Deutschen Forschungsgemeinschaft (DFG) formulierter sogenannter „guter wissenschaftlicher Praxis“ müssen jedoch wörtlich übernommene Texte hinreichend gekennzeichnet sein, selbst wenn es sich um eigene Texte handelt (siehe „Nachweis eigener Vorarbeiten“ ).

Schließlich fehlt der Studie jegliche Betrachtung bezüglich Ethik oder potentiell missbräuchlicher Verwendung der Ergebnisse: Man findet keinerlei Diskussion darüber, warum die Sprachentwicklung einfache Konstrukte bevorzugt, oder welche Auswirkungen sich für jene ergäben, die leichter Sprache bedürfen.

Kurzfassung der in der Studie verwendeten Methodik
Analyse auf wiederverwendete Textstellen

Kritik und Stellungnahme der Editoren der Fachzeitschrift

Die auf dieser Seite in aller Kürze darlegten Kritikpunkte wurden den zuständigen Editoren der Fachzeitschrift, die den Artikel behandelt und die anonyme Begutachtung vor dessen Veröffentlichung organisiert hatten, in ähnlicher Form in englischer Sprache mitgeteilt. Am Ende der Seite finden Sie den originalen Briefwechsel mit der Fachzeitschrift als anonymisierte PDF-Datein.

Was aus der Antwort der Editoren folgt

Zwar stimmen die Editoren nicht zu, dass es sich bei der Studie um eine schwerwiegend unwissenschaftliche Arbeit handelt, aber sie bescheinigen einige grundlegende Mängel des gesamten Fachgebietes.

Wiederverwendung eigener Texte

Bei diesem Kritikpunkt handelt es sich um kein inhaltliches Problem, sondern um die Einhaltung der guten wissenschaftlichen Praxis. Die Autoren verwenden ohne Kennzeichnung einerseits Texte aus früheren Arbeiten in dieser Studie wieder und nutzen in späteren Studien wörtliche Auszüge aus selbigen wie in der Twitter-Meldung und in hierin veröffentlichten Schreiben farblich markiert wurde. Die Editoren antworten folgendes:

In der Regel sollte die Forschungsmethodik kurz und prägnant beschrieben werden, so dass ein informierter Leser weiß, was getan wurde. Es ist sehr typisch für Manuskripte, dass sich der Text im Abschnitt „Methoden“ überschneidet, da dort in der Regel die besten oder gängigsten Verfahren auf dem Gebiet beschrieben werden.

Editoren der Zeitschrift „Discourse Processes“

Zwar ist ein gewisser Überlapp an Text in der Regel durchaus akzeptabel, allerdings sollte auch dieser als solcher gekennzeichnet sein. Mit obiger Aussage widersprechen die Editoren der Leitlinie 13 der Deutschen Forschungsgemeinschaft (DFG).

Reproduzierbarkeit

Die Editoren erklären, dass verbesserte Reproduzierbarkeit tatsächlich nötig wäre, und Autoren künftig durch das Wissenschaftsjournal ermutigt werden sollen, ihre Daten frei zur Verfügung zu stellen. Sie räumen jedoch folgendes über die hier kritisierte Studie ein:

Zum Zeitpunkt der Begutachtung dieser Arbeit für die Veröffentlichung in Discourse Processes verlangte die Zeitschrift nicht, dass die Autoren ihr Forschungsmaterial, ihre Datensätze oder ihren Analysecode offen veröffentlichen. Wie zu dieser Zeit üblich, stellten die Autoren ein Beispiel ihrer Materialien in der Arbeit zur Verfügung.

Editoren der Zeitschrift „Discourse Processes“

In wieweit weiterführende Vorgaben künftig verpflichtend umgesetzt werden oder in welchem Zeitrahmen damit zu rechnen wäre, bleibt unklar. Um die dieser Studie zugrunde liegenden Daten, Programmcode und Fragebögen zu erhalten, müssen die Autoren direkt angeschrieben werden. Eine Verpflichtung zur Herausgabe der Informationen besteht jedoch nicht.

Auswahl und Anzahl der Studienteilnehmer

In Bezug auf die Auswahl der Studienteilnehmer und die Größe der Probandengruppe bescheinigen die Editoren ein grundlegendes Problem der gesamten psychologischen Forschung, da diese allgemein keine repräsentativen Befragungen durchführen kann:

Die meisten Forschungsarbeiten in der Psychologie werden mit relativ homogenen Gruppen von Studenten durchgeführt. Dies ist […] eine berechtigte Kritik an der psychologischen Forschung im Allgemeinen.

Editoren der Zeitschrift „Discourse Processes“

Hieraus geht auch hervor, dass Probandengruppen häufig aus eigenen Studenten rekrutiert werden, was zu sehr homogenen Gruppen führt. Wer das gleiche Fach studiert, ist normalerweise nicht nur ungefähr gleichaltrig, sondern zeichnet sich durch ähnliche Interessen und möglicherweise weitere kognitive Eigenschaften wie bestimmte Denkmuster aus. Darüberhinaus kann eine gewisse Voreingenommenheit nicht ausgeschlossen werden.

Weiterhin erklären die Editoren bezüglich der Teilnehmeranzahl folgendes:

Natürlich ist eine ausreichende Anzahl von Teilnehmern, um die erwartete Effektgröße zu erhalten, nicht dasselbe wie eine repräsentative Stichprobe der gesamten deutschsprachigen Weltbevölkerung, aber leider ist es aus praktischen Gründen oft einfach nicht möglich, eine repräsentative Stichprobe zu erhalten. Dies ist eine klare Einschränkung der Studie.

Editoren der Zeitschrift „Discourse Processes“

Es ist schon aus Kostengründen nachvollziehbar, weshalb die Autoren zumindest in anfänglichen Studien auf eine kleine Gruppe von Probanden zurückgreifen. Allerdings fehlt im veröffentlichten Artikel jegliche Erklärung dazu, dass es sich keinesfalls um eine repräsentative Studie handelt. Zwar merken die Autoren durch die Formulierung „if true“ schon in der Kurzfassung des Artikels an, dass die hier gefundenen Ergebnisse nicht als abschließend gesichert gelten können, legen aber keine weiterführende Untersuchungen nahe, sondern suggerieren, dass ihre Ergebnisse eine geschlechtsspezifische Interpretation maskuliner Begriffe impliziere.

In Kombination mit der fehlenden Risikobewertung führt dies zur Fehlinterpretation der Studie, die allem Anschein nach einen gravierenden Mangel der deutschen Sprache gefunden hat.

Zusammenstellung des angezeigten Textes

Zu der Feststellung, dass die beiden Personengruppen A und B in den angezeigten Beispielsätzen gar keinen Bezug zueinander haben, antworten die Editoren:

Die Gutachter haben keine derartigen Bedenken hinsichtlich möglicher verwirrender Faktoren geäußert. Es ist natürlich möglich, dass die Autoren und die Gutachter einen wichtigen Faktor übersehen haben, der die wichtigsten Ergebnisse beeinflusst.

Editoren der Zeitschrift „Discourse Processes“

Offensichtlich haben die Gutachter die Art, wie die Beispieltexte zusammengestellt sind, überhaupt nicht weiter betrachtet – und das, obwohl genau die Rollenmodelle im Zentrum der Arbeit stehen. Es geht hier primär um Sprache. Möglicherweise wurde aber eher der Ablauf und die Statistik betrachtet. Das Studienobjekt war wohl eher zweitrangig.

Zusammenfassung

Abschließend erklären die Editoren, dass die in dieser kritischen Diskussion vorgebrachten Kommentare die grundsätzlichen Probleme der psychologischen Forschung und der Psycholinguistik im speziellen ansprechen:

Die Kommentare […] werfen wichtige Fragen hinsichtlich der Repräsentativität der Stichprobe und des Versuchsmaterials auf [… und] stellen eine berechtigte Kritik an der bisherigen psychologischen Forschung im Allgemeinen dar.

Editoren der Zeitschrift „Discourse Processes“

Daraus geht hervor, dass die Aussagekraft der vorliegenden Studie als gering einzuschätzen ist. Die gefundenen Ergebnisse können allenfalls als vorläufig eingestuft werden, da diese durch repräsentative Untersuchungen überprüft werden müssten, um weiterführende Schlüsse zuzulassen.

Da die Gutachter vor der Veröffentlichung der Studie den fehlenden Bezug der beiden Personengruppen in den konstruierten Beispielsätzen nicht weiter betrachtet hatten, bleibt fraglich, ob diese Studie überhaupt in irgendeiner Weise die Aussagen zulässt, die die Autoren gefunden zu haben angeben.

Original-Korrespondenz mit der Fachzeitschrift

Die anonymisierte Stellungnahme fachkundiger Wissenschaftler finden Sie hier:

Die Antwort der ebenfalls anonymisierten Editoren auf die angegebenen Kritikpunkte finden Sie hier:

Quellenangabe

Julia Misersky, Asifa Majid & Tineke M. Snijders (2019) Grammatical Gender in German Influences How Role-Nouns Are Interpreted: Evidence from ERPs, Discourse Processes, 56:8, 643-654, DOI: 10.1080/0163853X.2018.1541382