Mediatoranalyse bei multipler Regression - Teil 4:
Dichotomer (= binärer) Mediator

Arndt Regorz, Dipl. Kfm. & BSc. Psychologie, Stand: 24.03.2018


Die gängigen Verfahren zur Prüfung von Mediationshypothesen gehen von kontinuierlichen Mediatoren und Kriterien aus. Aber was machen Sie, wenn Sie einen dichotomen, kategorialen Mediator (z.B. mit den Werten 0 und 1) prüfen wollen? Dieses Tutorial zeigt dafür einen möglichen Lösungsweg auf.

Inhalt

  1. Was ist überhaupt das Problem?
  2. Logistische Regression - ein Überblick
  3. Lineare Regression und logistische Regression in einem Modell
  4. Lösungsmöglichkeiten
  5. Quellen

1. Was ist überhaupt das Problem?

Vorab: Es geht nicht darum, ob die unabhängige Variable X dichotom ist (also nur zwei Ausprägungen annehmen kann) oder nicht. Auch mit einer dichotomen Variable X kann man ganz normal die bekannten Standardverfahren zur Mediationsprüfung einsetzten.

Ein Problem entsteht aber, wenn der Mediator M dichotom ist.

Bei der Prüfung eines Mediationsmodells muss man nach Baron und Kenny drei Regressionsmodelle schätzen:
Das erste Modell umfasst die unabhängige Variable X und die abhängige Variable Y.
Das zweite Modell umfasst die unabhängige Variable X und den Mediator M.
Das dritte Modell umfasst die unabhängige Variable X, den Mediator M und die abhängige Variable Y.

Die Schwierigkeit ist das zweite Regressionsmodell. Hier hat man eine kontinuierliche (oder auch dichotome) unabhängige Variable X und einen dichotomen Mediator M als abhängige Variable der Regressionsgleichung. Die gewöhnliche lineare Regression ist jedoch nicht wirklich geeignet zur Schätzung von Modellen, bei denen die abhängige Variable dichotom ist.

Bei einer dichotomen abhängigen Variable setzt man in der Regel Verfahren der logistischen Regression ein. Bevor wir dazu kommen, welche Komplikationen das für die Mediation verursacht, schauen wir uns kurz an, was es mit der logistischen Regression auf sich hat.

2. Logistische Regression - ein Überblick

Die logistische Regression untersucht den Einfluss von einer oder mehrerer unabhängiger Variablen (kontinuierlich oder dichotom) auf eine dichotome (binäre) abhängige Variable (0, 1).

Beispiel:
Es wird bei Studierenden der Einfluss verschiedener Prädiktoren (z.B. Abiturnote, Prüfungsängstlichkeit, Gewissenhaftigkeit, Einkommen) darauf untersucht, ob das Studium abgebrochen wird. Die abhängige Variable, Studienabbruch, kann dabei nur zwei Ausprägungen annehmen: 0 = kein Studienabbruch, 1 = Studienabbruch.

Für die Untersuchung eines derartigen Zusammenhangs ist die gewöhnliche lineare Regressionsanalyse nicht geeignet. Über eine solche Regression vorhergesagte y-Werte zwischen 0 und 1 könnten zwar als Wahrscheinlichkeiten interpretiert werden, im Beispiel als Wahrscheinlichkeit dafür, dass bei den konkret vorliegenden Prädiktoren ein Studienabbruch resultiert. Aber rechnerisch könnten auch vorhergesagte y-Werte von kleiner 0 oder größer 1 herauskommen, und die lassen sich nicht sinnvoll interpretieren.

Statt eines linearen Zusammenhangs wird eine logistische Funktion an die Daten angepasst, die einen Wertebereich von 0 bis 1 hat, so dass man diese als Wahrscheinlichkeiten interpretieren kann. Wie genau man das praktisch genau macht, das sprengt den Rahmen dieses Tutorials – siehe dazu z.B. Field (2013).

Entscheidend für die vorliegende Frage ist:

  • Ein Regressionskoeffizient bei einer logistischen Regression ist inhaltlich etwas anderes als ein Regressionskoeffizient bei der gewöhnlichen linearen Regression.
  • Die abhängige Variable der logistischen Regression ist nicht die ursprüngliche dichotome Variable, sondern eine mit ihr nicht-linear zusammenhängende Größe, ein sogenanntes „Logit“.

3. Lineare Regression und logistische Regression in einem Modell

Wo genau sind jetzt die Komplikationen durch den dichotomen Mediator? Betrachten wir die zu schätzenden Pfade:

Grafik Mediation dichotom


Wir sehen, dass der a-Pfad mit logistischer Regression geschätzt werden muss, während der b-Pfad mit linearer Regression geschätzt wird. Wie Sie oben gesehen haben, ist die abhängige Variable in einer logistischen Regression jedoch eine sogenannte Logit-Einheit und nicht die ursprüngliche Variable. Damit ist allerdings technisch auch die abhängige Variable im a-Pfad eine andere als die unabhängige Variable im b-Pfad.

Die Schätzung von a-Pfad und b-Pfad passen also einfach nicht zusammen. Sie sind mit unterschiedlichen Verfahren durchgeführt und die Variable M im a-Pfad (Logit-Einheit) ist eine andere als die Variable M im b-Pfad (ursprüngliche Variable).

Damit kann man den indirekten Pfad nicht mehr einfach als Produkt aus den Koeffizienten von a-Pfad und b-Pfad (a * b) ermitteln. Und vor allem kann man die Signifikanz dieses Pfades nicht so ohne weiteres bestimmen.

4. Lösungsmöglichkeiten

Bisher hat sich in der Literatur noch keine Lösung für derartige Probleme eindeutig durchgesetzt. Im Folgenden wird der Ansatz von Iacobucci (2012a) kurz skizziert, der den Vorteil hat, inhaltlich relativ zugänglich zu sein:

1. Der c-Pfad (totaler Effekt der unabhängigen Variable X auf die abhängige Variable Y) wird mit gewöhnlicher Regression geschätzt.

2. Der a-Pfad (Einfluss der unabhängigen Variable X auf den dichotomen Mediator M) wird mit logistischer Regression geschätzt. Die Schätzung (Koeffizient) für den a-Pfad und dessen Standardfehler werden für die weitere Verarbeitung gespeichert.

3. Der b-Pfad und der c'-Pfad (Einfluss von Mediator M und unabhängiger Variable X auf die abhängige Variable Y) wird mit gewöhnlicher Regression geschätzt. Die Schätzung (Koeffizient) für den b-Pfad und dessen Standardfehler werden für die weitere Verarbeitung gespeichert.

4. Die Pfadkoeffizienten für a-Pfad und b-Pfad werden jeweils mit Hilfe ihrer Standardfehler in z-Werte umgerechnet. Voraussetzung ist, dass die Stichprobengröße N nicht zu klein ist, da hier nur dann von einer Normalverteilung ausgegangen werden kann.

Grafik Mediation dichotom Formel 1


Daraus wird zum einen das Produkt der standardisierten Pfade berechnet:

Grafik Mediation dichotom Formel 2


Zum anderen wird dessen Standardfehler berechnet:

Grafik Mediation dichotom Formel 3


5. Die Teststatistik wird berechnet und mit ihr wird ein z-Test durchgeführt:

Grafik Mediation dichotom Formel4


Das o.g. ist jedoch nur eine kurze Skizze des Verfahrens. Vor einer eigenen Anwendung sollten Sie in jedem Fall den Originalbeitrag (Iacobucci, 2012a) durcharbeiten, um das Verfahren sicher einsetzen zu können. Und für den Diskussionsteil Ihrer Arbeit ist auch eine Auseinandersetzung mit möglichen Kritikpunkten an diesem Ansatz (Iacobucci, 2012b; MacKinnon & Cox, 2012) zu empfehlen.

5. Quellen

Field, A. (2013). Discovering statistics using IBM SPSS statistics: And sex and drugs and rock 'n' roll (4th edition). Los Angeles, CA: SAGE.

Iacobucci, D. (2012a). Mediation analysis and categorical variables: The final frontier. Journal of Consumer Psychology, 22, 582-594. doi:10.1016/j.jcps.2012.03.006

Iacobucci, D. (2012b). Mediation with categorical variables compleat Journal of Consumer Psychology, 22, 603-604. doi:10.1016/j.jcps.2012.03.010

MacKinnon, D. P., & Cox, M. G. (2012). Commentary on “Mediation analysis and categorical variables: The final frontier” by Dawn Iacobucci. Journal of Consumer Psychology, 22, 600-602. doi:10.1016/j.jcps.2012.03.009


Wie kann ich Sie weiter unterstützen?

Beratung für Datenauswertung bei Bachelorarbeit oder Masterarbeit

Welche Auswertungen sind für Ihre Fragestellung richtig und was müssen Sie dabei beachten? Schon in einer Stunde (Telefon/Skype/vor Ort) kann man viele Fragen klären. Auf meiner Seite zu Statistik-Beratung finden Sie weitere Informationen.