Masterarbeit: Problematische Hypothesen -
Wie man komplexe Statistik vermeiden kann

Arndt Regorz, Dipl. Kfm. & M.Sc. Psychologie, Stand: 23.05.2021

Welche Hypothesen sind gut testbar und bei welchen Hypothesen wird es statistisch schwierig?

Bei einer Masterarbeit hat man häufig im Rahmen der Vorgaben des Prüfers einen gewissen Spielraum, welche Hypothesen man für sich festlegt. Hier ist es ein legitimes Motiv, auch die Testbarkeit der möglichen Hypothesen mit zu berücksichtigen, bevor man sich endgültig auf die eigene Forschungsfragestellung festlegt (auch wenn man das der Prüferin natürlich nicht erzählen wird).

Es gibt Hypothesen, die man relativ einfach testen kann, und Hypothesen, deren Test verschiedene Schwierigkeiten aufweist. Im Folgenden werden verschiedene Hypothesen gezeigt, die aus statistischer Sicht eher schwieriger sind.

Inhalt

Mixed Designs
Lineare Strukturgleichungsmodelle (SEM)
Prüfung auf Abwesenheit von Effekten
Vergleich von Effekten (z.B. „A ist ein stärkerer Prädiktor als B“)
Quellen

1. Mixed Designs

Bei Mixed Designs hat man mindestens eine unabhängige Variable, die between subjects gemessen wird (z.B. Interventionsgruppe vs. Kontrollgruppe, Männer vs. Frauen, u.ä.) und eine unabhängige Variable, die within subjects gemessen wird (z.B. Messwiederholung zu verschiedenen Zeitpunkten). Das ist für viele Fragestellungen inhaltlich das optimale Design, kann jedoch an zwei Stellen statistisch schwierig werden.

Verletzung der Normalverteilung

Wenn man mit SPSS arbeitet und die Normalverteilungsannahme verletzt ist, hat man bei kleinen Stichproben das Problem, dass einem vernünftige Alternativverfahren fehlen. Bei großen Stichproben kann man ggf. auf den zentralen Grenzwertsatz ausweichen. Falls man mit R statt mit SPSS arbeitet, dann gibt es dort geeignete Alternativverfahren (Field & Wilcox, 2017).

Within-Design mit kontinuierlichem Moderator

Wenn Sie ein oder mehrere within subjects Faktoren haben (z.B. Messzeitpunkte) und einen kontinuierlichen Moderator, dann ist es relativ schwierig, eine derartige Moderatorhypothese auszuwerten. In der Regel werden Sie in diesem Fall auf Mehrebenenanalysen (HLM) zurückgreifen, wobei die within-subjects Faktoren auf Level 1 und der kontinuierliche between-subjects Moderator auf Level 2 modelliert wird und Sie die cross-level-interaction betrachten. Nach meiner Einschätzung ist das statistisch so ziemlich das schwierigste, was man im Psychologie-Master üblicherweise lernt. Wenn man das vermeiden möchte, könnte man versuchen, einen ordinalskalierten Moderator zu finden (statt eines intervallskalierten Moderators). Denn den dürfte man gar nicht auf diese Weise modellieren, sondern stattdessen einfach als weiteren Faktor in einer Mixed-ANOVA.

2. Lineare Strukturgleichungsmodelle (SEM)

In einigen wissenschaftlichen Teilgebieten gehören Strukturgleichungsmodelle und Pfadmodelle fast schon zum Standard bei einer Masterarbeit. Ein einfaches Strukturgleichungsmodell im Querschnitt lässt sich auch mit vertretbarem Aufwand testen. Jedoch gibt es komplexere Varianten, um die man lieber einen großen Bogen machen sollte, wenn man sich nicht sehr gerne mit Statistik beschäftigt.

SEM mit Moderator

Strukturgleichungsmodelle mit (insbesondere kontinuierlichen) Moderatoren sind sehr schwierig zu testen. Bei einer moderierten Regression schließt man bekanntlich die UV, den Moderator und deren Interaktion (Produktterm) ins Regressionsmodell mit ein. Bei einem Strukturgleichungsmodell mit latenten Variablen stellt sich hier die Frage, wie man das Messmodell für die latente Interaktion der beiden Variablen konstruiert. Zwar gibt es in der Literatur einige Vorschläge dazu (Moosbrugger, Schermelleh-Engel, & Klein, 1997), aber das geht weit über die übliche Schwierigkeit bei SEM-Modellen hinaus. Insofern wäre es aus meiner Sicht zu empfehlen, bei einer Moderatorhypothese lieber auf ein Pfadmodell (mit manifesten Variablen) zurückzugreifen – das ist nämlich tatsächlich mit überschaubarem Aufwand prüfbar.

SEM im Längsschnitt

Wenn Sie die Wahl haben, ein Querschnittsmodell oder ein Längsschnittsmodell zu testen, dann ist das Querschnittsmodell deutlich einfacher zu überprüfen. Zu den generellen Herausforderungen bei SEM kommt im Längsschnitt noch einiges an weitergehenden Fragestellungen (und damit Fehlerquellen) hinzu. Und auch beim Längsschnitt gilt: Wenn man statt SEM ein Pfadmodell testet, wird es deutlich einfacher.

3. Prüfung auf Abwesenheit von Effekten

Es kann aus theoretischer Sicht eine sinnvolle Hypothese sein, dass ein Effekt nicht vorliegt. Dass sich zwei Gruppen beispielsweise nicht unterscheiden, dass ein möglicher Prädiktor keinen Einfluss auf ein Kriterium hat usw. Jedoch ist das nicht so ohne weiteres statistisch zu prüfen. Denn es reicht nicht aus, dass ein statistischer Test (auf Mittelwertsunterschiede oder auf eine Korrelation ungleich Null) nicht signifikant ist, um die Abwesenheit eines Effektes zu belegen – es kann z.B. auch einfach nur ein Powerproblem (Stichprobe zu klein) sein. Streng genommen kann man einen Nulleffekt (Mittelwertsunterschied = 0, Korrelation = 0 usw.) nicht testen. Aber es gibt einen partiellen Ausweg: Mit Äquivalenztests kann man zwar nicht zeigen, dass ein Effekt gleich Null ist, aber man kann belegen, dass ein Effekt kleiner als eine smallest effect size of interest ist und damit äquivalent zu Null. Mit jamovi oder R lässt sich ein solcher Test ohne weiteres durchführen, mit einigen Umwegen auch mit SPSS (Hier geht es zu meinem Tutorial Äquivalenztests), aber man muss sich auch hier mit einem bisher ungewohntem Verfahren auseinandersetzen.

4. Vergleich von Effekten (z.B. „A ist ein stärkerer Prädiktor als B“)

Manchmal möchte man auch als Hypothese testen, ob ein bestimmter Prädiktor A einen stärkeren Einfluss auf eine Kriteriumsvariable hat als ein anderer Prädiktor B. Das ist grundsätzlich möglich, allerdings werden zumindest im Psychologiestudium die Verfahren dafür häufig nicht vermittelt. Es reicht für einen sauberen Test einer derartigen Hypothese nicht, einfach nur zwei Regressionsgewichte (für die Prädiktoren A und B) miteinander zu vergleichen – damit sieht man nämlich noch nicht, ob der Unterschied dieser beiden Regressionsgewichte auch signifikant ist. Die Verfahren für einen derartigen Test (z.B. restricted least squares) findet man eher in Lehrbüchern zur Ökonometrie (z.B. Gujarati, 2004). Sie sind nicht extrem schwierig, aber man muss sich doch in ein neues Verfahren einarbeiten (Hier geht es zu meinem Tutorial für den Vergleich zweiter Prädiktoren bei der multiplen Regression).

5. Quellen

Field, A. P., & Wilcox, R. R. (2017). Robust statistical methods: A primer for clinical psychology and experimental psychopathology researchers. Behaviour research and therapy, 98, 19-38. https://doi.org/10.1016/j.brat.2017.05.013

Gujarati, D. (2004). Basic Econometrics (4th edition). Tata McGraw-Hill.

Moosbrugger, H., Schermelleh-Engel, K., & Klein, A. (1997). Methodological problems of estimating latent interaction effects. Methods of psychological research online, 2(2), 95-111. https://www.dgps.de/fachgruppen/methoden/mpr-online/issue3/art9/moosbrugger.pdf