ML oder REML
Welches Schätzverfahren nutzen für Mehrebenenanalyse / Linear Mixed Effects Models?

Arndt Regorz, Dipl. Kfm. & M.Sc. Psychologie, 15.08.2023

Für die Schätzung von Mehrebenenmodellen (multilevel models, linear mixed effects models, hierarchical linear models) stehen im Wesentlichen zwei Schätzverfahren zur Verfügung: Maximum Likelihood (ML) und Restricted Maximum Likelihood (REML). Aber welches dieser beiden Verfahren sollten Sie nutzen, wenn Sie ein Mehrebenenmodell schätzen?

In diesem Tutorial werden zunächst beide Verfahren kurz erklärt. Anschließend werden die primären Einsatzbereiche beider Verfahren gezeigt. Dabei folgt das Tutorial im Wesentlichen der Darstellung von Kapitel 3.1 in Hox et al. (2017).

Die kurze Antwort auf die oben gestellte Frage ist: In den meisten Projekten werden Sie beide Verfahren einsetzen, für jeweils unterschiedliche Teilfragen.

Video

(Hinweis: Mit Anklicken des Videos wird ein Angebot des Anbieters YouTube genutzt.)

1. Was sind ML und REML?

Maximum Likelihood (ML): ML ist eine allgemeine Methode zur Schätzung von Modellparametern, indem die sogenannte Likelihood-Funktion maximiert wird, die misst, wie gut das Modell zu den beobachteten Daten passt. Im Kontext der Mehrebenenmodellierung schätzt ML sowohl feste Effekte (Gruppeneffekte) als auch zufällige Effekte (Abweichungen von den Gruppeneffekten) unter Berücksichtigung der vollen Likelihood der Daten.

Restricted Maximum Likelihood (REML): REML ist eine Variante von ML, die sich auf die Schätzung der Varianzkomponenten der zufälligen Effekte konzentriert. Im Gegensatz zu ML zielt REML darauf ab, die durch die Schätzung der festen Effekte eingeführte Verzerrung bei der Schätzung der zufälligen Effekte zu reduzieren. Dabei werden in einem ersten Schritt nur die Varianzkomponenten in die Likelihood-Funktion aufgenommen und die Fixed Effects in einem zweiten Schritt geschätzt.

2. Wann sollte man ML einsetzen?

Vergleich von Modellen mit verschiedenen Fixed Effects: Beim Vergleich von verschachtelten Modellen mit unterschiedlichen festen Effektstrukturen ist ML vorzuziehen. Es erleichtert den Modellvergleich durch den Likelihood-Verhältnistest und andere Anpassungsstatistiken. Beispiele:
- Sie vergleichen ein Modell mit Level 1 Prädiktoren mit dem leeren Modell (Nullmodell).
- Sie vergleichen ein Modell mit Cross-Level-Interaktion mit einem Modell ohne Cross-Level-Interaktion.

Komplexe Modelle: ML-Schätzung bewältigt komplexe Modelle besser als REML, da es sowohl feste als auch zufällige Effekte gleichzeitig berücksichtigt. Wenn also eine Modellschätzung mit REML nicht konvergiert, lohnt es sich, stattdessen auch eine Schätzung mit ML zu probieren.

3. Wann sollte man REML einsetzen?

Fokus auf Varianzkomponenten: Wenn Ihr Hauptziel darin besteht, die Variabilität zwischen Gruppen zu verstehen und genaue Schätzungen der Varianz- und Kovarianzkomponenten der zufälligen Effekte zu erhalten, ist REML der geeignete Ansatz. ML-Schätzungen von Varianzkomponenten (Random Effects) sind verzerrt (biased), und zwar in der Regel nach unten. Die REML-Schätzung trennt die Schätzung der festen Effekte von der Schätzung der Varianzkomponenten, was dazu beiträgt, die Verzerrung zu reduzieren, die durch die Schätzung der festen Effekte bei der Schätzung der Varianzen der zufälligen Effekte eingeführt wird.Beispiel:
- Sie schätzen das Nullmodell, um die Intraklassenkorrelation zu ermitteln.
- Sie prüfen die Hinzunahme von Zufallskomponenten (z.B. Random Slope) zu Ihrem Modell.

Kleine Gruppenzahl: Insbesondere bei einer geringen Anzahl an Level 2 Einheiten ist REML gegenüber ML vorzuziehen.

4. Zusammenfassung

Aus meiner Sicht empfiehlt sich daher folgende Abfolge von REML- und ML-Schätzungen. M.E. ergibt sich das logisch aus den o.g. Regeln, aber in Hox et al. (2017) steht die folgende Prüffolge nicht explizit.

Das Nullmodell schätzt man besser mit REML, da es dort nicht um Fixed Effects geht (die sind im Nullmodell nicht enthalten), sondern um das Verhältnis der Varianzkomponenten zur Berechnung der Intraklassenkorrelation.

Für die Hinzunahme von Fixed Effects zum Nullmodell sollte man ML verwenden. D.h. man schätzt das Nullmodell ein zweites Mal, diesmal mit ML, und außerdem das Modell mit Fixed Effects mit ML, um dann den LR-Test durchzuführen.

Für die Hinzunahme von einer oder mehrere Random Slopes zum Modell mit Fixed Effects sollte man REML verwenden. D.h. man schätzt das Modell mit Fixed Effects ein zweites Mal, diesmal mit REML, und außerdem das Modell mit Random Slope(s) mit REML, um diese miteinander vergleichen zu können.

Für die Hinzunahme einer Cross-Level-Interaktion zum Modell mit Random Slope (denn nur bei einer signifikanten Random Slope ist eine Cross-Level-Interaktion sinnvoll) sollte man wiederum ML verwenden, da es hier um einen Fixed Effect geht. D.h. man schätzt das Modell mit Random Slope(s) ein zweites Mal, diesmal mit ML, und außerdem das Modell mit Cross-Level-Interaktion mit ML.

Für den abschließenden Bericht der Ergebnisse empfiehlt sich, beide Verfahren anzuwenden. Auf jeden Fall sollten Sie REML anzuwenden, wenn neben den Fixed Effects auch die Varianzkomponenten relevant sind für Ihre Fragestellung. Häufig sind jedoch die Unterschiede in den Ergebnissen zwischen ML und REML nicht sehr groß. Wenn jedoch ein nennenswerter Unterschied zwischen beiden Schätzungen vorliegt, empfiehlt sich eher REML (Browne, 1998, zitiert nach Hox et al., 2017).

Hier noch einmal zusammengefasst in Listendarstellung:

Nullmodell REML: ICC
Nullmodell und Fixed Effects Modell ML: Fixed Effects signifikant?
Fixed Effects Modell und Random Slope REML: Random Slopes signifikant?
Random Slope und Cross-Level-Interaktion ML: Cross-Level-Interaktion signifikant?
Endgültiges Modell ML und REML: Wenn auch die Varianzkomponenten für Ihre Fragestellung relevant sind, eher REML

Das heißt im Ergebnis, dass man m.E. idealerweise jeden Modellschritt doppelt schätzt, einmal mit ML und einmal mit REML.

5. Quellen

Hox, J., Moerbeek, M., & Van de Schoot, R. (2017). Multilevel analysis: Techniques and applications. Routledge.