PLS SEM mit R / seminr 2:
Reflektives Messmodell beurteilen

Arndt Regorz, Dipl. Kfm. & MSc. Psychologie, 30.11.2023

Bevor man ein PLS SEM Modell interpretieren kann, muss man die Modellgüte beurteilen, unter anderem auch die Güte des Messmodells. Um die Güte eines reflektiv spezifizierten Messmodells mit partial least squares (PLS) SEM zu beurteilen, prüft man drei verschiedene Bereiche:

Reliabilität
Konvergente Validität
Divergente Validität

Die nachfolgenden Empfehlungen zur Prüfung dieser drei Bereiche beruhen vor allem auf Hair et al. (2019).

Reliabilität

Zur Prüfung der Reliabilität gibt es im Wesentlichen zwei Kennzahlen: Die Composite Reliabilität (composite reliability) und Cronbachs Alpha.

Dabei führt Cronbachs Alpha eher zu einer leichten Unterschätzung des wahren Wertes der Reliabilität, während die Composite Reliabilität den wahren Wert tendenziell überschätzen kann. Wenn man nur einen der beiden Werte betrachten will, dann eher die Composite Reliabität, aber sinnvoll ist es, beide Kennzahlen heranzuziehen.

Die Werte sollten möglichst über .70 liegen. Werte über .95 hingegen könnten auf eine zu starke Redundanz der Items hindeuten und sind potentiell problematisch.

In R erhalten Sie die Reliabilität, indem Sie die summary() Funktion für das Ergebnis Ihrer Modellschätzung aufrufen. Im Basistutorial zu PLS SEM mit R (PLS SEM: Modellschätzung mit R / seminr) hatten wir ein SEM mit reflektivem Messmodell geschätzt und als Ergebnis ein Objekt poldem_pls erhalten.

summary(poldem_pls)

Als Teil des Outputs erhalten wir:

Reliability:
alpha rhoC AVE rhoA
indus 0.944 0.945 0.853 0.954
dem60 0.870 0.873 0.634 0.882
dem65 0.885 0.885 0.658 0.886

Alpha, rhoC, and rhoA should exceed 0.7 while AVE should exceed 0.5

Cronbachs Alpha ist in der ersten Spalte und liegt für alle drei Konstrukte deutlich über .70. Die Composite Reliabilität (rhoC) liegt ganz nah an diesen Werten und ebenfalls deutlich über .70.

rhoA ist noch ein drittes Reliabilitätsmaß, das häufig zwischen Alpha und der Composite Reliabilität liegt und insofern als Kompromiss zwischen beiden genommen werden kann. AVE hingegen ist ein Validitätsmaß, dazu kommen wir im nächsten Abschnitt bei der Betrachtung der konvergenten Validität.

Die Reliabilität ist hier im Beispiel also gegeben.

Konvergente Validität

Für die konvergente Validität möchten wir wissen, ob eine Messung positiv mit alternativen Messungen desselben Konstrukts zusammenhängt. Dafür betrachtet man vor allem die durchschnittlich extrahierte Varianz (AVE), die über .50 liegen sollte.

Außerdem wird manchmal noch die sog. Indikatorreliabilität betrachtet (wobei Hair et al, 2019, diese nicht mehr aufführen). Die Indikatorreliabilität sehen wir an den äußeren Ladungen. Diese sollten idealerweise größer als .70 (bzw. genauer: größer als .708 – denn dann würde das Konstrukt mehr als 50% der Varianz des Indikators erklären, denn .708 x .708 = .50) sein. Indikatoren mit Ladungen zwischen .40 und .70 würde man dann eliminieren, wenn ohne den Indikator die Composite Reliabilität besser wird. Indikatoren mit Ladungen unter .40 würde man eigentlich immer eliminieren.

Die AVE hatten wir bereits oben als Teil der Summary erhalten, hier nochmals der Aufruf:

summary(poldem_pls)

Als Teil des Outputs erhalten wir:

Reliability:
alpha rhoC AVE rhoA
indus 0.944 0.945 0.853 0.954
dem60 0.870 0.873 0.634 0.882
dem65 0.885 0.885 0.658 0.886

Alpha, rhoC, and rhoA should exceed 0.7 while AVE should exceed 0.5

In der dritten Spalte sehen wir die AVE. Alle Werte sind höher als. .50.

Die äußeren Ladungen kann man mit dem seminr Modul so anfordern, wieder auf Basis des Fit-Objekts (in meinem Beispiel poldem_pls):

summary(poldem_pls)$loadings

Als Output erhalten wir:

indus dem60 dem65
x1 0.992 0.000 0.000
x2 0.962 0.000 0.000
x3 0.807 0.000 0.000
y1 0.000 0.848 0.000
y2 0.000 0.727 0.000
y3 0.000 0.695 0.000
y4 0.000 0.897 0.000
y5 0.000 0.000 0.832
y6 0.000 0.000 0.771
y7 0.000 0.000 0.817
y8 0.000 0.000 0.823

Mit einer Ausnahme sind alle Ladungen über .70. Die einzige Ausnahme ist y3 und liegt nur minimal unter .70 (bzw. gerundet auf zwei Nachkommastellen bei genau .70). Hier würde ich – entgegen der o.g. Faustregel - in der Praxis vermutlich nicht einmal prüfen, ob ein Wegfall des Items zu einer besseren Composite Reliabilität führt, sondern das Item auf jeden Fall im Modell belassen.

Damit würde ich in diesem Beispiel von konvergenter Validität ausgehen.

Diskriminante Validität

Bei der Prüfung der diskriminanten Validität geht es um die Frage, wie stark sich das Konstrukt von anderen Konstrukten unterscheidet. Der Zusammenhang zwischen Indikatoren inhaltlich unterschiedlicher Konstrukte sollte kleiner sein als zwischen Indikatoren des gleichen Konstrukts.

Früher hat man hierzu Kriterien wie das Fornell-Larcker-Kriterium und die Kreuzladung verwendet. Inzwischen betrachtet man das HTMT-Verhältnis (Hetereotrait-monotrait). Dabei teilt man die Korrelation zwischen Indikatoren unterschiedlicher Konstrukte durch die Korrelation zwischen Indikatoren des gleichen Konstrukts. Das Ergebnis sollte nicht zu hoch sein. Werte über .90 (für konzeptionell ähnliche Konstrukte) oder über .85 (für konzeptionell unterschiedliche Konstrukte) deuten auf einen Mangel an Diskriminanzvalidität.

Neben der Betrachtung dieser Kennzahl betrachtet man häufig noch ein (i.d.R. einseitiges) 95%-Konfidenzintervall für die HTMT-Statistik. Dieses sollte für keine Konstruktkombination den Wert von 1 enthalten.

Das HTMT-Verhältnis bekommen wir in seminr über:

summary(poldem_pls)$validity

Als Teil des Outputs ergibt sich:

$htmt
indus dem60 dem65
indus . . .
dem60 0.434 . .
dem65 0.556 0.982 .

Der Wert für die beiden Variablen dem60 und dem65 ist hier mit .982 eigentlich zu hoch. Allerdings liegt hier ein Sonderfall vor, weil das zwei Messungen desselben Konstrukts zu verschiedenen Zeitpunkten ist. Dort kann man m.E. bereits theoretisch nicht von diskriminanter Validität ausgehen, da es sich eben nicht um die Messung zweier verschiedener Konstrukte handelt, sondern um die Messung des gleichen Konstrukts zu verschiedenen Zeitpunkten.

Die HTMT-Werte für unterschiedliche Konstrukte (indus-dem60, indus-dem65) liegen weit unter dem Cut-Off-Wert von .85, so dass hier diskriminante Validität vorliegt.

Zusätzlich können wir die Modellschätzung noch bootstrappen, um so auch Bootstrap Konfidenzintervalle für HTMT zu erhalten. Um ein einseitiges 95%-Konfidenzintervall zu erhalten, ruft man ein 90%-KI auf und betrachtet nur die resultierende Obergrenze.

poldem_pls_boot <- bootstrap_model(poldem_pls, boot = 10000) summary(poldem_pls_boot, alpha = 0.10)

Als Teil des Ergebnisses erhalten wir:

Bootstrapped HTMT:
Original Est. Bootstrap Mean Bootstrap SD 5% CI 95% CI
indus -> dem60 0.434 0.434 0.117 0.229 0.628
indus -> dem65 0.556 0.552 0.109 0.374 0.711
dem60 -> dem65 0.982 0.982 0.028 0.931 1.027

Wir sehen, dass mit Ausnahme des Verhältnisses dem60-dem65 die Konfidenzintervalle in den letzten beiden Spalten die 1 nicht umschließen.

Wir können also von hinreichender diskriminanter Validität ausgehen.

Literatur

Hair, J. F., Ringle, C. M., & Sarstedt, M. (2011). PLS-SEM: Indeed a silver bullet. Journal of Marketing Theory and Practice, 19(2), 139-152.

Hair, J. F., Risher, J. J., Sarstedt, M., & Ringle, C. M. (2019). When to use and how to report the results of PLS-SEM. European Business Review, 31(1), 2-24.

Weitere Tutorials

Weitere Tutorials zu PLS SEM mit R: