Hypothesenfindung Sekundärdatenanalyse
Ein Kurzleitfaden zur Recherche

Arndt Regorz, Dipl. Kfm. & BSc. Psychologie, Stand: 24.01.2020


Sekundärdatenanalysen sind sehr beliebte Themen vor allem für Bachelorarbeiten, z.B. in der Psychologie. Man kann damit einerseits eine empirische Arbeit schreiben, andererseits fallen einige zeitaufwändige Teilschritte weg (Fragebogen erstellen, Probanden finden, Warten auf ausreichenden Rücklauf). Das ist ein großer Vorteil bei der begrenzten Zeit, die man für eine Bachelorarbeit zur Verfügung hat.

Eine der größten Herausforderungen für eine Sekundärdatenanalyse ist die Hypothesenfindung. Dieses Tutorial zeigt für verschiedene denkbare Aufgabenstellungen bei Sekundärdatenanalysen einen möglichen Weg auf, wie man relativ schnell Forschungsfragestellungen recherchieren kann. Das erfolgt zwar am Beispiel des Fachs Psychologie, dieses Vorgehen ist im Prinzip aber auch auf andere sozialwissenschaftliche Fragestellungen übertragbar.

Der im Folgenden dargestellte Suchweg basiert stark auf empirischen Arbeiten, um sich von diesen dann im nächsten Schritt der relevanten Theorie zu nähern. Daneben ist auch ein primär theoriegeleitetes Herangehen möglich.

Inhalt

  1. Mögliche Fragestellungen
  2. Forschungslücke
  3. Basis: Datensatzbeschreibung
  4. Thema: Prädiktoren von X
  5. Thema: Auswirkungen von X
  6. Thema: Mediator für X und Y
  7. Thema: Moderator für X und Y
  8. Thema: Zusammenhang von X, Y und Z
  9. Thema: X
  10. Wofür entscheiden?
  11. Datensatz vor Hypothesenfestlegung
  12. Theoriebasiertes Vorgehen

1. Mögliche Fragestellungen

Es gibt nicht DIE Sekundärdatenanalyse. Ein Prüfer kann auf Basis eines Datenbestandes sehr unterschiedliche Aufgabenstellungen für eine Bachelorarbeit vorgeben. Im Rahmen dieses Tutorials werden eine Reihe von denkbaren Prüfungsfragestellungen vorgestellt (die Buchstaben stehen dabei jeweils für irgendein inhaltliches Konstrukt):

  • Prädiktoren von X (z.B. „Prädiktoren von Sexismus“)
  • Auswirkungen von X (z.B. „Auswirkungen von Sexismus“)
  • Mediator für X und Y (z.B. „Wie wird der Zusammenhang zwischen Sexismus und psychischer Gesundheit von Frauen vermittelt?“)
  • Moderator für X und Y (z.B. „Wovon wird der Zusammenhang zwischen Sexismus und psychischer Gesundheit von Frauen moderiert?“)
  • Zusammenhang von X, Y und Z (z.B. „Wie hängen Sexismus, Coping-Strategien und psychische Gesundheit von Frauen zusammen?“)
  • X (nur Thema/Konstrukt vorgegeben, z.B. „Sexismus“)

Diese Liste ist nicht abschließend, es sind noch weitere Fragestellungen im Rahmen einer Sekundärdatenanalyse möglich. Dennoch hoffe ich, dass Ihnen auch für andere Fragestellungen nach den hier vorgestellten Recherchestrategien ein wenig klarer ist, wie Sie dort zu Hypothesen kommen können.

2. Forschungslücke

Häufig ist eine Anforderung bei der Hypothesenfindung, dass man eine Forschungslücke finden soll. Es geht dann bei einer Sekundärdatenanalyse nicht nur darum, eine inhaltlich sinnvolle Fragestellung zu finden, die man mit dem Datensatz beantworten kann. Sondern es soll auch noch etwas neues sein.

Das ist für eine Bachelorarbeit ein sehr hoher Standard. Jedoch wird in der Regel auch nicht zu viel erwartet. Das Maß an Neuheit, das die Fragestellung einer Bachelorarbeit aufweisen muss, ist deutlich niedriger als z.B. bei einer Dissertation u.ä.

Hinweise, wie man eine Forschungslücke findet und begründet, können Sie in meinem entsprechenden Tutorial Forschungslücken finden nachlesen. Dort steht Ihnen auch eine entsprechende Checkliste zur Verfügung.

3. Basis: Datensatzbeschreibung

Die Grundlage für die Hypothesenfindung bei der Sekundärdatenanalyse bildet die Datensatzbeschreibung. Die Datensatzbeschreibung bekommen Sie normalerweise nach der Themenvergabe vom Prüfer.

Sie können bei einer Sekundärdatenanalyse nur diejenigen Konstrukte untersuchen, für die Ihnen auch entsprechende Daten zur Verfügung stehen. Insofern ist es empfehlenswert, zunächst anhand der Datensatzbeschreibung eine Liste aller in den Daten enthaltenen Informationen zu erstellen: damit Sie sich nicht bei Ihrer Recherche mit Theorien oder Fragestellungen intensiv befassen, die Sie am Ende mit Ihren Daten gar nicht prüfen können. Das betrifft zum einen inhaltliche Konstrukte, zum anderen aber auch weitere Informationen, z.B. soziodemographische Daten (Alter, Geschlecht usw.).

Diese Liste der enthaltenen Informationen ist dann die Basis für Ihre Literaturrecherche. Hier empfiehlt es sich, bei deutschen Begriffen die englischsprachigen Entsprechungen aufzuführen und auch eventuelle englischsprachige Synonyme. Das sind dann die Begriffe, die Sie in den entsprechenden Literaturdatenbanken für Ihre Recherche verwenden.

Im Folgenden werden für verschiedene mögliche Themenstellungen einfache Recherchestrategien aufgezeigt.

4. Prädiktoren von X

Bei einer der einfachsten und offensten Fragestellungen für eine Sekundärdatenanalyse wird Ihnen lediglich ein Zielkonstrukt vorgegeben, für das Sie dann Prädiktoren suchen müssen. Also z.B. „Prädiktoren von Sexismus“.

In diesem Fall können Sie dann die Liste der im Datensatz enthaltenen Konstrukte aus der Datensatzbeschreibung nehmen und in den entsprechenden Literaturdatenbanken jeweils nach den Kombinationen aus dem Zielkonstrukt und den einzelnen Konstrukten aus dem Datensatz suchen.

Also im o.g. Beispiel z.B. als Suchbegriffe:

  • sexism, age
  • sexism, (sex OR gender)
  • sexism, [erstes inhaltliches Konstrukt aus dem Datensatz]
  • sexism, [zweites inhaltliches Konstrukt aus dem Datensatz]
  • usw.

5. Auswirkungen von X

Statt der Suche nach einem Prädiktor für das Zielkonstrukt kann die Aufgabe auch darin bestehen, eine Konsequenz des Zielkonstrukts zu finden. Also z.B. „Auswirkungen von Sexismus“.

Die Suchstrategie gleicht dabei stark dem vorherigen Abschnitt. Sie suchen also wieder nach Kombinationen aus Ihrem Zielkonstrukt und den im Datensatz enthaltenen Konstrukten.

Jedoch gibt es einen wesentlichen Unterschied: Während so ziemlich jedes Konstrukt, einschließlich soziodemographischer Merkmale, aus dem Datensatz als Prädiktor für Ihr Zielkonstrukt in Frage kommen kann, müssen Sie bei den Auswirkungen eines Zielkonstrukts weniger Konstrukte untersuchen. Denn als Auswirkung kommt nur ein Konstrukt in Frage, das überhaupt prinzipiell änderbar ist. Damit scheiden einige soziodemographische Merkmale aus, wie Alter oder Geschlecht. Denn dass z.B. Sexismus das Alter oder das Geschlecht einer Person ändert, ist keine sehr sinnvolle Hypothese.

Also im o.g. Beispiel z.B. als Suchbegriffe:

  • sexism, [erstes inhaltliches Konstrukt aus dem Datensatz]
  • sexism, [zweites inhaltliches Konstrukt aus dem Datensatz]
  • usw.

6. Mediator für X und Y

Bei dieser Fragestellung wird Ihnen nicht nur ein Zielkonstrukt vorgegeben, sondern zwei: Eine theoretisch unabhängige und eine theoretisch abhängige Variable. Und Sie müssen jetzt den Zusammenhang dieser beiden Variablen untersuchen und einen möglichen Mediator ableiten, der diesen Zusammenhang vermittelt. Also z.B. „Wie wird der Zusammenhang zwischen Sexismus und psychischer Gesundheit von Frauen vermittelt?“

Für den gesuchten Mediator kommen nicht alle Konstrukte aus dem Datensatz in Frage. Wie im vorherigen Abschnitt muss nämlich der gesuchte Mediator eine Variable sein, die prinzipiell durch die unabhängige Variable beeinflusst werden kann. Wieder scheiden also beispielsweise Alter oder Geschlecht aus.

Die Suchstrategie hier ist die Nennung der beiden Zielkonstrukte (UV, AV) und eines Suchbegriffs, der Mediation anzeigt, sowie jeweils eines Konstrukts aus dem Datensatz.

Also im o.g. Beispiel z.B. als Suchbegriffe:

  • sexism, "mental health", mediator, [erstes inhaltliches Konstrukt aus dem Datensatz]
  • sexism, "mental health", mediator, [zweites inhaltliches Konstrukt aus dem Datensatz]
  • usw.

(analog mit den Suchbegriffen mediation und indirect effect )

Wenn man auf diesem Weg für alle Datensatzkonstrukte nicht fündig wird, weil u.U. noch gar keine Studien zu einer Mediation zwischen den beiden Zielkonstrukten durchgeführt worden sind, müssen Sie die Suche ausdehnen.

Dann führen Sie getrennt für die beiden Zielkonstrukte je eine Suche nach Variablen durch, die mit diesen verbunden sind. Das Ziel ist dabei, eine Variable zu finden, die sowohl mit dem einen als auch mit dem anderen Konstrukt verbunden ist und die als Mediator taugt (also prinzipiell von der unabhängigen Variable veränderbar ist).

Also z.B.:
Suche 1: sexism, [erstes inhaltliches Konstrukt aus dem Datensatz]
Suche 2: "mental health", [erstes inhaltliches Konstrukt aus dem Datensatz]
usw.

Wenn man in beiden Suchen mit dem gleichen Konstrukt fündig wird, dann könnte das verwendete inhaltliche Konstrukt als Mediator in Frage kommen, wobei es natürlich auch noch inhaltlich/theoretisch passen müsste.

Soweit Sie sich noch etwas unsicher hinsichtlich des Themas Mediation fühlen, können Sie das Thema in meinem Tutorial Mediatoranalyse wiederholen.

7. Moderator für X und Y

Bei dieser Fragestellung wird Ihnen ebenfalls nicht nur ein Zielkonstrukt vorgegeben, sondern zwei: Eine theoretisch unabhängige und eine theoretisch abhängige Variable. Jetzt müssen Sie den Zusammenhang dieser beiden Variablen untersuchen und einen möglichen Moderator finden, der die Stärke des Zusammenhangs der beiden Variablen beeinflusst. Also z.B. „Wovon wird der Zusammenhang zwischen Sexismus und psychischer Gesundheit von Frauen moderiert?“

Hier können grundsätzlich alles Konstrukte des Datensatzes in Frage kommen, auch soziodemographische Variablen.

Die Suchstrategie hier ist die Nennung der beiden Zielkonstrukte (UV, AV) sowie eines Suchbegriffs, der Moderation anzeigt, sowie jeweils eines Konstrukts aus dem Datensatz.

Also im o.g. Beispiel z.B.:

  • sexism, "mental health", moderation, age
  • sexism, "mental health", moderation, (sex OR gender)
  • sexism, "mental health", moderation, [erstes inhaltliches Konstrukt aus dem Datensatz]
  • sexism, "mental health", moderation, [zweites inhaltliches Konstrukt aus dem Datensatz]
  • usw.

(analog mit den Suchbegriffen moderator und interaction )

Soweit Sie sich noch etwas unsicher hinsichtlich des Themas Moderation fühlen, können Sie das Thema in meinem Tutorial Moderatoranalyse wiederholen.

8. Zusammenhang von X, Y und Z

Im Gegensatz zu den vorherigen Aufgabenstellungen werden hier drei Konstrukte vorgegeben. Die Aufgabe besteht dann nicht darin, noch ein weiteres verbundenes Konstrukt zu finden, sondern eine Hypothese über die Beziehung zwischen den drei Konstrukten aufzustellen. Ein Beispielthema wäre „Wie hängen Sexismus, Coping-Strategien und psychische Gesundheit von Frauen zusammen?“

Dabei können zwei der Konstrukte gemeinsam das dritte vorhersagen, eines der drei könnte ein Mediator sein oder eines der drei könnte ein Moderator sein. Es gibt zwar prinzipiell noch weiter Möglichkeiten (z.B. Supressoreffekte), aber die drei genannten Beziehungen dürften in der Regel am ehesten zu einer Fragestellung führen.

Die einfachste Suche ist nach allen drei Suchbegriffen gemeinsam, also im o.g. Beispiel:
sexism, "mental health", coping

Bei der Analyse der Suchergebnisse ist vor allem ein Schwergewicht darauf zu legen, welches Konstrukt üblicherweise als unabhängige Variable und welche als abhängige Variable untersucht wird. Auch bringen die Suchergebnisse in der Regel gute Hinweise auf die relevante theoretische Literatur für den Zusammenhang der drei Konstrukte.

Im nächsten Schritt bietet es sich an, nach Moderations- oder Mediationsuntersuchungen zu suchen, also im o.g. Beispiel:
sexism, "mental health", coping, (moderation OR moderator OR interaction)
sexism, "mental health", coping, (mediation OR mediator OR „indirect effect“)

9. X

Eine extrem breite Fragestellung für eine Sekundärdatenanalyse ist der Fall, wenn einfach nur ein Konstrukt als Thema vorgegeben ist. Z.B. „Sexismus“.

In diesem Fall bietet es sich an, mit den ersten beiden Aufgabenstellungen oben zu starten, also mit:
Was sind Prädiktoren von Sexismus?
Was sind Auswirkungen von Sexismus?
Sie verwenden dann also einfach die Suchstrategien, die zu diesen beiden Aufgabentypen weiter oben beschrieben worden sind.

10. Wofür entscheiden?

In aller Regel werden Sie für verschiedene Suchkombinationen Treffer finden. Für welche Themenstellung sollten Sie jetzt tiefer in die Analyse und Lektüre (empirisch und theoretisch) einsteigen?

Aus meiner Sicht sind für eine Bachelorarbeit am vielversprechensten diejenigen Fragestellungen, zu denen es bereits einige wenige empirische Studien gibt.

Wenn es nämlich schon sehr viele empirische Ergebnisse geben sollte, dann wird es schwieriger, eine Forschungslücke aufzuzeigen, also eine (relativ) neue Frage zu klären.

Wenn es jedoch so gut wie gar nichts zu einer Fragestellung publiziert worden ist, dann entstehen häufig zwei Probleme: Es kann ein Zeichen dafür sein, dass es möglicherweise eben keinen Zusammenhang für diese Fragestellung gibt. Und es ist dann gleichzeitig meistens auch schwieriger, diese Fragestellung aus der theoretischen und empirischen Literatur herzuleiten.

11. Datensatz vor Hypothesenfestlegung

Die o.g. Recherchestrategien setzen lediglich die Datensatzbeschreibung voraus. Das ist auch häufig das einzige, das Sie vor Festlegung und ggf. Präregistrierung Ihrer Hypothesen bekommen werden.

Jedoch kann es vereinzelt auch vorkommen, dass Sie schon zu Beginn den vollständigen Datensatz erhalten, den Sie auswerten sollen. Das gibt Ihnen im Prinzip eine weitere mögliche Suchstrategie: Sie können zunächst einmal im Datensatz nachsehen, welche Zusammenhänge es zwischen den verschiedenen Items dort gibt.

Das hat einerseits den Vorteil, dass Sie Ihre Recherchezeit u.U. abkürzen können und dass der Diskussionsteil leichter wird. Eine Diskussion erwarteter signifikanter Ergebnisse ist meistens einfacher als eine Diskussion von Ergebnissen, die überhaupt nicht zur Hypothese passen.

Andererseits widerspricht so ein Vorgehen recht deutlich dem Sinn einer hypothesenprüfenden Forschung, bei der man erst Hypothesen aufstellt und sie dann mit den Daten prüft. Das müssen Sie für sich bei der Frage abwägen, ob Sie diese „Abkürzung“ nutzen. Wenn Sie es tun, sollte Ihnen aber zumindest diese Problematik bewusst sein. (Aus diesem Grund würde ich auch generell äußerst misstrauisch gegenüber in der Literatur veröffentlichter Sekundärdatenanalysen sein. Man weiß nie wirklich, wie die zu Stande gekommen sind.) Und Sie dürfen natürlich Ihre Hypothesen nicht damit begründen, dass Sie in den Daten signifikante Zusammenhänge gefunden haben - die Hypothesen müssen auch in diesem Fall aus der Literatur abgeleitet werden.

12. Theoriebasiertes Vorgehen

Der oben vorgestellte Rechercheansatz beruht stark auf der Suche nach empirischen Studien. Zwar ist es auch dabei sinnvoll, zu Beginn ein paar Überblicksartikel durchzulesen. Die zugrunde liegenden Theorien werden aber primär im Theorieteil der gefundenen empirischen Studien identifiziert und mit den dort genannten theoretischen Arbeiten weiter aufgeklärt.

Stattdessen ist auch ein primär theoriegetriebener Rechercheansatz möglich. Sie suchen dabei zunächst nach theoretischen Artikeln und Literature Reviews zu Ihrem übergeordneten Thema und erst später dann empirische Arbeiten. Das gibt zunächst einen besseren Gesamtüberblick über die Theorien zur Thematik. Allerdings beschäftigt man sich dann u.U. auch mit Theorien, die man mit den vorliegenden Sekundärdaten gar nicht überprüfen kann. Insofern vermute ich, dass das o.g. Vorgehen mit der Suche nach empirischen Arbeiten in vielen Fällen zumindest das schnellere und effektivere ist.


Wie kann ich Sie weiter unterstützen?

Beratung für Datenauswertung bei Bachelorarbeit oder Masterarbeit

Welche Auswertungen sind für Ihre Fragestellung richtig und was müssen Sie dabei beachten? Schon in einer Stunde (Telefon/Skype/vor Ort) kann man viele Fragen klären. Auf meiner Seite zu Statistik-Beratung finden Sie weitere Informationen.