Mit der Regressionsanalyse testest du, ob ein Zusammenhang zwischen den Werten von zwei oder mehreren Variablen besteht: z. B. zwischen dem Gewicht und der Größe einer Person. Betrachten wir die Regressionsanalyse in diesem Artikel von Studi-Kompass!
Was ist Regressionsanalyse?
Bei einer Regressionsanalyse handelt sich um statistische Verfahren, um Auskunft über die Beziehungen zwischen unterschiedlichen abhängigen und unabhängigen Variablen zu erhalten. Damit lassen sich ebenfalls Zusammenhänge direkt in einem Datensatz beschreiben, einer Analyse unterziehen und Prognosen, bzw. Vorhersagen treffen. Regressionsanalysen zählen zu den multivariaten Analysemethoden und werden unter anderem in der Wissenschaft, Statistik oder Finanzwesen eingesetzt. Sogar beim Online-Marketing werden mittels dieser Methode beispielsweise Kosten und Umsätze von Produkten, Kampagnen, Kanälen und Werbemitteln nach einer eingehenden Analyse vorhergesagt.
Verwendung der Regressionsanalyse
Es gibt drei wesentliche Gründe, um eine Regressionsanalyse durchzuführen:
- Du möchtest die Stärke des Zusammenhangs zwischen zwei Variablen herausfinden.
- Wie groß ist ist der Zusammenhang zwischen der Größe und dem Gewicht einer Person?
- Wie groß ist der Zusammenhang zwischen dem Alter und dem Wert eines Autos?
- Wenn sich der Wert der erklärenden Variablen verändert, möchtest du die Veränderung der abhängigen Variablen voraussagen können.
- Inwiefern verändert sich das Gewicht, wenn sich die Größe einer Person verändert?
- Inwiefern verändert sich der Wert eines PC, wenn sich das Alter des PC ändert?
- Du möchtest einen Wert voraussagen können.
Voraussetzungen für die Regressionsanalyse
Für gültige Ergebnisse müssen diese statistischen Voraussetzungen, die sogenannten Gauss-Markov-Annahmen erfüllt sein:
- Als Basis muss eine lineare Beziehung zwischen der erklärenden und der abhängigen Variablen vorliegen.
- Aufgrund einer Zufallsstichprobe wurden die Daten aus der Grundgesamtheit genommen.
- Die Regressionsanalyse schließt unabhängige Variablen mit ein, die keine lineare Beziehung aufweisen dürfen.
- Entsprechend der Exogenität beträgt der erwartete Wert des Fehlers 0.
- Die sogenannte Homoskedastizität setzt voraus, dass für die Anzahl aller Werte der erklärenden Variablen die Varianz des Fehlerwertes gleich ist.
Formen von Regressionsanalyse
- Lineare Regression
Es gibt einen linearen Zusammenhang zwischen mehreren erklärenden und abhängigen Variablen, bzw. lineare Parameter ergeben eine Struktur. Um den Effekt dieser Variablen auf eine abhängige Variable zu testen, kannst du die lineare Regressionsanalyse anwenden.
Du möchtest den Zusammenhang zwischen dem Gewicht (abhängige Variable Y) und der Größe erklärende Variable X) einer Person vorhersagen oder erklären. Verwende dafür diese Gleichung:
α - Der Interzept (Achsenabschnitt): Startpunkt der Regressionsanalyse, die Konstante. Es existiert auf jeden Fall ein Basisgewicht, auch wenn die Größe 0 cm beträgt.
β - Der Regressionskoeffizient: Gibt die durchschnittliche Zunahme der abhängigen Variable Gewicht (Y) wieder, wenn sich die erklärende Variable Größe (X) um einen Zentimeter erhöht.
u - Der Fehlerwert: Teil der abhängigen Variablen, der sich nicht durch die unabhängige Variable berechnen lässt.
- Multiple (lineare) Regression
Sie wird auch „mehrfache Regressionsanalyse“ genannt und erweitert die einfache Regression. Unter der Verwendung von zwei oder mehreren erklärenden Variablen soll die abhängige Variable (Y) vorhergesagt oder erklärt werden.
Ergänzend zur Größe möchtest du die Variable Geschlecht verwenden, damit sich das Gewicht einer Person erklären lässt. Dafür musst du die zweite Variable (X2) hinzufügen und erhältst diese Regressionsgleichung:
Ein zweiter Regressionskoeffizient (β) beschreibt die erklärende Variable Geschlecht.
- Logistische Regression
- Multivariate Regression
Regressionsanalyse mit SPSS und Excel
SPSSLade dir die entsprechende Datei herunter und du kannst die einfache lineare Regressionsanalyse selbst durchführen. Klicke im Menü auf:
- Analysieren
- Regression
- Linear
Excel
Einfach nur die Excel-Datei herunterladen, inklusive dem Analyse-Add-In, um mit denselben Daten Übungen durchzuführen. Gehe im Menü auf:
- Extras
- Excel-Add-Ins
- Wähle die Analyse-Funktionen aus
- Daten
- Datenanalyse (rechtes äußerstes Feld)
- Regression
Input Y Range: Wähle die Daten der abhängigen Variable Y - Gewicht aus, inklusive dem Namen der Spalte.
Input X Range: Wähle die Daten der erklärenden Variable X – Größe aus, ebenfalls inklusive Namen der Spalte.
Klick auf Labels und gib an, dass die oberste Zelle den Namen der Variablen angibt. Zur Berechnung einer multiplen Regression gehören die Zellen für die Variable Größe und Alter ins Feld Input X Range. Nun kannst du unter dem Output Options New Worksheet Ply wählen, um dir die Ergebnisse in einem neuen Arbeitsblatt anzeigen zu lassen. Klick auf OK!
Interpretation der Ergebnisse
Das Ergebnis besteht aus drei Aspekten:
- Zusammenfassung des Modells
- ANOVA (Analysis of Variance)
- Koeffizienten
Damit wird dir mit dem Korrelationskoeffizienten (R) die Stärke des Zusammenhangs und der Wert des Determinationskoeffizienten angegeben. Der Determinationskoeffizient gibt an, wie stark die erklärende Variable die Varianz der abhängigen Variablen erklärt. Der Koeffizient 1 steht für das beste Modell, denn dadurch könnte die gesamte Varianz der abhängigen Variablen durch die unabhängige Variable erklärt werden. Wenn du nun den Wert von R-Quadrat mit 100 multiplizierst, bekommst du einen Prozent-Wert. Beispielsweise sagt dir ein R-Quadrat 0,826 dass die Variable Größe von 82,6% dem Gewicht einer Person zuzuordnen ist.
ANOVA
ANOVA testet, wie signifikant das Regressionsmodell ist. Die Ergebnisse geben Aufschluss über die Wahrscheinlichkeit des Null-Wertes aller Regressionskoeffizienten und dass dadurch das Resultat der Regressionsanalyse eher zufällig entstanden ist.
Beispielformulierungen für die Regressionsanalyse
Fasse die Ergebnisse der Regressionsanalyse im Ergebniskapitel deiner Arbeit zusammen, wobei du auf alle Fälle erwähnen solltest:
- dein Regressionsmodell (R2 oder R-Quadrat) mit der erklärten Varianz
- den F-Wert und wie signifikant dein Regressionsmodell und der Regressionskoeffizienten mit seiner Signifikanz ist.
- Die einfache lineare Regression, die das Gewicht als abhängige und Größe als erklärende Variable verwendet, ist signifikant, F (1,28) = 132,86, p < 0,001.
- 82,6% der Varianz von Gewicht lässt sich mit der Variable Größe erklären. Der Regressionskoeffizient der Variable Größe liegt bei 0,996 und ist signifikant (t (28) = 11,53; p < ,001).
- Ein signifikanter Prädiktor für Gewicht ist die Größe, wobei die Zunahme an Gewicht auf 996 Gramm pro Zentimeter geschätzt wird (β = 0,996; t (28) = 11,53; p < 0,001).
- Ein signifikanter Anteil der Varianz von Gewicht erklärt sich durch die Größe (R2=, 826; F (1,28) = 132,86, p < 0,001).