Arbeiten mit dem Analyseverfahren Regression

Veröffentlicht am 11.11.2020 von Jennifer Schröder

Die mathematischen Instrumente in Verbindung mit der Regression haben eine uralte Tradition, weil sie bereits zur Bestimmung der Planetenlaufbahnen mit Daten aus astronomischen Beobachtungen verwendet wurden. Die von Carl Gauß 1809 veröffentlichte Methode der kleinsten Quadrate gilt als Grundlage der Regressionsanalyse. Durch die Weiterentwicklung und dem frühen Einsatz im Gebiet der Biologie und Geologie, beschäftigen sich mittlerweile zahlreiche verschiedene Forscher mit dem Verfahren der Regression.

Mit der Regressionsanalyse testest du, ob ein Zusammenhang zwischen den Werten von zwei oder mehreren Variablen besteht: z. B. zwischen dem Gewicht und der Größe einer Person. Betrachten wir die Regressionsanalyse in diesem Artikel von Studi-Kompass!

Was ist Regressionsanalyse?

Bei einer Regressionsanalyse handelt sich um statistische Verfahren, um Auskunft über die Beziehungen zwischen unterschiedlichen abhängigen und unabhängigen Variablen zu erhalten. Damit lassen sich ebenfalls Zusammenhänge direkt in einem Datensatz beschreiben, einer Analyse unterziehen und Prognosen, bzw. Vorhersagen treffen. Regressionsanalysen zählen zu den multivariaten Analysemethoden und werden unter anderem in der Wissenschaft, Statistik oder Finanzwesen eingesetzt. Sogar beim Online-Marketing werden mittels dieser Methode beispielsweise Kosten und Umsätze von Produkten, Kampagnen, Kanälen und Werbemitteln nach einer eingehenden Analyse vorhergesagt.

Verwendung der Regressionsanalyse

Es gibt drei wesentliche Gründe, um eine Regressionsanalyse durchzuführen:

Du möchtest die Stärke des Zusammenhangs zwischen zwei Variablen herausfinden.

Beispiel:

Wie groß ist ist der Zusammenhang zwischen der Größe und dem Gewicht einer Person?
Wie groß ist der Zusammenhang zwischen dem Alter und dem Wert eines Autos?

Wenn sich der Wert der erklärenden Variablen verändert, möchtest du die Veränderung der abhängigen Variablen voraussagen können.

Beispiel:

Inwiefern verändert sich das Gewicht, wenn sich die Größe einer Person verändert?
Inwiefern verändert sich der Wert eines PC, wenn sich das Alter des PC ändert?

Du möchtest einen Wert voraussagen können.

Voraussetzungen für die Regressionsanalyse

Für gültige Ergebnisse müssen diese statistischen Voraussetzungen, die sogenannten Gauss-Markov-Annahmen erfüllt sein:

Als Basis muss eine lineare Beziehung zwischen der erklärenden und der abhängigen Variablen vorliegen.
Aufgrund einer Zufallsstichprobe wurden die Daten aus der Grundgesamtheit genommen.
Die Regressionsanalyse schließt unabhängige Variablen mit ein, die keine lineare Beziehung aufweisen dürfen.
Entsprechend der Exogenität beträgt der erwartete Wert des Fehlers 0.
Die sogenannte Homoskedastizität setzt voraus, dass für die Anzahl aller Werte der erklärenden Variablen die Varianz des Fehlerwertes gleich ist.

Formen von Regressionsanalyse

Lineare Regression

Es gibt einen linearen Zusammenhang zwischen mehreren erklärenden und abhängigen Variablen, bzw. lineare Parameter ergeben eine Struktur. Um den Effekt dieser Variablen auf eine abhängige Variable zu testen, kannst du die lineare Regressionsanalyse anwenden.

Beispiel:
Du möchtest den Zusammenhang zwischen dem Gewicht (abhängige Variable Y) und der Größe erklärende Variable X) einer Person vorhersagen oder erklären. Verwende dafür diese Gleichung:

Y = α + βX + u

α - Der Interzept (Achsenabschnitt): Startpunkt der Regressionsanalyse, die Konstante. Es existiert auf jeden Fall ein Basisgewicht, auch wenn die Größe 0 cm beträgt.

β - Der Regressionskoeffizient: Gibt die durchschnittliche Zunahme der abhängigen Variable Gewicht (Y) wieder, wenn sich die erklärende Variable Größe (X) um einen Zentimeter erhöht.

u - Der Fehlerwert: Teil der abhängigen Variablen, der sich nicht durch die unabhängige Variable berechnen lässt.

Multiple (lineare) Regression

Sie wird auch „mehrfache Regressionsanalyse“ genannt und erweitert die einfache Regression. Unter der Verwendung von zwei oder mehreren erklärenden Variablen soll die abhängige Variable (Y) vorhergesagt oder erklärt werden.

Beispiel:
Ergänzend zur Größe möchtest du die Variable Geschlecht verwenden, damit sich das Gewicht einer Person erklären lässt. Dafür musst du die zweite Variable (X2) hinzufügen und erhältst diese Regressionsgleichung:

Υ = α + β1X1 + β2X2 + u

Ein zweiter Regressionskoeffizient (β) beschreibt die erklärende Variable Geschlecht.

Logistische Regression

Diese multinomiale logistische Regression wird verwendet, wenn es sich um eine nominalskalierte, abhängige Variable mit mehr als zwei Kategorien handelt. Falls die abhängige Variable ordinalskaliert sein sollte und über mehr als zwei Kategorien verfügt, kann eine ordinale logistische Regression berechnet werden.

Multivariate Regression

Damit lässt sich überprüfen, ob dein das von dir formulierte Regressionsmodell zu der Struktur deines Datensatzes passt. Mit diesem Verfahren lassen sich Muster in deinen Daten aufspüren, die du mit der univariaten linearen Regression nicht gefunden hättest. Oft wird die multivariate Regression mit der multivariablen, multiplen (mehrere UVs) oder der multinominalen logistischen Regression gleichgesetzt.

Regressionsanalyse mit SPSS und Excel

SPSS
Lade dir die entsprechende Datei herunter und du kannst die einfache lineare Regressionsanalyse selbst durchführen. Klicke im Menü auf:

Analysieren
Regression
Linear

Im geöffneten Fenster lässt sich die Variable Gewicht in das Feld Abhängige Variable und die Variable Größe in das Feld Unabhängige Variable(n) verschieben. Jetzt nur noch auf OK klicken.

Excel
Einfach nur die Excel-Datei herunterladen, inklusive dem Analyse-Add-In, um mit denselben Daten Übungen durchzuführen. Gehe im Menü auf:

Extras
Excel-Add-Ins
Wähle die Analyse-Funktionen aus

Zur Durchführung der Regressionsanalyse klickst du auf:

Daten
Datenanalyse (rechtes äußerstes Feld)
Regression

Input Y Range: Wähle die Daten der abhängigen Variable Y - Gewicht aus, inklusive dem Namen der Spalte.

Input X Range: Wähle die Daten der erklärenden Variable X – Größe aus, ebenfalls inklusive Namen der Spalte.

Klick auf Labels und gib an, dass die oberste Zelle den Namen der Variablen angibt. Zur Berechnung einer multiplen Regression gehören die Zellen für die Variable Größe und Alter ins Feld Input X Range. Nun kannst du unter dem Output Options New Worksheet Ply wählen, um dir die Ergebnisse in einem neuen Arbeitsblatt anzeigen zu lassen. Klick auf OK!

Interpretation der Ergebnisse

Das Ergebnis besteht aus drei Aspekten:

Zusammenfassung des Modells
ANOVA (Analysis of Variance)
Koeffizienten

Modellzusammenfassung
Damit wird dir mit dem Korrelationskoeffizienten (R) die Stärke des Zusammenhangs und der Wert des Determinationskoeffizienten angegeben. Der Determinationskoeffizient gibt an, wie stark die erklärende Variable die Varianz der abhängigen Variablen erklärt. Der Koeffizient 1 steht für das beste Modell, denn dadurch könnte die gesamte Varianz der abhängigen Variablen durch die unabhängige Variable erklärt werden. Wenn du nun den Wert von R-Quadrat mit 100 multiplizierst, bekommst du einen Prozent-Wert. Beispielsweise sagt dir ein R-Quadrat 0,826 dass die Variable Größe von 82,6% dem Gewicht einer Person zuzuordnen ist.

ANOVA
ANOVA testet, wie signifikant das Regressionsmodell ist. Die Ergebnisse geben Aufschluss über die Wahrscheinlichkeit des Null-Wertes aller Regressionskoeffizienten und dass dadurch das Resultat der Regressionsanalyse eher zufällig entstanden ist.

Beispielformulierungen für die Regressionsanalyse

Fasse die Ergebnisse der Regressionsanalyse im Ergebniskapitel deiner Arbeit zusammen, wobei du auf alle Fälle erwähnen solltest:

dein Regressionsmodell (R2 oder R-Quadrat) mit der erklärten Varianz
den F-Wert und wie signifikant dein Regressionsmodell und der Regressionskoeffizienten mit seiner Signifikanz ist.

Um die Ergebnisse zusammenzufassen, wären diese Sätze geeignet:

Die einfache lineare Regression, die das Gewicht als abhängige und Größe als erklärende Variable verwendet, ist signifikant, F (1,28) = 132,86, p < 0,001.
82,6% der Varianz von Gewicht lässt sich mit der Variable Größe erklären. Der Regressionskoeffizient der Variable Größe liegt bei 0,996 und ist signifikant (t (28) = 11,53; p < ,001).
Ein signifikanter Prädiktor für Gewicht ist die Größe, wobei die Zunahme an Gewicht auf 996 Gramm pro Zentimeter geschätzt wird (β = 0,996; t (28) = 11,53; p < 0,001).
Ein signifikanter Anteil der Varianz von Gewicht erklärt sich durch die Größe (R2=, 826; F (1,28) = 132,86, p < 0,001).

Du hast schon abgestimmt. Danke! like-dislike confetti

War dieser Artikel hilfreich?

Jennifer Schröder

Jenni hat ihr Bachelorstudium mit Diplom Sozialpädagogin und Erzieherin abgeschlossen. Während des Studiums hat sie viel Erfahrung im Schreiben von wissenschaftlichen Arbeiten gesammelt und schreibt regelmäßig auf unserem Blog darüber. Jennifer gibt den Studenten nützliche Tipps, die ihr Studium erleichtern können.