02 EBF Methoden Bootcamp

EBF Session 2

Harry Otter and the Regression Bootcamp

Dr. Edgar Treischl
FAU Nürnberg-Erlangen

Ablauf

Grundidee der linearen Regression
Interpretation und KQ Schätzung
Multivariate Analysen
Güte der Vorhersage: R²
Regression App

Online Linear Regression App

Die Online App dient also der Vertiefung der linearen Regression. Ist die App auf der nächsten Seite nicht sichtbar, kannst du Sie auch in einem neuen Fenster laden und an den enstprechenden Stellen im Online Modul darauf zurückgreifen.

Click to open in a new tab.

Die Grundidee der Regression

A dark cloud is rising!

😇

Was untersucht die EBF?

Einfluss von X auf die Noten (Kompetenzen) von Schülerinnen/Schüler (SuS)
Einfluss von X auf den Übergang (Ja/Nein) / Erreichen eines Schulabschlusses (Ja/Nein) von SuS
Einfluss der Ausgestaltung des Bildungssystems (Klassengröße, G8/G9) auf Y
(Kausale) Effekt von X auf Y

Große Eltern, große Kinder?

Francis Galton

Galton board

Source: R chipmunkcore package

Die Daten

Regressieren heißt zurückführen: Eine abhängige metrische Variable (AV wie bspw. Körpergröße, die Schulleistung, etc.) wird auf eine oder mehrere unabhängige Variable (UV wie die Körpergröße der Eltern) zurückgeführt (sprich: regressiert).

Der Zusammenhang zwischen der UV und der AV wird durch eine Funktionsgerade beschrieben. Wir tragen alle Werte der UV und der AV in einem Diagramm ab und legen eine Gerade in die Datenwolke, welche den Zusammenhang zwischen UV and AV möglichst präzise beschreibt.

Die Datenwolke

Welche Funktionsgerade?

Welche Funktionsgerade darf's denn sei?

Eine Funktionsgerade mit kleinem Fehler!

Wir halten fest:

Y Achsenabschnitt: Wo beginnt die Gerade?
Steigungskoeffizient: Wie steil oder flach verläuft die Gerade?
Fehlerterm (Residuum): Vorhersage ist nicht perfekt, wir machen also einen Fehler.

Zusammenfassung grafisch

Now you'll have to grit your teeth! 🙈

Interpretation und KQ Schätzung

kochrezept Interpretation

y = β° + β¹ x¹ + u

β°: Durchschnittlicher Wert der abhängigen Variable y, wenn alle anderen Einflussgrößen gleich 0 sind. (y-Achsensabschnitt oder Intercept)
β¹: Verändert sich die unabhängige Variable X um eine Einheit, so verändert sich die abhängige Variable um β1 Einheiten. (Steigung)
u: Fehlerterm (Residuum)

Beispiel Regressionsoutput

Interpretation grafisch

Sind die Effekte signifikant?

Now, it's your turn 🐍 !

Kannst Du mit der Online App und der Pisa-Datenstichprobe den Effekt der Klassengrösse (X) auf die Lesekompetenz (Y) vorhersagen und interpretieren?
(Reiter 3 Regression)

Grrr, next time you won't get off so easy 😉

Bei der Regression soll die Gerade den Funktionszusammenhang so gut wie möglich beschreiben. Hierfür nutzen wir den KQ Schätzer.

Die Gerade wird so durch die Punktewolke gelegt, dass die Summe der quadrierten Residuen möglichst klein ist. Hierfür wird die Methode der kleinsten Quadrate (KQ Schätzer) eingesetzt, häufig auch Ordinary Least Squares (OLS) genannt.

KQ Schätzer

Residuen werden dabei quadriert, weil …
... sich sonst positive und negative Abweichungen ausgleichen.
... stärkere Abweichungen stärker in die Berechnung einfließen sollen.

Der Erwartungswert der Residuen ist gleich 0, d.h. im Durchschnitt sind die Fehler 0: E(u)=0.

Math Wizardy: The Slope spell

Math Wizardy: The Intercept spell

That's the magic behind it 😆

Multivariate Analysen

Bivariate vs. multivariate Analysen
Funktionsgleichung wird mit weiteren Koeffizienten (Variablen) erweitert
Ceteris paribus (d.h. unter sonst gleichen Bedingungen): Der Einfluss von X auf Y kann unter Konstanthaltung weiterer Variablen berechnet werden

Spurious confounder

Identifikation eines kausalen Effekts....

mit Hilfe der Regression: Berechnung eines Effekts durch Kontrolle beobachteter Variablen, d.h. Kontrolle aller Variablen die sowohl den Treatmentstatus (X) beeinflussen und einen Einfluss auf die abhängige Variable haben
Hoffnung: Nach Kontrolle der Variablen ist die Zuweisung des Treatmentstatus X „so gut wie zufällig“ (CIA)

Merke:

Konditionale Unabhängigkeit (conditional independence assumption, CIA): Bei der Regression muss die Annahme getroffen werden, dass nach der Kontrolle der anderen unabhängigen Variablen die Verteilung der Einheiten über die Treatment- und Kontrollgruppe in Hinblick auf die abhängige Variable so gut wie zufällig erfolgt.

Time for the last battle!
😉

Wie gut ist unsere Vorhersage?

Oh sweetie, are you telling me that you never heard of R² before? 😉

R²

Die Güte der Vorhersage der Regression. Ein kurzer Auszug zum Nachlesen.

“In vielen Fällen ist die Vorhersage der Regression nicht perfekt, d.h. es werden Fehler gemacht. Es handelt dabei sich um die Differenz zwischen dem vorhergesagten Wert (der Gerade) und den beobachteten Werten.”

“ R-Quadrat ist ein Indikator, der uns hilft zu beurteilen, wie groß der Fehler ist oder wie gut das Modell die Zielvariable (Outcome) erklärt.”

“Um R-Quadrat zu verstehen, müssen wir zuerst die Gesamtvarianz (Streuung) von X und Y uns vorstellen. Nehmen wir an, dass X gar keinen Einfluss auf Y hat, dann wäre der Beta-Koeffizient und damit die Steigung der Geraden gleich 0. ”

“D.h. es ist egal welcher X-Wert vorliegt, wir würden immer den gleichen Y-Wert beobachten. Die Gerade wäre flach. Das einzige zur Verfügung stehende Mittel um Y vorherzusagen, wäre beispielsweise das arithmetische Mittel von X und dies ist der durchschnittliche Fehler. ”

“Aber wir haben im Online Tool ja bereits eine Regressionslinie angepasst. Auf Grundlage der beobachteten Werte von X können wir Y also bis zu einem gewissen Grad erklären. ”

“Wir kennen demnach die Gesamtvarianz und die erklärte Varianz. Mit diesen zwei Werten können wir R² berechnen und somit den Fehler des Modells bewerten. R² ist der Anteil (%) der Varianz von Y, der durch die Regression vorhersagbar ist. Also die erklärte Varianz geteilt durch die Gesamtvarianz. ”

“Grafisch und an einem Beispiel lässt sich dies leichter nachvollziehen.”

ERROR

Gesamtvarianz vs. Erklärte Varianz

Prepare yourself, you're getting close!

Kannst Du mit der Online App überprüfen, wie gut die Klassengrösse (X) die Lesekompetenz (Y) erklärt?
(Reiter 5 - 7)

Blimey, not that bad for a muggle!
😂

Merke: R² ist der Anteil der erklärten Variation an der Gesamtvariation und liegt zwischen 0 und 1.

Interpretation von R²

R² = 0: Die Regression (X) trägt nichts zur Erklärung von Y bei.
R² = 1: Die Regressionsfunktion erklärt Y perfekt (alle Punkte liegen genau auf der Geraden).
R² = 0,2: 20% der Varianz wird durch die unabhängige(n) Variable(n) erklärt.

Zusammenfassung

Grundidee und Logik (multivariater) Modelle
Linear regression as the working horse of the social sciences
Interpretation der Koeffizienten und Modellgüte

EBF Session 2

Harry Otter and the Regression Bootcamp

Ablauf

Online Linear Regression App

Die Grundidee der Regression

Was untersucht die EBF?

Große Eltern, große Kinder?

Francis Galton

Galton board

Die Daten

Die Datenwolke

Welche Funktionsgerade?

Welche Funktionsgerade darf's denn sei?

Eine Funktionsgerade mit kleinem Fehler!

Wir halten fest:

Zusammenfassung grafisch

Now you'll have to grit your teeth! 🙈

Interpretation und KQ Schätzung

kochrezept Interpretation

Beispiel Regressionsoutput

Interpretation grafisch

Sind die Effekte signifikant?

Now, it's your turn 🐍 !

Grrr, next time you won't get off so easy 😉

KQ Schätzer

Math Wizardy: The Slope spell

Math Wizardy: The Intercept spell

That's the magic behind it 😆

Multivariate Analysen

Multivariate Analysen

Spurious confounder

Identifikation eines kausalen Effekts....

Merke:

Time for the last battle! 😉

Wie gut ist unsere Vorhersage?

Oh sweetie, are you telling me that you never heard of R² before? 😉

R²

ERROR

Gesamtvarianz vs. Erklärte Varianz

Prepare yourself, you're getting close!

Interpretation von R²

Zusammenfassung

But most importantly ...

Time for the last battle!
😉