Empirische Bildungsforschung (EBF)

Sitzung 6: Evaluationsparadigma

Dr. Edgar Treischl
FAU Nürnberg-Erlangen

What the F... 😉


Ablauf

  • Evaluationsparadigma der EBF
  • Kausalität in der Bildungsforschung
  • Experimentelle Bildungsforschung

Evaluationsparadigma der EBF

Reformen des Bildungssystems

Wirkungsevaluation

Ein kurzer Auszug aus der Literatur
(Treischl & Wolbring 2020: Kapitel 2):
“Bei Evaluationen geht es um den Wert einer Sache bzw. genauer um dessen Bestimmung, wobei das zu bewertende Objekt als Evaluationsgegenstand (Evaluandum) bezeichnet wird.”
“Gegenstand einer Evaluation können dabei Produkte, Prozesse, Veranstaltungen, Interventionen oder ganze Maßnahmenbündel sein, die mehr oder weniger systematisch bewertet werden.”
“Wie Kromey (2001, S. 106) erläutert, meint Evaluation im alltagssprachlichen Sinne jedwede Form der mehr oder weniger systematischen Beurteilung:”
“Irgend etwas wird von irgend jemandem nach irgendwelchen Kriterien in irgendeiner Weise bewertet. Derselbe Sachverhalt kann – wie die Alltagserfahrung – von verschiedenen Individuen sehr unterschiedlich bis gegensätzlich eingeschätzt und beurteilt werden (Kromey 2001, S. 106).”









Wissenschaftliche Evaluation vs. Alltagsevaluation
🙈

Wissenschaftliche Evaluation

  • Systematische Sammlung empirischer Evidenzen
  • Systematik und präzise Dokumentation
  • Intersubjektive Nachprüfbarkeit
  • Identifikation von Ursache und Wirkung

“Das wesentliche Ziel vieler Evaluationen entspricht dieser engeren Definition des Evaluationsbegriffs, nämlich Antworten auf Fragen der kausalen Inferenz zu geben:”
“Die Erfassung und Bewertung von Wirkungen und ihre kausale Ursachenzuschreibung sind die zentralen Aufgaben von Evaluation“ (Stockmann 2006, S. 106; Hervorhebung im Orig.).”
Funktionen von Evaluationen
(siehe bspw. Treischl & Wolbring 2020:21-24)
  • Erkenntnisfunktion
  • Kontrollfunktion
  • Transparenz und Dialogfunktion
  • Legitimationsfunktion

Evaluationsstandards
  • Systematische Untersuchung
  • Kompetenz
  • Integrität und Ehrlichkeit
  • Respektvoller Umgang mit Menschen
  • Verantwortung gegenüber der öffentlichen Wohlfahrt

Kausalität in der Bildungsforschung


Evaluation anhand von Beobachtungsdaten

Messung kausaler Effekte









Add apples, but don't add, divide, or compare apples and oranges! 🧛

The Fundamental Problem of Causal Inference I

The Fundamental Problem of Causal Inference II

Etwas formaler:
  • Sei D eine Dummy-Variable (d.h. eine binär kodierte Variable), welche das Auftreten bzw. Wegbleiben eines Stimulus (Ursache) anzeigt.
  • Der kausale Effekt δ ist definiert als Differenz zwischen Y¹, dem Zustand der Zielvariable Y nach Auftreten (D = 1) der Ursache, und Y°, dem Zustand der Zielvariable ohne Auftreten (D = 0) der Ursache.
  • δ = Y¹ - Y°
  • Eine Person kann nicht gleichzeitig ein Treatment bekommen und in der Kontrollgruppe sein.
  • Ergo: Messung von Kausalität auf der Mikroebene des Individuums ist damit selbst im Experiment ausgeschlossen.

Problem: Wir sind auf der Suche nach einer kontrafaktischen Annäherungen eines (unbeobachtes) Ergebnisses: Welchen Schulerfolg hätte Person i gehabt, wenn die Person die Klasse B anstelle der Klasse A besucht hätte?










Lösung: The Power of Random Assignment (Randomisierung)

Kausaler Effekt: Messung des Average Treatment Effects

Dies korrespondiert mit dem Prinzip von Compare Like with Like

Ein kurzer Auszug aus der Literatur

“Durch die Randomisierung ist bei hinreichend großen Gruppen von einer Gleichverteilung in der Kontroll- und Versuchsgruppe (Bsp: ca. 50% Männer/Frauen) in allen möglichen Drittvariablen auszugehen.”
“Randomisierung umgeht somit das Problem der unbeobachteten Heterogenität (Gruppen unterscheiden sich ohne dass wir es beobachtet haben) von Gruppen. Die Randomisierung hilft uns auch bei methodischen Problemen (wie bspw. das Problem von Scheinkorrelationen).”
Hat die Randomisierung funktioniert?










Um die Vorteile der Randomisierung zu nutzen muss die EBF experimentelle Forschungsdesigns einsetzen.

Experimentelle Bildungsforschung

Experimentelles Design

Merkmale

  • Zufallsbedingte Aufteilung (Randomisierung) auf Kontroll- und Versuchsgruppe (Treatment)
  • Zufällige Aufteilung auf beide Gruppen kontrolliert für alle Drittvariablen (Compare Like with Like)

Experimentelles Design

  • Manipulation: Vermutete Ursache (= Stimulus) in der Versuchsgruppe
  • Manipulation: Keine Ursache (= kein Stimulus) in der Kontrollgruppe
  • Werte in der Versuchsgruppe die über der Schwelle der Zufallsvarianz (t-Test) liegen werden auf den Stimulus zurückgeführt und als kausaler Effekt interpretiert.

Experimentelles Design: Beispiel Weiterbildungsmaßnahme

Zuweisung X Messung t1
R(andomisierung) Kontrollgruppe O (Oberservation)
R Versuchsgruppe O

Quasi-Experimentelles Design

  • Zuordnung auf Kontroll- und Versuchsgruppe erfolgt nicht durch Randomisierung
  • Quasi-Experimente: Stimulus wird gegeben, Zuordnung erfolgt selbst durch die Forschungsobjekte
  • Evaluationsforschung basiert oftmals auf quasi-experimenteller Versuchsanordnungen (Probleme?)

Notation Quasi-Experiment: Beispiel Weiterbildungsmaßnahme

Zuweisung X Messung t1
Kontrollgruppe O
Versuchsgruppe O
“Experiments in the social sciences? What should we and what should we not do. The Little-Albert-Experiment.”
Kaum experimentelle Forschungsdesigns in der EBF
Häufige Bedenken von Stakeholdern:
  1. Experimente sind häufig nicht ethisch vertretbar.
  2. Experimente sind nicht praktisch umsetzbar sind.
  3. Experimente sind künstlich aufgrund der Künstlichkeit des Settings.
  4. Experimente basieren auf einer geringen Fallzahl und die Ergebnisse sind nicht auf andere Kontexte übertragbar.

Einwände zum Teil nicht zutreffend, weil:
  1. Ethikboard müssen Verstöße gegen ethische Einwände einlegen.
  2. Experimente sind auch in der Bildungsforschung möglich.
  3. Künstlichkeit betrifft in erster Instanz Laborexperimente.
  4. Geringe Fallzahl ist kein allgemeines Problem experimenteller Forschung.

"Repräsentativität"

Statt dessen müssen wir uns über die interne und die externe Validität unserer Evaluationsbefunde Gedanken machen!

Keine Ahnung was interne oder externe Validität ist? Click down!
🧐 👇

Ein kurzer Auszug aus der Literatur zur Vertiefung.
(Treischl & Wolbring 2020: Kapitel 6)
🧐 👇
“Der Begriff der internen Validität zielt darauf ab, inwiefern ein Effekt tatsächlich kausal auf das Treatment zurückführbar ist.”
“Anders ausgedrückt, bemisst die interne Validität damit, inwieweit mögliche Störfaktoren durch das gewählte Forschungsdesign ausgeschlossen werden oder ob nicht doch alternative Erklärungen einen Befund hervorgebracht haben könnten.”
“Im Kern beziehen sich Fragen nach der internen Validität also auf die Belastbarkeit von Wirkungsaussagen im Zuge einer Evaluation.”
“Neben Fragen der internen Validität stellt sich auch bei Evaluationen die Frage nach der Generalisierbarkeit, also der externen Validität empirischer Befunde. Dabei gilt es vier Dimensionen der Generalisierbarkeit zu berücksichtigen.”

UTOS: Dimensionen der Generalisierbarkeit nach Cronbach (1982)

  • Versuchspersonen (Units)
  • Interventionen (Treatments)
  • Messungen (Observations)
  • Kontexte (Settings)

Zusammenspiel interne und externe Validität











Almost done! 😎

Zusammenfassung

  • EBF ist Teil eines Evaluationsparadigmas (Reformen, Unterrichtsmethoden etc.)
  • Wirkungsevaluation = Kausalanalyse
  • Vorteil von Randomisierung (Eliminierung von Störvariablen)
  • Bedenken gegen experimentelle Forschungsdesigns in der EBF
  • Güte experimentelle Forschungsdesigns: Interne und externe Validität