- Informationen
- KI Chat
12. Messen und - Dozentin: Nett
Psychologie II für Lehramtsstudierende
Universität Augsburg
Empfohlen für dich
Kommentare
Ähnliche Studylists
Uni AugsburgText Vorschau
Messen und Bewerten von Lernergebnissen
GRUNDLAGEN
Schulleistung und Lernergebnisse Abgrenzung der Begrifflichkeiten (vgl. Brühwiler & Helmke, 2018) Leistungen individueller Schüler*innen vs. Leistungen von Schulklassen Unterschiedliche Arten von Wissen: deklaratives Wissen (Fakten, Konzepte, Beziehungen), prozedurales Wissen (Fertigkeiten, Handlungs- und Methodenwissen), metakognitives Wissen (Wissen über Informationsverarbeitung und Problemlösung) Unterschiedliche Inhalte: fachspezifisches Wissen, überfachliches Wissen, „nicht-kognitive Lernergebnisse“ (Interessen, Werte, Einstellungen etc.) Leistung zu bestimmtem Zeitpunkt (statisch) und Leistungszuwachs (dynamisch) Abhängig von Erfassungsform (z. Tests, Lehrkrafturteile) Multiple Determiniertheit (vgl. Kollar & Fischer, 2019)
Diagnostik Begriffsklärung
Diagnose Pädagogisch-psychologische Diagnostik: als Prozess: handlungsbezogene Sammlung und Aufbereitung problembezogener Information als Ergebnis: „Urteil, mit dem einzelne Personen (z. SuS) oder Gruppen (z. Klassen) aufgrund von Daten (z. Testergebnisse, Beobachtungen) in Kategorien (z. Gymnasialempfehlung) eingeordnet oder auf Merkmalsdimensionen (z. Note 2) lokalisiert werden“ (Schrader, 2011, S. 2)
„Insgesamt an Erkenntnisbemühungen im
Dienste aktueller pädagogischer Entscheidungen“ (Klauer, 1982, S. 5) Ziel: individuelles Lernen optimieren, im gesellschaftlichen Interesse Lernergebnisse
feststellen, Übergang in verschiedenen Lerngruppen, Kurse oder Bildungswege verbessern (Ingenkamp & Lissmann, 2008, S. 13) Diagnostische Aufgabenstellungen von Lehrkräften nach Schrader (2011) (1) Leistungsbeurteilung (mit erheblichen Konsequenzen) (2) Optimierung des Unterrichts und des Lernens ständig | unter Zeitdruck (vor, während, nach Unterricht) Ermittlung Lernvoraussetzungen | Überwachung Lernfortschritt | Bewertung Lernergebnisse Abklärung von Lernschwierigkeiten (:= mangelnde Passung zwischen Lernvoraussetzungen und Lernanforderungen) (3) Beratung von Schülerinnen und Eltern Umgang mit Lern-, Leistungs- und Verhaltensproblemen Schullaufbahnberatung Erkennen von hochbegabten Schülerinnen Feststellung von individuellem Förderbedarf Erkennung von individuellen Problemlagen der Schülerinnen Zusammenarbeit mit externen Diensten: Schulpsychologinnen | Beratungslehrer*innen | Beratungsstellen (4) Unterrichts-/Schulentwicklung, Evaluation Bewertung des eigenen Handelns/Unterrichts und der Schule Bereitschaft und Fähigkeit zur Rezeption von externen Rückmeldungen
Alltagsdiagnostik vs. Professionelle Diagnostik
Diagnostische Kompetenz von Lehrkräften Standards des US-amerikanischen Lehrerverbands (Nitko, 2004; zitiert nach Schrader, 2011)
- Auswahl geeigneter diagnostischer Verfahren
- Eigenständige Entwicklung diagnostischer Verfahren
- Sachkundige Anwendung, Auswertung und Interpretation
- Nutzung diagnostischer Ergebnisse für Entscheidungen über individuelle Lerner, für curriculare Zwecke, für die Unterrichtsplanung und für die Schulentwicklung
- Erstellung sach- und schülergerechter Bewertungsverfahren
- Erläuterung der Ergebnisse für Schülerinnen, Eltern, Kolleginnen und andere Beteiligte
- Erkennen ungeeigneter Verfahren und fehlerhafter oder missbräuchlicher Anwendungen Diagnostische Kompetenz = Gesamtheit der Fähigkeiten, die zur Bewältigung von Diagnoseaufgaben erforderlich sind
Modifikations- vs. Selektionsdiagnostik vgl. Schwaighofer et al. (2019)
Normorientierte, kriterienorientierte, intraindividuelle Diagnostik Wichtige Unterscheidung in der psychologischen Diagnostik (vgl. Schwaighofer et al., 2019) Normorientierte Diagnostik: Leistung einer Person wird an vorher definierter Vergleichsgruppe gemessen (soziale Bezugsnorm) Bsp.: Intelligenztest Kriterienorientierte Diagnostik: Vor Testung wird zu erreichendes Leistungskriterium definiert (kriteriale Bezugsnorm); Kriterium ist losgelöst von Leistungen anderer Personen Bsp.: Kompetenzstufen bei Pisa, Alltagsdiagnostik von Schulleistung
Erfassung von Schulleistung = fehlerbehaftete Messung eines Konstrukts vgl. Hesse & Latzko (2017), Schoppek (2011)
Diagnosen: Probabilistische statt deterministische Aussagen vgl. Westmeyer (2006) Aufgrund ... nicht-perfekter Messgüte aller diagnostischen Verfahren (z.: Einflüsse des Diagnostizierenden | Messfehler | inhaltliche Ungültigkeit), der theoretischen Unsicherheit bei der Definition von Klassifikationen (z. Leistungsrückstand) und der probabilistischen Natur psychologischer Theorien zur Erklärung von Erleben und Verhalten (z. mangelndes Interesse am Lerngegenstand erhöht das Risiko eines Leistungsrückstands) ... sind diagnostische Urteile probabilistische Aussagen (Aussagen über die Wahrscheinlichkeit des Bestehens eines Sachverhalts). Diagnosen sind stets verbesserbar
Testgütekriterien Gelten (natürlich!) auch für Methoden zur Erfassung von Lernergebnissen Diagnostische Methoden müssen in hinreichendem Maße den Hauptgütekriterien genügen: Objektivität : Ausmaß, in dem die Ergebnisse des Verfahrens unabhängig von der Person des Untersuchenden (Bsp: Beobachterin, Beurteilerin, Lehrkraft) ist o Durchführungs-, Auswertungs- und Interpretationsobjektivität o Verbesserung durch Standardisierung Reliabilität (Zuverlässigkeit): Grad der Genauigkeit, mit dem das geprüfte Merkmal gemessen wird o Prüfung durch wiederholte Messung (Retestung, Paralleltestung, interne Konsistenz) o Verbesserung durch Vergrößerung der Anzahl an Items/Aufgaben Validität (Gültigkeit): Fähigkeit des Verfahrens, das zu messen, was es zu messen vorgibt o Inhalt des Verfahrens (Inhaltsvalidität) o enge Beziehungen zum Konstrukt (Konstruktvalidität: faktorielle, konvergente, diskriminante Validität)
o Beziehungen zu externem Kriterium (Kriteriumsvalidität: retrospektive, konkurrente, prädiktive Validität) Nebengütekriterien : u. Normierung, Ökonomie, Nützlichkeit, Transparenz, Zumutbarkeit, Unverfälschbarkeit
Zufällige und systematische Messfehler Ursachen
Theoretische Fehlkonzeption des zu messenden Merkmals = ungeeignete Operationalisierung Mangelnde Messgüte des Verfahrens (Objektivität, Validität, Reliabität + Nebengütekriterien) Situative und andere Störeinflüsse Urteilsfehler seitens der Urteilenden o Haloeffekt (Hofeffekt): Hervorstechendes Merkmal überstrahlt Wahrnehmung weiterer Merkmale o Logischer Fehler: Beziehungen zwischen Merkmalen werden bewusst hergestellt, abgeleitet aus impliziten Persönlichkeitstheorien o Positionseffekte: Informationen/Leistungen am Anfang und am Ende einer Folge werden leichter behalten und tragen stärker zur Eindrucksbildung bei o Kontrasteffekt: Bewertungen werden von vorauslaufenden Eindrücken beeinflusst o Urteilstendenzen: Mildeeffekt, Strengeeffekt, Tendenz zur Mitte, Tendenz zu Extremurteilen
LERNERGEBNISSE MESSEN I. KONSTRUKTION VON MESSVERFAHREN
Messverfahren/Messinstrument: Definition Worbach et al. (2019, S. 25) W enn mehrere Aufgaben oder Fragen (Items) zur Messung eines Merkmals gemeinsam präsentiert werden, wird von einem Messinstrument oder auch Messverfahren gesprochen. I m schulischen Kontext sind Messverfahren beispielsweise eine Schulaufgabe, ein Vokabeltest, ein Referat, eine mündliche Prüfung, ein standardisierter Schulleistungstest.
Konstruktion von Verfahren zur Messung von Lernergebnissen: 4 Schritte Wilson (2005); nach Worbach et al. (2019)
LERNERGEBNISSE MESSEN II: FORMEN DER LEISTUNGSBEURTEILUNG
Verschiedene Verfahren zur Erfassung von Lernergebnissen Formen der Leistungsbeurteilung Mündliche Prüfung Schriftliche Prüfung Standardisierte Schulleistungstest (normorientiert, kriteriumsorientiert) Teacher-made Tests Verfahren zur Erfassung von mündlichen, schriftlichen oder praktischen Darbietungen und Produkten (z. Referate, künstlerische Darbietungen, Portfolios, Ausstellungen – incl. Sprachproduktionen in mündlicher oder schriftlicher Form)
→ Fließende Übergänge zwischen Formen → Nicht Form als solches ist „subjektiv“ oder „objektiv“ → Vielmehr hängt Messgüte von Gestaltung ab (Konstruktpräzisierung, Aufgaben, Bewertung, Messmodell)
Mündliche Prüfung Form zielgerichteter Kommunikation zwischen einem oder mehreren Prüfenden und Prüflingen, bei der auf die Schriftform verzichtet wird Sprachgebundene Leistungen (z. Fremdsprachen) oder sprachunabhängige Leistungen (z. Psychologieprüfung) Formelle Prüfung (Abschlussprüfung) oder informelle Prüfung (Verständnisüberprüfung im Unterricht) Interaktiver Charakter: beständiger Austausch von Inhalts- und Beziehungsbotschaften (Bsp: Rückmeldung, Ermunterung, Mitleid) Adaptiver Charakter: Anpassung der Aufgabenstellungen möglich „Höhere“ Lehrziele oft unaufwendiger prüfbar
Kritik: Soziale Aspekte Sozialpsychologischer Aspekt:
- Asymmetrische Position von Prüferin und Prüfling (Prüferin über-, Prüfling unterlegen)
- Situation durch sprachliche Aspekte und sonstiges Verhalten beeinflusst (u. Geschlecht, Status, Aussehen → Halo Effect)
- erster Eindruck zählt (Primacy Effect) Psychoanalytischer Aspekt:
- Ähnlichkeit mit Initiationsriten und Statuszuweisungen
- stark angstbesetzt, dadurch adäquate Überprüfung der Le istung nicht möglich Gesellschaftlicher Aspekt:
- „Latente Unterdrückungs- und Abrichtungsfunktionen“ bewirken, dass die Lernenden die Werte der Herrschenden akzeptieren und internalisieren
Kritik: Messmethodische Aspekte Die frühen Untersuchungen indizieren, dass mündliche Prüfungen weder objektiv, noch zuverlässig, noch gültig sind: Derselbe Prüfling wird von verschiedenen Prüfer*innen unterschiedlich beurteilt Übereinstimmung zwischen 0 und 0, nach Training evtl. 0 (vgl. Birkel, 1978) Birkel (1978): Umfangreiche Untersuchung zur Bewertung zweier mündlicher Abiturprüfungen in Deutsch. Notenschwankung: 1 bis 5 und 2 bis 5. → Unterschiede tw. rückführbar auf Vorinformationen („schlechter“ vs „guter“ vorangegangener Aufsatz) und Reihenfolge (z. erst schlechte, dann gute Prüfung)
Verbesserung der Messgüte
Präzise Konstruktvorstellungen und darauf bezogene Items mündliche Prüfungen hauptsächlich bei sprachabhängigen Leistungen valide Maßnahmen zur Reduktion von Prüfungsangst Höherer Grad an Vorabfestlegung (Fragenkataloge) Größere Zahl an Items Standardisierung der Durchführung (auch: Anzahl der Items, zufällige Itemreihenfolge) Standardisierung der Auswertung und Interpretation (Bepunktung, Benotungsmodell)
Schriftliche Prüfung Geschlossene Formate: Single-Choice-Aufgaben, Multiple-Choice-Aufgaben Offene Formate: Freitextaufgaben (Aufsätze, umfangreichere Textantworten), Kurzantwortenitems (wenige Wörter bis max. 2 Sätze), Lückentexte, Fragen nach Wörtern, Formeln, Zahlen etc. Formate je nach kognitiver Anforderung mehr oder weniger geeignet. Beurteilungsraster bei offenen Aufgaben sinnvoll (rubric → siehe unten)
Kritik Traditionelle schriftliche Prüfungen oft wenig objektiv, valide und reliabel Starch & Elliot (1912, 1913): Examensarbeiten in Englisch, Mathematik und Geschichte Arbeit eines Schülers von 128 Lehrkräften unterschiedlicher Schulen ausgewertet Für dieselbe (Mathematik-)Arbeit wurden Punktwerte von 28 bis 98 vergeben (Bewertung unterschiedlicher Lösungswege variierte stark) Birkel & Birkel (2002): 89 Grundschullehrer beurteilten zwei Versionen von vier Schüleraufsätzen mit unterschiedlich vielen Rechtschreibfehlern: Unterschiedliche Qualität gut erkannt Bei vielen Rechtschreibfehlern war die Note um ein Drittel schlechter, längster Aufsatz am besten bewertet Übereinstimmung weniger gut: Noten unterschiedlicher Lehrkräfte für gleiche Arbeit von 1- Faktoren, die das Urteil über den Inhalt der Prüfungsarbeit beeinflussen (Ingenkamp & Lissmann, 2008): Äußere Form der Prüfungsarbeit, Handschrift Grammatikalische, orthographische Fehler (selbst wenn nur der Inhalt beurteilt werden soll) Länge der Textproduktion Reihenfolge der Beurteilungen (erst guter, dann schlechter Schülerin bzw. umgekehrt) Information über Prüflinge (Kenntnisse), seine/ihre Beliebtheit Geschlecht des Beurteilten und des Beurteilenden
Aber: neue Studien zeigen, dass die Gütekriterien deutlich besser eingehalten werden können, wenn klare Kriterien angelegt und Checklisten verwendet werden.
Möglichkeiten zur Verbesserung der Messgüte
Präzise Konstruktvorstellungen und darauf bezogene Items Höherer Grad an Vorabfestlegung Größere Zahl an Items Standardisierung der Durchführung (auch: Anzahl der Items, zufällige Itemreihenfolge) Standardisierung der Auswertung und Interpretation (Bepunktung, Benotungsmodell) Benutzung von Beurteilungsrastern (Kriterienkatalogen) bei offenen Aufgaben Zweitkorrektur o Anonyme Korrektur o Aufgabenweise Korrektur, Variation der Reihenfolge der Prüflinge
Schulleistungstests
Kriteriumsorientierte Schulleistungstests Beispiel: PISA-Aufgaben
Definition von Kompetenzstufen für Kompetenzbereiche (hier: Literacy im Bereich der Naturwissenschaften)
Zu internationalen Schulleistungsstudien und zur Konstruktion der dabei verwendeten Testaufgaben siehe: Drechsel, Prenzel & Seidel (2009)
Standardisierte Schulleistungstests Bieten überörtliche Standards (sind so objektiver als Noten) Zuschnitt auf curriculare Lehrpläne macht Tests curricular valide Überregionale Gültigkeit nur durch Vernachlässigung regionaler Standards Dürfen häufig auch von Lehrkräften durchgeführt werden Dienen der Überprüfung o der erreichten Bildungsstandards o der relativen Position der eigenen Schulklasse im Vergleich zu anderen Schulklassen o der Leistungsheterogenität und der Identifikation von Schüler*innen mit Extremwerten o aber auch der eigenen diagnostischen Kompetenz Gibt es für vielen, aber nicht alle Fächer und Jahrgangsstufen (Konzentration auf Grundschulbereich und Kulturtechniken Lesen, Schreiben, Rechnen). Überblick: testzentrale Vergleichsarbeiten der Länder als wichtige kriteriumsorientierte Schulleistungstests
Teacher-made Tests (informelle Schulleistungstests) Werden mit geringerem methodischen Aufwand von Lehrkräften für die Bedürfnisse ihres Unterrichts entwickelt Sehr starke Standardisierung in Durchführung und Auswertung (wie formelle Schulleistungstests) Ebenfalls Orientierung an wissenschaftlichen Standards bei Testkonstruktion Zwar nicht geeicht, aber dennoch Vorteile für Messgüte Zentrale Schritte bei der Konstruktion: Präzisierung Konstrukt und curriculare Analyse: Welche Lernziele sind für die Klasse ausgewählt? Aufgabenkonstruktion (möglichst geschlossenen oder sehr einfache offene Formate): Mit Kolleg*innen besprechen Ggf. Kategorien für mögliche offene Antworten definieren Bepunktungs- und Benotungsregeln definieren Aufgabenanalyse: Ermittlung der Aufgabenschwierigkeiten und Trennschärfen anhand der Ergebnisse der Klasse/Jahrgangsstufe
Verfahren zur Erfassung von Darbietungen und Produkten vgl. Worbach et al. (2019)
Vielfältige Darbietungen und Produkte: Referate, künstlerische Darbietungen, Portfolios, Ausstellungen, Sprachproduktionen in mündlicher oder schriftlicher Form etc. Erfassung mit Hilfe Beurteilungsraster (rubric):
Möglichst standardisierte Durchführung, Absicherung Dimensionen, Training der Kategorisierung, Verständigung über Notenschlüssel
BEWERTEN
Funktionen von Bewertungen und Schulnoten Bewertungen: Zensuren, Verbalbeurteilungen, Kompetenzraster, Inhalte von Lernent- wicklungsgesprächen, einfache Aussagen und Urteile („gut gemacht!“, „sehr gut!“) etc. Feedbackfunktion : Rückmeldung zu aktuellem Stand und noch bestehenden Diskrepanzen zum Lernziel für Schülerinnen und Lehrpersonen Informationsfunktion: kompakte wertende Informationen für verschiedene Akteure (Eltern, Entscheiderinnen, potenzielle Arbeitgeber*innen etc.) Belohnungsfunktion : Gute Noten motivieren oftmals, schlechte Noten üben oft Druck aus und sind geeignet disziplinierende Wirkung zu entfalten Selektionsfunktion : Gewährung oder Verweigerung des Zugangs zu weiteführenden Bildungsangeboten oder beruflichen Möglichkeiten Pädagogische Funktion vs. gesellschaftliche Funktion
Benotungsmodelle (Zensurmodelle) Übersicht
Messwert (z. bestimmte Punktzahl, Anzahl Fehler) hat für sich alleine noch keine Bedeutung → Vergleichsmaßstab nötig. Auf Grundlage der unterschiedlichen Bezugsnormen (Rheinberg & Fries, 2018) zur Leistungsbewertung lassen sich spezifische Zensurmodelle entwerfen:
- Kriteriale Bezugsnorm Kriteriums- bzw. sachliche Zensurmodelle
- Soziale Bezugsnorm normierte Zensurmodelle
- Individuelle Bezugsnorm Zensurmodelle, die Schülerleistung nach individueller Bezugsnorm bewerten
Zensurmodelle 1) Kriteriums- bzw. sachliche Zensurmodelle
basiert auf ausschließliche Ausrichtung am Lehrziel schon bei der Testkonzeption erfolgt eine Festlegung der Mindestanforderungen zum Bestehen und der Intervalle der Notenzuordnung ist die verordnete Form der Notenfindung
Lerngruppenspezifische Benachteiligungen (Mädchen erhalten durchschnittlich bessere Noten als Jungen, Schülerinnen mit Migrationshintergrund durchschnittlich schlechtere als Schülerinnen ohne Migrationshintergrund). Einfluss von Urteilsfehlern gegeben, aber nicht so groß, wie frühere experimentelle Studien befürchten ließen (vgl. Ingenkamp, 1971)
Maßnahmen zur Verbesserung der Objektivität und Validität
Wissen über und Sensibilisierung für Urteilsfehler Anwendung kriteriale Bezugsnorm bzw. kriteriumsorientiertes Zensurenmodell Explizite Formulierung von Lernzielen Expliziter, schriftlicher Kriterienkatalog (Bsp. Aufsatz: Qualität und gedanklicher Reichtum Inhalt, Aufbau und Darbietung Inhalt, Stil und Ausdruck) Zweitkorrekturen und Zweitprüfer*innen Schriftliche Arbeiten: o Anonym korrigieren o Aufgabenweise korrigieren o Reihenfolge der Arbeiten variieren
Alternative Bewertungsformen Wort- und Berichtszeugnisse
Hohe Erwartungen bei Einführung in Grundschule (1980er-Jahre): o Individualisierung, Motivationsförderung (keine Angst vor Misserfolg, intrinsische Motivation), kooperatives Lernklima, Verbesserung der Leistungen
Empirische Befunde (z. Gigerenzer, 1987): o Verbale Stereotypien, starker Haloeffekt, wenig differenziert
Informationen zum Entwicklungs- und Lernprozess (IzEL)
Kompetenzraster
z. Aufteilung Deutsch A1, A2 etc.
Lernentwicklungsgespräche (vgl. Dollinger & Hartinger, 2020)
Grundlage des Gesprächs oft: Gespräch besteht oft aus:
- Selbsteinschätzungen • Zielvereinbarung
- Lehrkrafteinschätzungen • Kriteriumsbezogene Besprechung der Einschätzungen
12. Messen und - Dozentin: Nett
Kurs: Psychologie II für Lehramtsstudierende
Universität: Universität Augsburg
- Entdecke mehr von:
- Mehr von: