|
Publikationen BLZ BLZ Archiv BLZ Januar 2009 16.01.2009 VERA – systematische Fehlurteile | ||||||
| 16.01.2009 VERA – systematische Fehlurteile | ||||||
| von Horst Bartnitzky Vorsitzender des Grundschulverbandes | ||||||||||||||||||||||||
| Die Vergleichsarbeiten VERA sollen Rückmeldungen über den Leistungsstand der Schülerinnen und Schüler, der Klassen und Schulen geben. Die Analyse der Testaufgaben der vergangenen Jahre für Deutsch und Mathematik zeigt aber, dass sie dieses Ziel alljährlich verfehlen. Ich will exemplarisch an einem Beispiel zeigen, wie VERA systematisch Fehlurteile erzeugt. |
| |||||||||||||||||||||||
| Richtige Lösungen müssen als falsch bewertet werden | ||||||||||||||||||||||||
| Das Beispiel stammt aus VERA Deutsch Klasse 3 vom Mai 2008. Diesmal traten zu den Leseaufgaben einige Aufgaben zum Kompetenzbereich „Sprache und Sprachgebrauch untersuchen“. | ||||||||||||||||||||||||
![]() Den abgedruckten Ausschnitt fand ich in Lauras Testbogen. Laura kannte wohl nicht das hier geforderte Wort kämpferisch. Sie hat es deshalb neu gebildet: kämpferlich. Einwandfrei ist dies eine Adjektiv-Bildung, wenn auch nicht in der standardsprachlichen Form. Der Korrekturanweisung entsprechend, musste die Lehrerin die Lösung von Laura als falsch werten. Ebenso bei anderen Kindern: Niklas bildete kämpflich, Alexander kämpfrig, Josias kämpfig. Allesamt kluge, wenn auch ungewöhnliche Adjektivbildungen, die eines klar erkennen lassen: die Kinder verfügen gegen Ende der Klasse 3 über einen Adjektivbegriff. Und genau dies war ja wohl ein Aspekt für diese Aufgabe. Dennoch: das Antwortmuster in der Anweisung ließ als richtig nur das eine Wort zu: kämpferisch. Alle anderen Lösungen, so adjektiv-gemäß sie auch gebildet waren, mussten als falsch bewertet werden. Dass die Kinder hier zu Eigenschöpfungen griffen, deutet darauf hin, dass ein Wort gefordert wurde, das Kinder im aktiven Wortschatz eher selten besitzen. Es fragt sich im Übrigen, warum gerade martialisches Wortmaterial für den Test herhalten musste. Neben dem Adjektivbegriff geht es um den Begriff der Wortfamilie. In den Testheften der Drittklässler fand ich zum Beispiel zum Nomen Schlaf das Verb verschlafen und ausschlafen, zum Verb feiern das Nomen Feiertag und anderes mehr. Dies sind legitime Wörter der jeweils geforderten Wortfamilie. Die Kinder hatten also mit ihren Lösungen bewiesen, dass sie aus zwei vorgegebenen Wörtern richtig auf die Wortfamilie schließen und dafür wortartengerecht ein weiteres Wort angeben konnten. Aber auch diese im Sinne des Wortfelds richtigen Wörter mussten als falsch bewertet werden, weil das Antwortmuster immer nur ein einziges Lösungswort vorsah. | ||||||||||||||||||||||||
| Inhaltliche Grundlagen | ||||||||||||||||||||||||
| Inhaltliche Grundlage der VERA-Aufgaben, so die politische Vorgabe, sollen die Bildungsstandards, hier zum Fach Deutsch für den Primarbereich vom 15.10.2004 sein. Dort ist als Standard unter 3.4 Sprache und Sprachgebrauch untersuchen formuliert: „Wörter strukturieren und Möglichkeiten der Wortbildung kennen“. Die Kinder haben bei ihren Adjektivlösungen genau dies nachgewiesen: Sie bildeten Adjektive zur Wortfamilie, indem sie den entsprechenden Wortstamm kampf und geeignete Adjektiv-Suffixe wie –lich und –ig verwendeten. Aus der Liste der in den Bildungsstandards vorgesehenen Begriffe wurden hier die Wortfamilie, sowie die Wortarten Nomen, Verb und Adjektiv angewendet. In allen referierten Fällen entsprachen die Antworten diesen Begriffen. Die Kinder hatten also die durchaus anspruchsvollen Ziele der Bildungsstandards gegen Ende von Klasse 3 erreicht. Ihre Antworten mussten aber, der VERA-Anleitung gemäß, als falsch bewertet werden. Wie kommt ein solcher Unfug zustande? | ||||||||||||||||||||||||
| Die testmetrischen Restriktionen | ||||||||||||||||||||||||
Die Antwort liegt in der Testkonstruktion. Sicher, es gibt eine große Gruppe pädagogischer Fachleute, die sich Aufgaben ausdenken. Auf diese Gruppe verweisen das VERA-Team und die Politik immer, wenn Kritik an den Aufgaben laut wird. Nur: Die Aufgaben dieser Gruppe sind nicht die Testaufgaben. Die nämlich unterliegen den Maßgaben der Testmetrik. Diese Maßgaben sind vor allem von zwei Prinzipien bestimmt:
Zu 1.: Die Maßgabe der absoluten Eindeutigkeit ist der VERA-Konstruktion geschuldet: VERA ist ein Massentest, der Jahr für Jahr durchgeführt und ausgewertet werden muss, der von testmetrischen Laien, nämlich den Lehrerinnen und Lehrern auszuwerten ist. Deshalb muss alles in die schlichte Alternative richtig oder falsch einzuordnen und so in das Auswertungsformular einzutragen sein. Ein Resultat dieser Maßgabe ist in der o.a. Aufgabe, dass für jede Lücke nur ein einziges Wort als richtig akzeptiert wird. Alle abweichenden Lösungen sind als falsch zu bewerten – unabhängig davon, ob sie ebenfalls richtig sind und ob sie den Bildungsstandards entsprechen. Deshalb werden Aufgaben der pädagogischen Fachleute ausgeschieden, die diesem Anspruch nicht gerecht werden. Die ausgewählten testtauglichen Aufgaben werden so gemodelt, dass sie dem schlichten binären Auswertungsschema entsprechen. Damit kommen auch Aufgaben von höherer didaktischer Qualität bei VERA nicht zum Zuge, also z.B. offene Aufgabenstellungen, individuelle Lösungswege, produktive Aufgaben. Zu 2.: Die ins Auge gefassten Aufgaben werden vorgetestet. Werden sie von den meisten richtig gelöst, dann ist das zwar ein erfreuliches Zeichen für gelungene Lernprozesse. Sie werden aber ausgeschieden, weil die Ergebnisse zu wenig in Erfolg und Versagen gespreizt sind. Damit erklärt sich auch, warum Teilleistungen bei VERA als Fehlleistungen gelten. Wenn Kinder Verben unterstreichen sollen und von sechs möglichen fünf richtig unterstrichen haben, dann gilt die Lösung als ebenso falsch, als wenn gar keines oder willkürliche Wörter unterstrichen wurden. Auch führt der Zwang zur Spreizung für viele Kinder zum Überforderungscharakter der Tests. Angesichts der Fülle an Texten und Aufgaben und der knappen Bearbeitungszeit resignieren Ängstliche wie langsam Arbeitende vorzeitig, ohne ihre tatsächliche Leistungsfähigkeit zeigen zu können. Feinere Diagnosen gerade im kritischen Bereich sind damit nicht möglich. Entsprechend lassen die Auswertungen keine Rückschlüsse auf die individuellen Entwicklungsstände und auf mögliche Fördermaßnahmen zu. | ||||||||||||||||||||||||
| Wertlos und schädlich | ||||||||||||||||||||||||
| Den VERA-Aufgaben, wie sie sich in den Testheften darstellen, fehlt mithin ein entscheidender Qualitätsmaßstab, der für Tests eigentlich selbstverständlich ist: die Validität. VERA misst eben nicht das, was es zu messen vorgibt, nämlich inwieweit die Bildungsstandards erreicht sind, sondern das, was mit der simplen Testmetrik messbar ist und was die vorgeblichen Leistungsstände genügend spreizt. Damit werden die VERA-Aufgaben und ihre Auswertung weder den Bildungstandards gerecht noch den tatsächlichen Leistungen der Kinder und Schulen. Sie sind mithin wertlos. Wenn es nur dies wäre, dann müsste man das fehl-investierte Geld und die fehl-investierte Arbeit an den Schulen beklagen. Tatsächlich aber erzeugen die Auswertungsvorschriften permanentes Unrecht, indem enge Lösungsmuster die Lehrkräfte dazu zwingen sollen, richtige Antworten, die nicht ins Schema passen, als falsch zu bewerten. Deshalb ist VERA in der gegenwärtigen Konstruktion nicht nur wertlos, sondern schädlich. Das Projekt VERA ist politisch gewollt und die Ergebnisse führen in verschiedenen Bundesländern zu weitreichenden Konsequenzen, wie schulaufsichtliche Maßnahmen bei schwachen Ergebnissen, Ranking und öffentliche Auslobung vorgeblich erfolgreicher Klassen, möglicher Einbezug in Zensurengebung und Übergangsentscheidungen. Dadurch werden Nebenwirkungen wie „teaching to the test“ (Fit für VERA) und Unehrlichkeit im Umgang mit dem Test befördert und schädigen nachhaltig die Unterrichtskultur. Konstruktionsbedingte massive Fehlurteile über Schüler- und Schulleistungen werden billigend in Kauf genommen, um politische Aktivität darzustellen. „Schaden abzuwenden“ ist eine Aufgabe der politisch Verantwortlichen. Hier wird das Gegenteil getan. | ||||||||||||||||||||||||
| Alternativen | ||||||||||||||||||||||||
| Selbstverständlich braucht qualitative Schulentwicklung eine interne Evaluation, die den anspruchsvollen didaktischen Aufgaben entspricht. Hierzu hat der Grundschulverband mit dem Leitbegriff: „Pädagogische Leistungskultur’“ für alle Fächer umfangreiche Materialien vorgelegt (www.grundschulverband.de, siehe dort unter Veröffentlichungen, Mitgliederbände 118, 121, 123). Selbstverständlich braucht eine qualitative Schulentwicklung neben der internen auch externe Evaluation. Sie muss aber dem didaktischen Qualitätsanspruch entsprechen, um zur internen Evaluation den Außenblick zu ergänzen. Mit jährlichen flächendeckenden Tests ist diese Qualität offenbar nicht zu erreichen. Hierzu gibt es inzwischen andere Beispiele, siehe etwa die Initiative Blick über den Zaun (www.blickueberdenzaun.de). Selbstverständlich braucht eine qualitative Schulentwicklung auch ein „system monitoring“ für Politik und Verwaltung, also eine Bestandsaufnahme über die Unterrichtsqualität der Schulen und dabei auch das Aufspüren von Schulen, die besondere Unterstützung brauchen. Dazu aber sind Evaluationen in Stichproben und in Zeittakten von vier, fünf Jahren hinreichend. Das eingesparte Geld kann den Schulen zu Gute kommen, die besonders unterstützt werden müssen. | ||||||||||||||||||||||||
| Anmerkung: | ||||||||||||||||||||||||
| Eine ausführliche Aufgabenanalyse des Deutsch- und des Mathematiktests 2008 für Klasse 3 sowie zahlreiche Lehrerkommentare finden sich in: Grundschule aktuell Heft 103 Sept. 2008: Kinder vermessen? VERA 2008 (www.grundschulverband.de, siehe dort unter Veröffentlichungen, Mitgliederzeitschrift) | ||||||||||||||||||||||||