Mit der rasanten Entwicklung künstlicher Intelligenz (KI) rückt ihr Einsatz im Bildungswesen zunehmend in den Fokus. Tools wie ChatGPT versprechen Entlastung für Lehrkräfte und Chancen für stärker personalisiertes Lernen. Doch wie gut können diese Systeme menschliche Lehrkräfte ersetzen? Ein aktuelles IZA-Forschungspapier von Arnaud Chevalier, Jakub Orzech und Petar Stankov zeigt Licht und Schatten von ChatGPT in diesem Bereich.
Für die Studie mussten Studierende eine Aufgabe bearbeiten und erhielten dazu Feedback, für das sie zufällig in drei Gruppen aufgeteilt wurden: eine erhielt Feedback von menschlichen Bewertern, die anderen von ChatGPT 3.5 bzw. 4. Die Qualität des Feedbacks wurde anhand der Leistungen in einer Folgeaufgabe gemessen. Beide Aufgaben wurden benotet. Weder Studierende noch Lehrkräfte wussten, ob das Feedback von Mensch oder Maschine stammte.
Das Ergebnis: Im Vergleich zu menschlichen Lehrkräften lieferte ChatGPT 4 ähnlich effektives Feedback, während ChatGPT 3.5 deutlich schlechter abschnitt. Beim Benoten zeigten beide KI-Versionen jedoch massive Schwächen. Sie vergaben nicht nur oft großzügigere Noten als Menschen, sondern waren auch inkonsistent und hatten Schwierigkeiten mit komplexen Aufgaben wie der Interpretation von Daten. Besonders problematisch war die Variabilität: In einigen Fällen bewertete die KI die gleiche Arbeit extrem unterschiedlich.
Für die Bildungspolitik und Lehrkräfte, die den Einsatz von KI im Unterricht erwägen, liefert die Studie also eine klare Erkenntnis: Die neueste Generation von KI-Tools eignet sich vor allem, um Zeit bei Feedback und Korrekturen zu sparen, sodass Lehrkräfte ihre Energie stärker auf die eigentliche Lehre konzentrieren können. Die Bewertung komplexer Arbeiten sollte jedoch weiterhin in menschlicher Hand bleiben.
[Anm. d. R.: Diese Zusammenfassung der Studie basiert auf einem ChatGPT-Entwurf, der von einem Menschen überarbeitet wurde, mit Feedback der Studienautoren.]