Die Begutachtung eingereichter Studien durch Fachkolleginnen und -kollegen („Peer Review“) ist ein zentraler Bestandteil des wissenschaftlichen Publikationsprozesses in Fachzeitschriften. Dieses Verfahren sorgt nicht nur bei Einreichenden häufig für Frustration, sondern auch bei Begutachtenden, für die es eine unbezahlte und oft aufwändige Zusatzaufgabe darstellt. Zwar wird Peer Review als akademische Pflicht angesehen und kann indirekt durch Prestige oder Netzwerkeffekte von Vorteil sein, doch die fehlende direkte Honorierung macht es zunehmend unattraktiv. Entsprechend wird es immer schwieriger, geeignete Reviewer zu finden, und der Begutachtungsprozess zieht sich oft über viele Monate hin.
In einem aktuellen IZA-Forschungspapier untersuchen Pat Pataranutaporn, Nattavudh Powdthavee, and Pattie Maes untersucht, inwieweit Künstliche Intelligenz (KI) diesen Prozess effizienter machen kann. Die Forschenden führten ein groß angelegtes Experiment mit 9.030 eingereichten Manuskripten durch. Diese Arbeiten basierten auf 30 bereits veröffentlichten wirtschaftswissenschaftlichen Studien – darunter Arbeiten aus führenden Fachzeitschriften, mittelklassige und weniger renommierte Publikationen sowie KI-generierte Texte, die qualitativ an Spitzenforschung heranreichen sollten. Zudem wurde systematisch variiert, welche Autorennamen und institutionellen Zugehörigkeiten den KI-Gutachtern angezeigt wurden.
Die Ergebnisse zeigen, dass KI grundsätzlich in der Lage ist, zwischen wissenschaftlich hochwertigen und weniger hochwertigen Studien zu unterscheiden. Das könnte helfen, die Arbeitslast für menschliche Gutachter zu reduzieren. Doch es zeigen sich auch massive Probleme: Die KI bewertet Arbeiten von bekannten Forschenden, angesehenen Universitäten und männlichen Autoren systematisch besser – selbst wenn die eigentliche Forschungsqualität gleich ist. Zudem fällt es der KI schwer, echte Spitzenforschung von gut gemachten KI-generierten Arbeiten zu unterscheiden.
Die Studie plädiert deshalb für ein hybrides Begutachtungssystem, in dem KI unterstützend eingesetzt wird, die endgültigen Entscheidungen aber bei menschlichen Fachleuten bleiben. Um Verzerrungen zu vermeiden, sollten KI-Modelle mit anonymisierten Daten trainiert und Bewertungskriterien angepasst werden. KI kann also den Begutachtungsprozess durchaus effizienter machen – allerdings nur, wenn sie gezielt integriert wird, ohne Fairness und wissenschaftliche Integrität zu gefährden.