Die juristischen Staatsprüfungen sind für viele Kandidaten eine Black Box. Wir werfen in einer losen Reihe von Beiträgen einen Blick hinein (zuletzt “Ringtausch im Juraexamen”). Nicht immer nimmt dieser Blick den Studierenden Angst und Unsicherheit, aber manchmal geben neue Entwicklungen auch Hoffnung.
Das Vier-Augen-Prinzip
Zwei Juristen, drei Meinungen. Diese fachspezifische Produktivität in Sachen abweichende Standpunkte beschert uns Meinungsstreitigkeiten zu Tausenden (einige darunter historisch erledigt, die meisten aber aktuell), die nachwachsende Juristen in auswendiggelerntem Zustand ins Examen schleppen und dort in Klausuren zeitsparend und seitenfüllend präzise, aber fußnotenfrei zu reproduzieren suchen: „Da die verschiedenen Ansichten zu unterschiedlichen Ergebnissen gelangen, ist ein Streitentscheid erforderlich.“ Womit wir beim Examen sind, genauer: bei der Bewertung von Examensleistungen. Gilt dort womöglich Ähnliches: Zwei Prüfer, drei Bewertungen? Unerfreulichenfalls: divergierende Bewertungen? Schlimmstenfalls: deutlich divergierende Bewertungen?
Dass die Prüferansichten über die Qualität (und damit: die Benotung) einer Prüfungsarbeit weit auseinandergehen können, weiß jeder, der in den 400-Hausarbeiten-Stapel der Anfängerübung im Bürgerlichen Recht aus Spaß und/oder Neugier einmal zwei identische Arbeiten eingeschleust hat, die dann mit 03 Punkten – mangelhaft – und 09 Punkten – voll befriedigend – bewertet wurden. Auf der Hand liegt, dass derlei das Vertrauen der Kandidaten in die Qualität der Bewertung nicht fördert (aber gesamtgesellschaftlich ein Nachdenken über die Aussagekraft juristischer Noten befördern könnte). Jurastudenten, die solches oft genug erlebt haben, neigen zu Resignation oder Zynismus.
Im Examen gilt deshalb ein Vier-Augen-Prinzip: Jede Klausur im staatlichen Pflichtfachteil wird von zwei Prüfern bewertet. (In der mündlichen Prüfung sitzt man sogar drei Prüfern gegenüber, was maximale Objektivität zwar nicht garantiert, aber als Annäherungsversuch immerhin ganz sympathisch ist.) Das kostet Geld – denn die Prüfer werden bezahlt – und Zeit – denn die Prüfer prüfen nacheinander. Bei allfälligen Abweichungen in der Bewertung sehen die bundesländerspezifischen Juristenausbildungs- und -prüfungsgesetze und -ordnungen Regeln vor: Die Prüfer sollen Einigkeit zu erzielen versuchen, ggf. wird ein Drittprüfer bestellt, womöglich entscheidet das Prüfungsamt. Klingt ganz vernünftig, wenn man es im jeweiligen Gesetz so oder ähnlich liest.
Muss man das haben?
Prüferseitiges Bemühen um inhaltlich begründete Noten einschließlich eines halbwegs nachvollziehbaren Umgangs mit Abweichungen dient nicht nur der Herstellung einer vertrauensvollen Atmosphäre oder der Erfüllung lästiger einfachgesetzlicher Pflichten. Das Vier-Augen-Prinzip ist verfassungsrechtlich notwendig. Art. 12 I GG gibt Maßstäbe für berufszugangsregelnde Prüfungen vor. Aus dem Grundgesetz wird man Anforderungen an ein gewisses Maß an Reliabilität von Prüfungsbewertungen ableiten können. Eine Note, die aus der Feder eines anderen Prüfers ganz anders ausfällt, erregt da natürlich Bedenken. So gesehen sind Zeit und Geld für die doppelte Bewertung gut investiert.
Allerdings sollte es eben auch möglich sein, dass zwei Prüfer zu abweichenden Bewertungen gelangen. So ließe sich argumentieren, dass es nicht nur eine doppelte Bewertung geben müsse, sondern die beiden Voten womöglich sogar ohne Kenntnis der jeweils anderen Bewertung begründet werden müssen. Denn auf die Ankereffekt-Schwierigkeiten, die sich aus der Kenntnis der Note des Erstprüfers ergeben, hat zuletzt Mohnert mit Blick auf die Erkenntnisse der Psychologie hingewiesen.
Funktioniert das?
Nicht so sehr. (Uuups, das war ein Spoiler…!) Wer fragt, wie sich Zweitkorrektur- und Notenabweichungspraxis in der aktuellen Korrekturwirklichkeit gestalten, braucht Daten aus dem Maschinenraum der Justizprüfungsämter, die in der Breite leider nicht vorliegen (genauer gesagt: nicht veröffentlicht werden). Wir wissen aus keinem Bundesland genau, wie oft und wie weit Erst- und Zweitkorrektor in der Bewertung voneinander abweichen. Einen Datensatz haben wir allerdings, der vorsichtig erahnen lässt, wie das Zusammenspiel zwischen Erst- und Zweitkorrektor funktioniert:
In Berlin/Brandenburg wird der jeweils aktuellste Satz mit Klausurergebnissen veröffentlicht. Die anonymisierten Bewertungen der zuletzt an den Aufsichtsarbeiten im staatlichen Pflichtfachteil der dortigen Ersten Juristischen Prüfung in der Kampagne 1.2022/II teilnehmenden 528 Kandidaten sind herunterladbar. Die Teilnehmer hatten jeweils sieben Klausuren zu schreiben. Das Lesen der sich daraus ergebenden zehnseitigen Tabelle stimmt niemanden wirklich heiter (dazu Griebel/Schimmel, “Ein ernüchternder Blick auf die durchschnittlichen Noten der Ersten juristischen Prüfung”). Neben den zu befürchtenden Einsichten – trauriges Notenniveau, sehr wenige Überflieger, das obere Drittel der Notenskala wird praktisch nicht gebraucht und könnte ehrlicherweise abgeschafft werden – fällt eine eher unerwartete Kollateralerkenntnis in Sachen Erst-/Zweitkorrektur ins Auge.
Knapp über der Nachweisgrenze: Notenabweichungen
Unter den 3696 Einzelnoten sind beachtliche zwölf, bei denen die Nachkommastelle nicht ,0 (wie bei 3,0 oder 11,0) lautet, sondern ,5 (wie bei 3,5 oder 9,5). Übersetzt: Hier muss es zu einer Notenabweichung zwischen der Erst- und Zweitkorrektur gekommen sein. Bei knapp 3700 Arbeiten fallen diese zwölf kaum ins Gewicht: Ihr Anteil beläuft sich auf 0,32 % aller Klausuren. Verdoppelt man vorsichtshalber den Wert (weil Notenabweichungen zwischen beiden Korrektoren um zwei, vier oder sechs Punkte an der Nachkommastelle nicht ablesbar sind) optimistisch (weil Notenabweichungen um zwei Punkte seltener sein dürften als solche um einen Punkt), nähert sich die Quote der 1 %-Marke, aber eben von unten und sehr gemächlich.
Kann es wirklich sein, dass nicht mehr als 1% der Klausurbenotungen von abweichenden Einschätzungen der beiden Korrektoren geprägt waren? Man möchte es nicht glauben. Lieber Leser, halte kurz inne und frage Dich: Wie wahrscheinlich ist es innerhalb einer 19schrittigen Notenskala (0-18), dass zwei juristische Prüfer eine 25seitige Klausurleistung mit derselben Note bewerten?
Ist das also nur ein atypischer Ausreißer? In der Kampagne 1.2021/I finden sich unter den 3409 Klausuren der 487 Teilnehmer immerhin 16 Klausuren mit einer ,5. Sie verteilen sich ziemlich gleichmäßig auf die Prüfungen Öffentliches Recht 2 und Zivilrecht 2. Das sind schon 0,47 % – beinahe eine Divergenz auf 200 Klausuren. Not too bad!
Fast ein wenig irritierend: Von den zwölf Arbeiten mit erkennbarer Bewertungsabweichung der Kampagne 1.2022/II entfallen zehn auf die Klausur Zivilrecht I. Das lässt die Vermutung zu, es könnte nur ein einzelner Zweitprüfer zu differenzierten Leistungsbewertungen gelangt sein. Auch das wäre bemerkenswert, ist aber natürlich Spekulation. Wir würden uns wünschen, mehr Zahlen zu haben, die anderes verraten, aber öffentliche Zahlen gibt es nicht.
Wie kommt das?
Vielleicht (!) erklären sich die niedrig anmutenden Zahlen auch mit der Regelung in § 36 II JAO Berlin, der zufolge bei Abweichungen von mehr als drei Punkten zwischen den Prüfervoten der Präsident des JPA eine Note festlegen (lassen) kann, die dann vermutlich rund ist. Es könnte also womöglich massenhaft Bewertungsdivergenzen geben, die aber an den bekanntgegebenen Noten nicht mehr abzulesen wären.
Eine weniger optimistische Lesart könnte lauten: Der schlecht bezahlte Zweitprüfer (dazu Schimmel myops 48/2023, 50 ff.) nutzt zeitsparend die ihm eingeräumte Möglichkeit, sich dem Votum des Erstprüfers ohne (größere) eigene Begründung anzuschließen, in über 99,5 % der Fälle. Weil der Erstprüfer seine Bewertungen so sorgfältig begründet hat und der Ankereffekt zudem wirkt, auch ohne dem Ankernden bewusst zu sein, hat der Zweitprüfer dabei kein schlechtes Gewissen. Die Prüfungsämter sehen keinen Grund für Beanstandungen und präsentieren den Kandidaten maximal-einheitliche Bewertungen.
Nach dieser Lesart könnten die Zweitbewertungen ebenso gut entfallen. Das würde Geld sparen und den Prüfungsablauf beschleunigen (nicht zu vernachlässigen: Ein dadurch ermöglichter zwei Monate früherer Berufseintritt der Kandidaten hätte vermutlich positive volkswirtschaftliche Effekte). Bedenken wegen Art 12 I GG müssten allerdings mühsam argumentativ ausgeräumt werden. Man käme also mit schnelleren und billigeren Verfahren zu praktisch identischen Ergebnissen. Liegt hier ein attraktiver Reformansatz?
Reformbemühungen
Einen anderen Weg geht gerade Rheinland-Pfalz. Soweit ersichtlich erstmals soll jetzt in der dortigen Landesprüfungsordnung eine doppelte Korrektur in Unkenntnis der jeweils anderen Bewertung eingeführt werden (Amerikaner und Prüfungsforscher nennen das double blind).
Der vorgeschlagene Text der zu ändernden JAPO Rheinland-Pfalz lautet:
“§ 9 Bewertung der Prüfungsleistungen
(1) 3 Der Zweitprüferin oder dem Zweitprüfer darf die Bewertung durch die Erstprüferin oder den Erstprüfer nicht bekannt sein.“
Dieses Vorhaben kann man nur begrüßen. (Allerdings drängt sich die Frage auf, zu welchen Zwecken die Prüfer die Korrektorenkontaktdatenlisten der Prüfungsämter wohl verwenden könnten.) Ob die Ergebnisse besser oder schlechter ausfallen werden, lässt sich kaum vorhersagen. Sie werden aber doch absehbar ehrlicher ausfallen. Das wird wiederum zu einem Integritäts- und Glaubwürdigkeitsgewinn des juristischen Prüfungsgeschäfts beitragen. Härtere Zeiten für die Zyniker.
Leider veröffentlichen die Prüfungsämter wie angesprochen keine Einzelheiten. Ob also wenigstens in Rheinland-Pfalz eine neue Prüfungskultur erblühen wird mit massenhaft Abweichungen, Meinungsverschiedenheiten, ergebnisoffenem Diskurs zwischen den Prüfern und transparenter Dokumentation zugunsten der Kandidaten (die darauf womöglich eine spätere Prüfungsanfechtung stützen könnten) – wir werden es voraussichtlich nicht erfahren. Gleiches gilt für die Reaktion der betroffenen Prüfer, denn nicht allen wird das gefallen. Schade eigentlich.
Roland Schimmel / Jörn Griebel: Je länger die Verfasser über Staatsprüfungen nachdenken, desto glücklicher sind sie, diese hinter sich zu haben.
Projekt zum Sammeln von Examensergebnissen: Examens Stats