Die schweizer Studie „LEXam: Benchmarking Legal Reasoning on 340 Law Exams“ evaluiert die juristischen Denkfähigkeiten großer Sprachmodelle (LLMs) anhand von 340 realen Juraprüfungen – mit interessanten Ergebnissen.
Schweizer Forscher:innne haben 18 KI-Systeme mit 4.886 Prüfungsfragen aus juristischen Prüfungen der Universität Zürich (2016-2023) auf englischer und deutscher Sprache konfrontiert. Anhand von 2.841 offenen Fragen sowie 2.045 Multiple-Choice-Fragen analysierten sie, inwiefern die LLMs in der Lage sind, juristisch zu denken. Gegenüber den angloamerikanischen Juraprüfungen, die oft überwiegend aus Multiple-Choice-Fragen bestehen, wurde in dieser Studie von den KI-Tools deswegen auch erwartet, dass sie juristische Argumentationsweisen verstehen und anwenden können.
340 Juraklausuren, 18 KI-Systeme, 4.886 Antworten
Die Studie zeigt, dass aktuelle LLMs insbesondere bei offenen Fragen, die eine strukturierte und mehrstufige juristische Argumentation erfordern, erhebliche Schwierigkeiten haben. Dies betrifft insbesondere die Fähigkeit, relevante rechtliche Fragestellungen zu identifizieren und adäquat anzuwenden.
Durch den Einsatz des „LLM-as-a-Judge“-Paradigmas, bei dem die von den Modellen generierten Argumentationsschritte von menschlichen Expert:innen validiert werden, konnte die Studie eine klare Unterscheidung zwischen den Fähigkeiten verschiedener Modelle feststellen. Dabei ergab sich folgende Erkenntnis: Reasoning Modelle schneiden besser ab als klassische große Sprachmodelle, die wiederum besser sind als kleine Modelle. Insgesamt schnitten Gemini-2.5-Pro und Claude-3.7-Sonnet am besten ab.
Schlechtes Abschneiden bei deutscher Sprache
Bei Multiple-Choice-Fragen werden die Ergebnisse schlechter, je mehr Antwortmöglichkeiten angeboten werden (z.B. 16 statt 4). Die Forscher:innen können daraus eindeutig schließen, dass KI nicht wirklich “nachdenkt” oder “Wissen widergibt”, sondern schlicht die plausibelste Antwort “errechnet”.
Aus dem Vergleich der deutschen Prüfungsaufgaben mit den englischen Prüfungsaufgaben lässt sich ableiten, dass alle Modelle bei deutschsprachigen Aufgaben deutlich schlechter performen. Ein möglicher Grund: Das deutsche Trainingsmaterial ist qualitativ schlechter bzw. quantitativ stehen nicht so viele Datensätze zur Verfügung. Eine weitere mögliche Ursache dafür könnte aber auch der Unterschied zum sog. angloamerikanischen “case-law” sein. Eventuell waren die englischsprachigen Prüfungsaufgaben vom Schwierigkeitsgrad her aber auch einfacher.
Die Studie „LEXam“ liefert wertvolle Erkenntnisse über die aktuellen Fähigkeiten und Grenzen von LLMs im Bereich der juristischen Argumentation. Sie stellt einen wichtigen Schritt dar, um die Eignung dieser Modelle für den Einsatz in der juristischen Praxis realistisch zu bewerten und weiterzuentwickeln. Gleichzeitig zeigt die Studie aber auch auf, dass in dieser Hinsicht noch ein großer Forschungsbedarf besteht. Dieser wird insbesondere dadurch erschwert, dass es fast täglich neue KI-Modelle und diese sich rasend schnell wandeln und verbessern.
Das könnte Dich auch interessieren:
- LMU München setzt KI-Tutor für das Jurastudium ein
- Juristische Laien vertrauen ChatGPT mehr als Anwält:innen!
- Experiment vergleicht Nutzen verschiedener KI-Sprachmodelle für den Einsatz im US-Jurastudium
- Umfrage: Kanzleien erwarten von angehenden Anwältinnen und Anwälten noch kein KI-Wissen
- Studie: Künstliche Intelligenz als Gamechanger in der anwaltlichen Arbeit?