Schweizer Studie analysiert 340 Juraprüfungen mittels KI

-Werbung-spot_imgspot_img

Die schweizer Studie „LEXam: Benchmarking Legal Reasoning on 340 Law Exams“ evaluiert die juristischen Denkfähigkeiten großer Sprachmodelle (LLMs) anhand von 340 realen Juraprüfungen – mit interessanten Ergebnissen.

Schweizer Forscher:innne haben 18 KI-Systeme mit 4.886 Prüfungsfragen aus juristischen Prüfungen der Universität Zürich (2016-2023) auf englischer und deutscher Sprache konfrontiert. Anhand von 2.841 offenen Fragen sowie 2.045 Multiple-Choice-Fragen analysierten sie, inwiefern die LLMs in der Lage sind, juristisch zu denken. Gegenüber den angloamerikanischen Juraprüfungen, die oft überwiegend aus Multiple-Choice-Fragen bestehen, wurde in dieser Studie von den KI-Tools deswegen auch erwartet, dass sie juristische Argumentationsweisen verstehen und anwenden können.

340 Juraklausuren, 18 KI-Systeme, 4.886 Antworten

Die Studie zeigt, dass aktuelle LLMs insbesondere bei offenen Fragen, die eine strukturierte und mehrstufige juristische Argumentation erfordern, erhebliche Schwierigkeiten haben. Dies betrifft insbesondere die Fähigkeit, relevante rechtliche Fragestellungen zu identifizieren und adäquat anzuwenden.

Durch den Einsatz des „LLM-as-a-Judge“-Paradigmas, bei dem die von den Modellen generierten Argumentationsschritte von menschlichen Expert:innen validiert werden, konnte die Studie eine klare Unterscheidung zwischen den Fähigkeiten verschiedener Modelle feststellen. Dabei ergab sich folgende Erkenntnis: Reasoning Modelle schneiden besser ab als klassische große Sprachmodelle, die wiederum besser sind als kleine Modelle. Insgesamt schnitten Gemini-2.5-Pro und Claude-3.7-Sonnet am besten ab.

Schlechtes Abschneiden bei deutscher Sprache

Bei Multiple-Choice-Fragen werden die Ergebnisse schlechter, je mehr Antwortmöglichkeiten angeboten werden (z.B. 16 statt 4). Die Forscher:innen können daraus eindeutig schließen, dass KI nicht wirklich “nachdenkt” oder “Wissen widergibt”, sondern schlicht die plausibelste Antwort “errechnet”.

Aus dem Vergleich der deutschen Prüfungsaufgaben mit den englischen Prüfungsaufgaben lässt sich ableiten, dass alle Modelle bei deutschsprachigen Aufgaben deutlich schlechter performen. Ein möglicher Grund: Das deutsche Trainingsmaterial ist qualitativ schlechter bzw. quantitativ stehen nicht so viele Datensätze zur Verfügung. Eine weitere mögliche Ursache dafür könnte aber auch der Unterschied zum sog. angloamerikanischen “case-law” sein. Eventuell waren die englischsprachigen Prüfungsaufgaben vom Schwierigkeitsgrad her aber auch einfacher.

Die Studie „LEXam“ liefert wertvolle Erkenntnisse über die aktuellen Fähigkeiten und Grenzen von LLMs im Bereich der juristischen Argumentation. Sie stellt einen wichtigen Schritt dar, um die Eignung dieser Modelle für den Einsatz in der juristischen Praxis realistisch zu bewerten und weiterzuentwickeln. Gleichzeitig zeigt die Studie aber auch auf, dass in dieser Hinsicht noch ein großer Forschungsbedarf besteht. Dieser wird insbesondere dadurch erschwert, dass es fast täglich neue KI-Modelle und diese sich rasend schnell wandeln und verbessern.


Das könnte Dich auch interessieren:

-Werbung-
Redaktion
Redaktion
JURios. Kuriose Rechtsnachrichten. Kontakt: redaktion@jurios.de

Ähnliche Artikel

Social Media

10,950FollowerFolgen
3,146FollowerFolgen
Download on the App Store
Jetzt bei Google Play
-Werbung-spot_img
-Werbung-

Letzte Artikel