Schweizer Studie analysiert 340 Juraprüfungen mittels KI

-Werbung-spot_imgspot_img

Die schweizer Studie „LEXam: Benchmarking Legal Reasoning on 340 Law Exams“ evaluiert die juristischen Denkfähigkeiten großer Sprachmodelle (LLMs) anhand von 340 realen Juraprüfungen – mit interessanten Ergebnissen.

Schweizer Forscher:innne haben 18 KI-Systeme mit 4.886 Prüfungsfragen aus juristischen Prüfungen der Universität Zürich (2016-2023) auf englischer und deutscher Sprache konfrontiert. Anhand von 2.841 offenen Fragen sowie 2.045 Multiple-Choice-Fragen analysierten sie, inwiefern die LLMs in der Lage sind, juristisch zu denken. Gegenüber den angloamerikanischen Juraprüfungen, die oft überwiegend aus Multiple-Choice-Fragen bestehen, wurde in dieser Studie von den KI-Tools deswegen auch erwartet, dass sie juristische Argumentationsweisen verstehen und anwenden können.

340 Juraklausuren, 18 KI-Systeme, 4.886 Antworten

Die Studie zeigt, dass aktuelle LLMs insbesondere bei offenen Fragen, die eine strukturierte und mehrstufige juristische Argumentation erfordern, erhebliche Schwierigkeiten haben. Dies betrifft insbesondere die Fähigkeit, relevante rechtliche Fragestellungen zu identifizieren und adäquat anzuwenden.

Durch den Einsatz des „LLM-as-a-Judge“-Paradigmas, bei dem die von den Modellen generierten Argumentationsschritte von menschlichen Expert:innen validiert werden, konnte die Studie eine klare Unterscheidung zwischen den Fähigkeiten verschiedener Modelle feststellen. Dabei ergab sich folgende Erkenntnis: Reasoning Modelle schneiden besser ab als klassische große Sprachmodelle, die wiederum besser sind als kleine Modelle. Insgesamt schnitten Gemini-2.5-Pro und Claude-3.7-Sonnet am besten ab.

Schlechtes Abschneiden bei deutscher Sprache

Bei Multiple-Choice-Fragen werden die Ergebnisse schlechter, je mehr Antwortmöglichkeiten angeboten werden (z.B. 16 statt 4). Die Forscher:innen können daraus eindeutig schließen, dass KI nicht wirklich „nachdenkt“ oder „Wissen widergibt“, sondern schlicht die plausibelste Antwort „errechnet“.

Aus dem Vergleich der deutschen Prüfungsaufgaben mit den englischen Prüfungsaufgaben lässt sich ableiten, dass alle Modelle bei deutschsprachigen Aufgaben deutlich schlechter performen. Ein möglicher Grund: Das deutsche Trainingsmaterial ist qualitativ schlechter bzw. quantitativ stehen nicht so viele Datensätze zur Verfügung. Eine weitere mögliche Ursache dafür könnte aber auch der Unterschied zum sog. angloamerikanischen „case-law“ sein. Eventuell waren die englischsprachigen Prüfungsaufgaben vom Schwierigkeitsgrad her aber auch einfacher.

Die Studie „LEXam“ liefert wertvolle Erkenntnisse über die aktuellen Fähigkeiten und Grenzen von LLMs im Bereich der juristischen Argumentation. Sie stellt einen wichtigen Schritt dar, um die Eignung dieser Modelle für den Einsatz in der juristischen Praxis realistisch zu bewerten und weiterzuentwickeln. Gleichzeitig zeigt die Studie aber auch auf, dass in dieser Hinsicht noch ein großer Forschungsbedarf besteht. Dieser wird insbesondere dadurch erschwert, dass es fast täglich neue KI-Modelle und diese sich rasend schnell wandeln und verbessern.


Das könnte Dich auch interessieren:

-Werbung-
Redaktion
Redaktion
JURios. Kuriose Rechtsnachrichten. Kontakt: redaktion@jurios.de

Ähnliche Artikel

Social Media

10,950FollowerFolgen
3,146FollowerFolgen
Download on the App Store
Jetzt bei Google Play
-Werbung-spot_img
-Werbung-

Letzte Artikel

Datenschutz-Übersicht

Diese Internetseiten verwenden teilweise so genannte Cookies. Cookies richten auf deinem Rechner keinen Schaden an und enthalten keine Viren. Cookies dienen dazu, unser Angebot nutzerfreundlicher, effektiver und sicherer zu machen. Cookies sind kleine Textdateien, die auf deinem Rechner abgelegt werden und die dein Browser speichert.

Die meisten der von uns verwendeten Cookies sind so genannte „Session-Cookies“. Sie werden nach Ende deines Besuchs automatisch gelöscht. Andere Cookies bleiben auf deinem Endgerät gespeichert, bis du diese löschst. Diese Cookies ermöglichen es uns, deinen Browser beim nächsten Besuch wiederzuerkennen.

Weitere Informationen findest du in der Datenschutzerklärung: Mehr erfahren