Wettbewerb der KI-Modelle: In der jüngsten Benchmark-Studie der ESB Business School zeigt sich ein bemerkenswerter Wendepunkt. Während OpenAI in den vergangenen zwei Jahren nahezu durchgehend die Spitzenposition im juristischen Reasoning innehatte, gelingt Google erstmals der Durchbruch. Gemini 3 Pro übertrifft ChatGPT‑5.2 in allen getesteten Rechtsgebieten – und das teils deutlich.
Die Untersuchung basiert auf 200 juristischen Multiple-Choice-Fällen aus dem BGB AT, Schuldrecht, Wirtschaftsrecht und Arbeitsrecht. Die Ergebnisse veröffentlichten Sascha Schweitzer, Navid Sheikh Mouchegani und Markus Conrads im Aufsatz „Lawyering Up: An Evaluation of Large Language Models’ Potential for Transforming Business Law Practice“.
Alle Modelle wurden unter identischen Bedingungen geprüft, ohne Kettenprompting, ohne zusätzliche Hilfestellungen und ohne mehrstufige Analyseaufforderungen. Die Modelle mussten jeweils aus vier Antwortmöglichkeiten die einzig richtige auswählen – ein Format, das in Deutschland zwar untypisch für juristische Prüfungen ist, aber eine objektive Vergleichbarkeit ermöglicht.
Verträge, Wirtschaftsrecht, Arbeitsrecht
Die Ergebnisse der neuen Testreihe zeigen ein klares Bild: ChatGPT‑5.2 erreicht solide Werte, bleibt aber hinter den Erwartungen zurück, insbesondere weil sich im Vergleich zu den Versionen 5.0 und 5.1 kaum Fortschritte feststellen lassen. ChatGPT-5.2 erzielt:
• Zustandekommen & Wirksamkeit: 78 %
• Vertragsverletzung: 80 %
• Wirtschaftsrecht: 63,64 %
• Arbeitsrecht: 80 %
Gemini 3 Pro hingegen übertrifft diese Ergebnisse in jeder einzelnen Kategorie:
• Zustandekommen & Wirksamkeit: 78 %
• Vertragsverletzung: 84 %
• Wirtschaftsrecht: 73 %
• Arbeitsrecht: 84 %
Diese Entwicklung fügt sich nahtlos in die langfristigen Trends ein, die die Forschung der vergangenen zwei Jahre dokumentiert hat. Wie die im Anhang dargestellten Daten zeigen, haben große Sprachmodelle seit Anfang 2023 eine jährliche Leistungssteigerung von durchschnittlich rund 13,68 Prozent erzielt. Die Fortschritte waren dabei keineswegs gleichmäßig verteilt: Während einige Modelle wie GPT‑4 oder Claude 3 Opus frühzeitig hohe Werte erreichten, blieben andere – darunter mehrere Open-Source-Modelle – deutlich zurück. Die jüngste Generation jedoch zeigt, dass die Leistungsdifferenzen zwischen den Spitzenmodellen kleiner werden und sich der Wettbewerb zunehmend verschärft.
Google optimiert Modell für juristische Aufgaben
Die neue Dominanz von Gemini 3 Pro ist deshalb mehr als ein punktueller Ausreißer. Sie markiert den ersten systematischen Fall, in dem ein Google-Modell ein aktuelles ChatGPT-Modell im juristischen Reasoning überholt. Dies ist insofern bemerkenswert, als Google in früheren Studien zwar punktuell überzeugte, aber nie die Gesamtführung übernehmen konnte. Die Ergebnisse legen nahe, dass Google seine Modellarchitektur gezielt auf komplexe juristische Aufgaben optimiert hat – ein Bereich, der traditionell als besonders anspruchsvoll gilt, weil er präzises Textverständnis, logische Konsistenz und die Fähigkeit zur Anwendung abstrakter Normen erfordert.
Die Studie zeigt außerdem, dass ChatGPT‑5.2 im Vergleich zu seinen Vorgängern kaum Fortschritte macht. Während frühere Versionen – insbesondere GPT‑4 und GPT‑4.5 – noch deutliche Sprünge verzeichneten, scheint die Entwicklung nun in eine Phase geringerer Zuwächse einzutreten. Ob dies auf architektonische Grenzen, veränderte Trainingsprioritäten oder eine stärkere Ausrichtung auf multimodale Fähigkeiten zurückzuführen ist, bleibt offen. Für die juristische Praxis bedeutet dies jedoch, dass OpenAI erstmals seit Jahren nicht mehr unangefochten an der Spitze steht.
Die Ergebnisse werfen auch ein neues Licht auf die Frage, ob KI-Systeme juristische Arbeitsprozesse tatsächlich grundlegend neugestalten können. Denn LLMs wurden in den vergangenen zwei Jahren nicht nur stetig besser, sondern auch zunehmend in reale juristische Workflows integriert – von automatisierten Vertragsanalysen bis hin zu Assistenzsystemen in Gerichten. Wenn nun ein weiterer großer Anbieter wie Google in der Lage ist, OpenAI im Kernbereich des juristischen Reasonings zu überholen, könnte dies den Wettbewerb zusätzlich beschleunigen und die Entwicklung spezialisierter juristischer KI-Systeme weiter vorantreiben.
Fundstelle: https://www.sciencedirect.com/


