Nicht-Jurist:innen sind eher bereit, sich auf die Rechtsberatung durch ChatGPT zu verlassen als auf die von echten Anwältinnen und Anwälten – zumindest, wenn sie nicht wissen, wer von beiden den Rat erteilt hat. Das fand eine Studie an der Universität Southampton heraus.
KI-Tools wie ChatGPT und andere große Sprachmodelle (LLMs) halten Einzug in unseren Alltag. Ihr Versprechen: schnelle, zuverlässige Antworten. Auch in der Rechtsbranche wird deswegen mit dem Einsatz von LLMs experimentiert – neben der Vertragsgestaltung unter anderem auch für die Rechtsberatung von Mandant:innen. Bereits 2018 schlug KI schon Anwält:innen bei der Vertragsanalyse. In den USA besteht ChatGPT inzwischen das Bar Exam.
ChatGPT und Co. sind aber auch dafür bekannt, dass sie „halluzinieren“, also Ergebnisse ausspucken, die entweder komplett frei erfunden sind oder jedenfalls nicht auf den angegebenen Fundstellen beruhen. So erzeugen LLMs beispielsweise regelmäßig falsche Aktenzeichen – worauf in der Vergangenheit auch schon Anwält:innen hereinfielen und sich in Gerichtsprozessen blamierten. Wer sich blind auf das Ergebnis eines Sprachmodells verlässt, geht also ein nicht unerhebliches Risiko ein. Gerade in sensiblen Bereichen wie dem Gesundheitswesen oder der Rechtsbranche, in denen regelmäßig viel auf dem Spiel steht. Ein weiteres Problem: LLMs neigen dazu, ihre Ratschläge so selbstbewusst zu präsentieren, dass es vielen Menschen schwerfällt, gute Ratschläge von frei erfundenen (schlechten) Ratschlägen zu unterscheiden.
Experiment mit 288 Teilnehmenden über drei Disziplinen
Forscher:innen der Universität Southampton haben im Hinblick auf den Rechtsrat durch KI-Sprachmodelle jetzt ein spannendes Experiment durchgeführt. Dafür schlossen sich Akademiker:innen aus den Bereichen Informatik, Psychologie und Recht zusammen. In drei Runden wurden insgesamt 288 Personen befragt.
In den ersten beiden Experimenten wurde den Teilnehmenden ein rechtlicher Rat gegeben und sie wurden gefragt, welchen sie befolgen würden. Das Ergebnis: Wenn die Teilnehmenden nicht wussten, ob der Rat von echten Anwält:innen oder einer KI stammte, waren sie eher bereit, sich auf den von der KI generierten Rat zu verlassen. Wenn ChatGPT also einen Rechtsrat gibt, ohne seine Natur als KI offenzulegen, ziehen Menschen diesen Rat dem Expertenrat von Anwält:innen vor.
Aber es wird noch verrückter: Selbst wenn den Teilnehmenden im Expertiment mitgeteilt wurde, welcher Rat von echten Jurist:innen und welcher Rat von einer KI stammte, waren sie bereit, ChatGPT genauso zu folgen wie dem Rechtsrat von menschlichen Expert:innen. „These findings are surprising – and it was especially surprising that the participants who knew the source of the advice did not trust the lawyers more“, sagt Dr. Eike Schneiders , Assistenzprofessor für Informatik an der Universität Southampton. Haben Anwält:innen in der allgemeinen Bevölkerung einen so schlechten Ruf? Oder liegt es an einer Besonderheit in der Antwortweise der KI-Sprachmodelle?
Echte Anwält:innen kommen schlecht weg
Auch das erforschten die Wissenschaftler:innen. Ihr Ergebnis: Ein Grund dafür, dass LLMs bevorzugt werden, ist, dass sie eine komplexere Sprache verwenden. Und damit eventuell „klüger“ klingen. Echte Anwält:innen hingegen neigen dazu, in einfacherer Sprache zu sprechen. Allerdings verpacken sie ihren Rat auch in mehr Wörter. Ist das Problem eventuell die fehlende Aufmerksamkeitsspanne vieler Menschen?
Im dritten Experiment untersuchten die Forschenden, ob die Teilnehmer:innen zwischen LLM- und anwaltlich erstellten Inhalten unterscheiden können. Die gute Nachricht: Grundsätzlich ja. Allerdings ist das Experiment sehr knapp ausgegangen.
Wer zufällig rät, von wem die vorgelegte Antwort stammt, hat im Experiment eine Punktzahl von 0,5 erhalten. Wenn der oder die Teilnehmende in jedem Fall mit seiner oder ihrer Antwort richtig gelegen hätte, hätte die Person eine Punktzahl von 1,0 erhalten. Im Durchschnitt erreichten die Teilnehmenden eine Punktzahl von 0,59, was eine etwas bessere Leistung als das zufällige Raten bedeutet, aber immer noch relativ schwach ist.
Menschen fällt es schwer, KI-Antworten zu erkennen
Die Wissenschaftler:innen warnen deswegen eindrücklich vor den Risiken: „This comes with significant risks of making potentially life-altering decisions that are guided by hallucinated misinformation. In the legal case, AI-generated, hallucinated advice could cause unnecessary complications or even miscarriages of justice.“
Deswegen sei es wichtig, KI angemessen zu regulieren. Als guten Ansatz nennen die Forschenden unter anderem Artikel 50 des EU KI Acts, der Anbieter:innen von KI-Inhalten verpflichtet, diese als KI-generiert zu kennzeichnen. Außerdem rufen die Wissenschaftler:innen dazu auf, die Bildung im Hinblick auf LLMs zu verbessern und die Bevölkerung im Umgang mit KI zu schulen. Die Öffentlichkeit müsse in der Lage sein, KI-generierte Inhalte selbstständig zu erkennen. Dazu gehöre insbesondere, die Quellen, auf denen die Antworten beruhen, zu hinterfragen.
Im Falle der Rechtsberatung sei es in Ordnung, KI für einige erste Fragen einzusetzen. Die Ergebnisse sollten dann aber unbedingt von Anwält:innen überprüft werden. KI sei ein wertvolles Instrument, aber man müsse es verantwortungsvoll einsetzen.
Fundstelle: https://www.southampton.ac.uk/