Wusstest du, dass Meta – der Konzern hinter Facebook und Instagram – deine öffentlichen Instagram-Posts und Bildunterschriften für das Training seiner neuen Künstlichen Intelligenz (KI) nutzen kann? Ohne, dass viele Menschen es wissen, könnten ihre Inhalte in die Entwicklung von Meta AI einfließen. Das betrifft nicht nur große Unternehmen oder bekannte Persönlichkeiten, sondern jeden, der auf Instagram aktiv ist.
Dabei sind Künstliche Intelligenzen wie ChatGPT längst zu einem festen Bestandteil unseres Alltags geworden. Seit der Veröffentlichung im Jahr 2022 hat ChatGPT unsere Arbeitsweise grundlegend verändert. Ob beim Erstellen von Einkaufslisten, beim Schreiben von Hausarbeiten oder beim Übersetzen von Texten – die KI scheint überall zu sein und hilft uns in unzähligen Alltagssituationen. Doch was passiert eigentlich mit all den Daten, die sie verarbeitet? Woher kommen diese Informationen, und wie wird sie damit „intelligent“? Die Antwort liegt im Training der KI: Sie wird mit riesigen Datenmengen gefüttert, um Muster zu erkennen und zu lernen.
Wenn Maschinen lernen – Wie KI funktioniert
Doch ist das rechtlich überhaupt zulässig? Welche Regeln gelten für das sogenannte Text- und Data Mining, also das automatisierte Durchsuchen und Verwenden großer Datenmengen? Und welche Rechte haben Personen, wenn sie nicht möchten, dass ihre Inhalte zum KI-Training verwendet werden? In diesem Beitrag klären wir diese Fragen und zeigen, warum dieses Thema für alle, die soziale Medien nutzen, relevant ist.
Künstliche Intelligenz beschreibt Systeme, die in der Lage sind, Aufgaben zu übernehmen, die normalerweise menschliche Intelligenz erfordern, wie etwa das Erkennen von Mustern, das Verstehen von Sprache oder das Treffen von Entscheidungen. KI „lernt“ durch eine Methode, die maschinelles Lernen genannt wird. Dabei werden große Mengen an Daten genutzt, um der Maschine beizubringen, wie sie bestimmte Aufgaben besser und schneller erledigen kann – ohne dass sie jedes Mal von Menschen neu angelernt werden muss.
Wie wird KI trainiert?
KI-Modelle, wie die von OpenAI entwickelten, werden in der Regel mit riesigen Datenmengen trainiert. Diese Daten können aus verschiedenen Quellen stammen, z.B. aus Büchern, wissenschaftlichen Artikeln, Musik, Bildern oder Webseiten. Das Ziel des Trainings ist es, der KI zu helfen, Zusammenhänge und Muster in den Daten zu erkennen, um so besser Vorhersagen treffen oder Aufgaben erfüllen zu können.
Um eine KI zu trainieren, werden Texte oder andere Daten in maschinenlesbare Formate umgewandelt und dann verarbeitet. Dabei „lernt“ die KI, wie Wörter, Sätze und Konzepte zusammenhängen und wie sie sinnvoll auf Eingaben reagieren kann.
Was ist Text- und Data Mining?
Das Gesetz gibt in § 44b Urheberrechtsgesetz (UrhG) eine klare Definition von Text- und Data Mining vor: „Text- und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.“ Doch was bedeutet das nun genau?
Einfach gesagt, beschreibt Text- und Data Mining den Prozess, bei dem riesige Mengen an Daten durch Maschinen analysiert werden, um wertvolle Informationen, Muster oder Zusammenhänge zu erkennen. Statt jede einzelne Information von Hand durchzugehen, übernimmt die Technologie diese Aufgabe und spart so viel Zeit und Aufwand. Dieser Prozess wird häufig eingesetzt, um aus großen Textsammlungen oder Datensätzen wichtige Erkenntnisse zu gewinnen – und das auf eine viel schnellere und effizientere Weise, als es ein Mensch allein könnte. Besonders in der Forschung und in der Entwicklung von KI-Systemen ist Text- und Data Mining von großer Bedeutung, da es dabei hilft, die richtigen Informationen aus enormen Datenmengen herauszufiltern und für neue Erkenntnisse oder Innovationen zu nutzen.
Das Urheberrecht und seine Relevanz im KI-Kontext
Das Urheberrecht schützt die kreativen Werke des Schöpfers. Es gewährt diesem die exklusiven Rechte an den Werken, sodass er bestimmen kann, wie die Werke genutzt, vervielfältigt oder verbreitet werden. Doch in einer digitalen Welt, in der Künstliche Intelligenz auf riesige Mengen von Daten zugreifen muss, stellt sich die Frage, ob und inwiefern urheberrechtlich geschützte Werke für das Training von KI verwendet werden dürfen. Wird der Urheber überhaupt noch geschützt?
Ein zentrales Thema hierbei ist der § 44b UrhG, der in Deutschland bestimmte Ausnahmen vom Urheberrecht für das kommerzielle Text- und Data Mining regelt.
§ 44b UrhG: Die rechtlichen Rahmenbedingungen für Text- und Data Mining
Der § 44b UrhG erlaubt es unter bestimmten Bedingungen, urheberrechtlich geschützte Werke ohne die Zustimmung des Rechteinhabers zu nutzen. Diese Ausnahme gilt jedoch nur, wenn die Werke rechtmäßig zugänglich gemacht wurden und für das Text- und Data Mining verwendet werden. Ein Werk gilt als „rechtmäßig zugänglich“, wenn es zum Beispiel frei im Internet verfügbar ist.
Ob das Training von KI unter diese Ausnahme fällt, ist allerdings noch nicht endgültig entschieden. Auch das Urteil des Landgerichts Hamburg im September 2024 (Az. 310 O 227/23) hat keine klare Antwort gegeben. Das Gericht hat nicht entschieden, ob das gesamte Training von KI unter die Regelungen des § 44b UrhG fällt oder nicht.
Rechteinhaber können durch einen sogenannten „Nutzungsvorbehalt“ verhindern, dass ihre Werke für Text- und Data Mining verwendet werden. Das bedeutet, dass ein Werk dann nicht mehr für das Training von KI genutzt werden darf. Allerdings ist noch nicht klar, wie dieser Nutzungsvorbehalt genau erklärt werden muss. Das Gesetz sagt nur, dass er in einer „maschinenlesbaren“ Form erfolgen muss. Aber was genau bedeutet das? Reicht es, wenn man in seinen Allgemeinen Geschäftsbedingungen (AGB) einen Hinweis darauf gibt? Oder muss eine spezielle Datei wie die robots.txt verwendet werden?
Die rechtliche Lage rund um das Text- und Data Mining bleibt weiterhin komplex und umstritten. Während Unternehmen auf bestehende Ausnahmen im Urheberrecht verweisen, fordern viele Kreative mehr Transparenz und Kontrolle über ihre eigenen Inhalte. Der § 44b UrhG enthält zwar eine gewisse Regelung, lässt aber viele Fragestellungen offen – insbesondere, wie ein wirksamer Nutzungsvorbehalt in der Praxis aussehen muss.
Schutz vor ungewollter Datennutzung – aber wie?
Ob Instagram-Posts, Bildunterschriften oder andere Inhalte – was wir in sozialen Netzwerken teilen, kann ohne unser Wissen für das Training von KI genutzt werden. Meta ist dabei nur ein Beispiel für viele Unternehmen, die auf riesige Datenmengen zugreifen, um ihre KI-Modelle zu verbessern.
Meta änderte im vergangenen Jahr seine Datenschutzbestimmungen dahingehend, dass die Nutzerdaten für das KI-Training verwendet werden können. Dies wurde jedoch von der irischen Datenschutzbehörde untersagt, sodass Meta derzeit aus datenschutzrechtlichen Gründen keine Nutzerdaten für das KI-Training verwenden darf.
Das bedeutet für den einzelnen User: Wer nicht möchte, dass seine Inhalte zum KI-Training verwendet werden, sollte sich über die Widerspruchsmöglichkeiten informieren und Datenschutzrichtlinien genauer betrachten. Bei Plattformen wie Instagram kann man der Nutzung der eigenen Daten zum KI-Training beispielsweise über die Einstellungen widersprechen. Denn eines ist sicher: Die Debatte über den rechtlichen Rahmen für KI und das Urheberrecht steht erst am Anfang – und wird in den kommenden Jahren weiter an Bedeutung gewinnen.