Urheberrechtliche Herausforderungen beim Training generativer KI-Modelle

Die Nutzung generativer KI-Modelle wie ChatGPT, DALL-E oder Stable Diffusion ist in den letzten Jahren enorm gestiegen. Diese Modelle sind in der Lage, auf Basis von Nutzeranweisungen kreative Inhalte zu generieren, wie z.B. Texte, Bilder oder Musikstücke. Diese Fähigkeit zur autonomen Kreativität basiert darauf, dass die KI-Modelle aus großen Datenmengen „gelernt“ haben, wie sie entsprechende Inhalte erstellen können. Ein erheblicher Teil dieser Datenbestände ist urheberrechtlich geschützt, was zu erheblichen rechtlichen Herausforderungen führt.

Technologische Grundlagen

Generative KI-Modelle basieren auf maschinellem Lernen, insbesondere auf tiefen künstlichen neuronalen Netzen (KNNs), die darauf trainiert werden, komplexe in großen Datenmengen zu erkennen.

Diese Modelle nutzen Lernprozesse wie überwachtes, unüberwachtes und bestärkendes Lernen, um ihre Fähigkeiten zu verbessern. Ein wichtiger Aspekt ist dabei das Pre-Training und Fine-Tuning der Modelle: Das Basismodell wird zunächst auf einem allgemeinen Datensatz trainiert (Pre-Training) und dann auf spezifischere Aufgaben oder Stile angepasst (Fine-Tuning). Dies ermöglicht es, die Modelle für verschiedene Anwendungen flexibel zu nutzen.

Urheberrechtliche Aspekte

Laut einem aktuellen Gutachten von Dornis und Stober entstehen im Rahmen des Trainings generativer KI-Modelle zahlreiche urheberrechtlich relevante Handlungen. Dazu zählen:

  1. Sammlung, Vorbereitung und Speicherung der Trainingsdaten: Diese Vervielfältigung urheberrechtlich geschützter Werke erfolgt im Zuge der Erstellung von Korpora, die als Basis für das KI-Training dienen.
  2. Training von generativen KI-Modellen: Während des Trainingsprozesses, insbesondere beim Pre-Training und Fine-Tuning, kommt es zu Vervielfältigungen der Werke „im Innern“ des Modells. Auch wenn die Daten nicht explizit gespeichert werden, können sie dennoch durch das Modell memoriert werden, was als Vervielfältigung im Sinne des Urheberrechts gilt.
  3. Verwendung generativer KI-Modelle: Nutzer, die generative KI-Systeme anwenden, erzeugen durch die Modelle neue Inhalte, die wiederum auf den geschützten Trainingsdaten basieren könnten. Dies stellt eine Nutzung der urheberrechtlich geschützten Werke dar.
  4. Öffentliche Zugänglichmachung: Wenn generative KI-Modelle zur Nutzung bereitgestellt werden, sei es durch Nutzeranwendungen oder als Download, liegt eine öffentliche Zugänglichmachung der Werke vor, die für das Training verwendet und im Modell vervielfältigt wurden.

Rechtliche Schranken und Herausforderungen

Die derzeitigen Schranken des Urheberrechts erfassen die Eingriffe durch das Training generativer KI-Modelle nur in wenigen, praktisch oft irrelevanten Fällen. Besonders hervorzuheben ist, dass laut Gutachten die Schranke für Text- und Data-Mining (TDM) nicht anwendbar ist. Generative KI-Modelle verwerten die Trainingsdaten umfassender als TDM, da sie nicht nur semantische, sondern auch syntaktische Informationen nutzen und diese in einem Vektorraum repräsentieren. Somit kommt es nach dortiger Analyse zu einer umfassenden Vervielfältigung der Inhalte, die über das hinausgeht, was durch TDM gedeckt wäre.

DSM Richtlinie

Die DSM-, die die rechtliche Grundlage für TDM bildet, war nicht auf die technologischen Entwicklungen von kreativ-produktiven KI-Systemen ausgerichtet und schließt deren Anwendung daher explizit aus. Ebenso wenig berücksichtigt die KI-Verordnung diese spezifischen Unterschiede, was zu rechtlichen Grauzonen führt.

Relevante urheberrechtliche Schranken und ihre Anwendung

Im deutschen Urheberrecht gibt es verschiedene Schrankenregelungen, die Eingriffe in urheberrechtlich geschützte Werke unter bestimmten Bedingungen erlauben. Im Kontext des Trainings generativer KI-Modelle sind insbesondere folgende Schranken relevant:

  1. § 44a UrhG – Vorübergehende Vervielfältigungshandlungen: Diese Schranke erlaubt vorübergehende Vervielfältigungen, die flüchtig oder begleitend sind und einen integralen und wesentlichen Teil eines technischen Verfahrens darstellen, wenn sie keinen eigenständigen wirtschaftlichen Wert haben. Laut dem Gutachten von Dornis und Stober greift diese Schranke beim Training von KI-Modellen jedoch nur begrenzt, da die Vervielfältigungen nicht lediglich flüchtig, sondern oft langfristiger Natur sind und über das technisch Notwendige hinausgehen.
  2. § 60d UrhG – Text- und Data-Mining (TDM): § 60d UrhG erlaubt Vervielfältigungen von Werken zum Zwecke des Text- und Data-Mining für nicht-kommerzielle wissenschaftliche Forschung. Für generative KI-Modelle ist diese Schranke jedoch kaum relevant, da die kommerzielle Nutzung solcher Modelle nicht von § 60d abgedeckt ist. Auch wird im Gutachten hervorgehoben, dass generative Modelle nicht nur semantische Informationen extrahieren, sondern auch syntaktische Strukturen nutzen, was über die Schranke des TDM hinausgeht.
  3. § 60a bis 60c UrhG – Nutzungen für Unterricht, Wissenschaft und Institutionen: Diese Schranken erlauben gewisse Nutzungen urheberrechtlich geschützter Werke für Bildungs- und wissenschaftliche Zwecke. Sie sind jedoch auf nicht-kommerzielle Kontexte beschränkt und betreffen das Training von generativen KI-Modellen meist nicht direkt, da die meisten Modelle auch kommerziell genutzt werden.
  4. § 44b UrhG – Vorübergehende Vervielfältigungen im Rahmen des Zugangs zu Netzwerken: § 44b UrhG ermöglicht es, vorübergehende Vervielfältigungshandlungen vorzunehmen, die erforderlich sind, um den Zugang zu Netzwerken und deren Inhalte zu ermöglichen, wenn diese Handlungen technisch bedingt und ohne eigenständigen wirtschaftlichen Zweck sind. Das Gutachten bewertet diese Schranke als besonders relevant, jedoch nur bedingt anwendbar auf generative KI-Modelle. Der Hauptgrund liegt darin, dass die Vervielfältigungen, die im Rahmen des KI-Trainings stattfinden, oft nicht nur vorübergehend, sondern dauerhaft im Modell gespeichert bleiben und damit über den Anwendungsbereich von § 44b hinausgehen. Die Modelle memorieren oft die Struktur und Inhalte der Trainingsdaten, was eine langfristige Nutzung und nicht nur eine flüchtige technische Notwendigkeit darstellt.

Damit würden sich sich viele der Vervielfältigungen im rechtlichen Graubereich – oder gar klar außerhalb der gesetzlichen Schranken bewegen, was zu erheblichen rechtlichen Unsicherheiten führt.

Anwendbares Recht und internationale Zuständigkeit

Das Gutachten betont, dass die öffentliche Zugänglichmachung von KI-Modellen zur Nutzung durch deutsche Anwender – z.B. über die OpenAI-Webseite von ChatGPT – eine Anwendung deutschen Urheberrechts und die Zuständigkeit deutscher Gerichte nach sich ziehen kann. Da die Trainingsdaten urheberrechtlich geschützt sind und in den Modellen „im Innern“ vervielfältigt werden, stellt dies eine relevante Verwertung im Sinne des Urheberrechts dar.

Fazit und Ausblick

Die Nutzung generativer KI-Modelle bringt erhebliche rechtliche Unsicherheiten mit sich, insbesondere im Hinblick auf Urheberrechtsverletzungen während des Trainings und der Anwendung dieser Modelle. Das Gutachten zeigt, dass die rechtlichen Rahmenbedingungen derzeit unzureichend sind, um die Herausforderungen durch die rasante technologische Entwicklung adäquat zu adressieren.

Urheberrechtliche Herausforderungen beim Training generativer KI-Modelle - Rechtsanwalt Ferner

Die Thematik des Urheberrechts beim Training von KI mit fremden Daten ist beherrschend und macht das derzeitige Gros der Anfragen bei mir aus. Dabei ist zu erwarten, dass sich diese Thematik in den kommenden Jahren weiter zuspitzt, weshalb dringend klare gesetzliche Regelungen erforderlich sind, um sowohl die Rechte der Urheber zu schützen, als auch Innovationen im Bereich der KI zu fördern.

Die Autoren kommen insbesondere zu dem Schluss, dass die derzeitigen urheberrechtlichen Schranken, insbesondere § 44b UrhG, nicht ausreichend sind, um die umfangreichen Vervielfältigungen und Nutzungen urheberrechtlich geschützter Werke durch generative KI-Modelle zu rechtfertigen. Während einige Schranken wie § 44a UrhG und § 60d UrhG kurzfristige und spezifische Nutzungen erlauben, bleiben die spezifischen Anforderungen und die langfristige Speicherung der Modelle von diesen Regelungen unberührt.

Rechtsanwalt Jens Ferner (Fachanwalt für IT- & Strafrecht)
Benutzerbild von Rechtsanwalt Jens Ferner (Fachanwalt für IT- & Strafrecht)

Von Rechtsanwalt Jens Ferner (Fachanwalt für IT- & Strafrecht)

Ich bin Fachanwalt für Strafrecht + Fachanwalt für IT-Recht und widme mich beruflich ganz der Tätigkeit als Strafverteidiger und dem IT-Recht. Vor meinem Leben als Anwalt war ich Softwareentwickler. Ich bin Autor sowohl in einem renommierten StPO-Kommentar als auch in Fachzeitschriften. Dabei bin ich fortgebildet in Krisenkommunikation und Compliance.

Erreichbarkeit: Per Mail, Rückruf, Threema oder Whatsapp.

Unsere Kanzlei ist spezialisiert auf Starke Strafverteidigung, seriöses Wirtschaftsstrafrecht und anspruchsvolles IT-Recht + Kunst & Medien - ergänzt um Arbeitsrecht.