KI-Training und Urheberrecht: Zulässigkeit des Webscrapings für Trainingsdatensätze (OLG HH)

Das Hanseatische Oberlandesgericht Hamburg (Az.: 5 U 104/24) hat in seinem Urteil zur Nutzung urheberrechtlich geschützter Werke für das Training Künstlicher Intelligenz eine prägende Entscheidung getroffen, die die Grenzen zwischen urheberrechtlichem Schutz und den Möglichkeiten des Text und Data Mining im Kontext generativer KI-Systeme auslotet.

Der Fall betrifft die Klage eines Fotografen gegen einen Verein, der einen Datensatz mit Bild-Text-Paaren für das KI-Training erstellt hatte. Das Gericht bestätigte die erstinstanzliche Abweisung der Klage und begründete dies mit den Schrankenregelungen der §§ 44b und 60d UrhG.

Webscraping für KI-Trainingsdaten

Der Kläger, ein professioneller Fotograf, sah seine Rechte verletzt, als der beklagte Verein – eine gemeinnützige Organisation, die sich der Förderung von KI-Forschung verschrieben hat – eine seiner Fotografien von einer Bildagentur herunterlud, um sie in einen Datensatz für das Training generativer KI aufnehmen zu können. Der Datensatz umfasste 5,85 Milliarden Bild-Text-Paare, die aus öffentlich zugänglichen Internetquellen extrahiert wurden. Der Verein nutzte dabei einen bereits bestehenden Datensatz, prüfte die Übereinstimmung von Bild und Beschreibung mittels einer Software und speicherte die Metadaten, nicht jedoch die Bilder selbst. Der Fotograf argumentierte, dass diese Vervielfältigungshandlung gegen seine Urheberrechte verstoße, insbesondere da die Bildagentur in ihren Nutzungsbedingungen automatisierte Downloads untersagt hatte.

Der Beklagte berief sich demgegenüber auf die urheberrechtlichen Schrankenbestimmungen für Text und Data Mining (§ 44b UrhG) sowie auf die Forschungsschranke (§ 60d UrhG). Zudem bestritt er, dass der Nutzungsvorbehalt der Bildagentur maschinenlesbar im Sinne des Gesetzes gewesen sei. Das Landgericht Hamburg hatte die Klage bereits abgewiesen, und das Oberlandesgericht bestätigte diese Entscheidung in der Berufungsinstanz.

Schrankenregelungen und ihre Anwendbarkeit

Das Gericht prüfte zunächst, ob die Vervielfältigung der Fotografie durch den Download für das KI-Training von den Schrankenregelungen des Urheberrechts gedeckt war. Dabei stand im Mittelpunkt, ob es sich bei der Handlung des Beklagten um zulässiges Text und Data Mining handelte und ob der Verein als Forschungsorganisation privilegiert war.

Text und Data Mining nach § 44b UrhG

Das Gericht bejahte die Anwendbarkeit des § 44b UrhG, der Vervielfältigungen für das Text und Data Mining erlaubt, sofern der Rechtsinhaber sich diese nicht ausdrücklich vorbehalten hat. Entscheidend war, dass der Download der Fotografie der automatisierten Analyse diente, um die Übereinstimmung von Bild und Beschreibung zu prüfen. Diese Prüfung stellte nach Auffassung des Gerichts eine Gewinnung von Informationen über Korrelationen dar, die vom Gesetzgeber als zulässiger Anwendungsfall des Text und Data Mining anerkannt ist. Der Abgleich zwischen Bild und Text sei eine wechselseitige Beziehung, die unter den Begriff der „Korrelation“ im Sinne der Norm falle.

Interessant ist, dass das Gericht betonte, dass es nicht darauf ankomme, ob das spätere KI-Training selbst unter § 44b UrhG fällt. Vielmehr genüge bereits die vorbereitende Handlung – also der Download und die Analyse der Bilddatei –, um die Schranke zu erfüllen. Dies ist ein wichtiger Präzedenzfall, da damit klargestellt wird, dass auch vorbereitende Maßnahmen für das KI-Training von der Schranke erfasst werden können:

Gem. § 44b Abs. 2 S. 1 UrhG sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining zulässig. Gem. § 44b Abs. 3 UrhG sind Nutzungen nach § 44b Abs. 2 S. 1 UrhG nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt. § 44b UrhG wurde in Umsetzung von Art. 4 der Richtlinie (EU) 2019/790 vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG (im Folgenden: „DSM-RL“) in das UrhG eingefügt (..) Gem. § 44b Abs. 1 UrhG ist Text und Data Mining die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen (…)

Ein Ziel einer automatisierten Auswertung i.S.d. § 44b Abs. 1 UrhG kann das Erkennen eines Musters in einer Vielzahl von Werken sein (vgl. Dreier in Dreier/Schulze, UrhG, 8. Aufl., § 44b Rn. 5). Hierauf ist die Anwendung des § 44b UrhG aber nicht beschränkt (vgl. Dreier in Dreier/Schulze, UrhG, 8. Aufl., § 44b Rn. 5 f.). Bereits nach dem Wortlaut des § 44b Abs. 1 UrhG erfasst das Text und Data Mining im Sinne dieser Vorschrift auch die automatisierte Analyse von einzelnen digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen. Auch in der Gesetzesbegründung heißt es, dass es auch zulässig ist, ein einzelnes Werk automatisiert auszuwerten (BT-Drs. 19/27426, S. 88) (…)

Selbst wenn das Vorliegen einer Korrelation zu verneinen wäre, wäre jedenfalls der Zusammenhang zwischen Bild und Text als (sonstige) Information i.S.d. § 44b Abs. 1 UrhG anzusehen. Das Gesetz nennt Muster, Trends und Korrelationen lediglich als Regelbeispiele („insbesondere“; vgl. Paul in BeckOK IT-Recht, 19. Ed., § 44b UrhG Rn. 3a; Bomhard in BeckOK UrhR, 46. Ed., § 44b UrhG Rn. 11). Auch in der Definition von „Text und Data Mining“ in Art. 2 Nr. 2 DSM-RL heißt es, der Begriff bezeichne eine Technik für die automatisierte Analyse von Texten und Daten in digitaler Form, mit deren Hilfe Informationen unter anderem — aber nicht ausschließlich — über Muster, Trends und Korrelationen gewonnen werden können.

Ein zentraler Streitpunkt war der Nutzungsvorbehalt der Bildagentur, der automatisierte Downloads untersagte. Das Gericht stellte jedoch fest, dass dieser Vorbehalt nicht in maschinenlesbarer Form vorlag. Zwar war der Text in den Nutzungsbedingungen und im Quellcode der Webseite enthalten, doch genüge dies nicht den Anforderungen des § 44b Abs. 3 UrhG. Maschinenlesbarkeit erfordere, dass der Vorbehalt von automatisierten Systemen erkannt und interpretiert werden könne. Da der Kläger nicht darlegen konnte, dass im Jahr 2021 – dem Zeitpunkt des Downloads – bereits Technologien verfügbar waren, die einen in natürlicher Sprache formulierten Vorbehalt zuverlässig auslesen konnten, scheiterte der Einwand des Fotografen.

Forschungsschranke nach § 60d UrhG

Zusätzlich stützte das Gericht seine Entscheidung auf § 60d UrhG, der Vervielfältigungen für Zwecke der wissenschaftlichen Forschung erlaubt. Der Beklagte wurde als Forschungsorganisation im Sinne der Norm anerkannt, da er nicht kommerzielle Zwecke verfolge und seine Arbeit auf die Gewinnung neuer Erkenntnisse im Bereich der KI-Forschung ausgerichtet sei. Die Erstellung des Datensatzes selbst wurde als wissenschaftliche Tätigkeit gewertet, da sie methodisch und systematisch erfolgte und auf einen späteren Erkenntnisgewinn abzielte. Dass der Datensatz auch von kommerziellen Dritten genutzt werden konnte, stehe dem nicht entgegen, solange der Verein selbst keine gewinnorientierten Absichten verfolge.

Das Gericht wies zudem den Vorwurf zurück, der Beklagte stehe unter dem bestimmenden Einfluss eines kommerziellen Unternehmens. Zwar gab es Kooperationen mit KI-Firmen, doch reichten diese nicht aus, um eine unzulässige Public-Private-Partnership im Sinne des § 60d Abs. 2 S. 3 UrhG zu begründen. Die bloße Bereitstellung von Rechenressourcen oder die Beschäftigung von Vereinsmitgliedern in der Industrie ändere nichts an der nichtkommerziellen Ausrichtung des Vereins.

Urteile zu KI & Urheberrecht 2025

In engem zeitlichen Kontext gab es auch eine Entscheidung des LG München I, die es einzuordnen gilt: Beide Entscheidungen befassen sich vordergründig mit der urheberrechtlichen Zulässigkeit der Nutzung geschützter Werke für das Training von KI-Systemen – doch sie beleuchten unterschiedliche Aspekte dieses komplexen Themenfelds. Während das Münchner Urteil die Memorisierung von Liedtexten in Sprachmodellen als unzulässige Vervielfältigung einstuft und Betreiber für die daraus resultierenden Outputs haftbar macht, bestätigt das Hamburger Urteil die Rechtmäßigkeit des Downloads einer Fotografie zur Erstellung eines KI-Trainingsdatensatzes unter Berufung auf die Schrankenregelungen der §§ 44b, 60d UrhG. Beide Gerichte setzen sich mit der Frage auseinander, wo die Grenzen zwischen zulässiger Datenanalyse und urheberrechtsverletzender Nutzung verlaufen – kommen jedoch aufgrund der unterschiedlichen Sachverhalte zu scheinbar gegensätzlichen Ergebnissen.

Tatsächlich widersprechen sich die Urteile nicht, sondern ergänzen sich: Das OLG Hamburg betont unter Rückgriff auf das LG München I, dass die vorbereitende Vervielfältigung von Werken für Text- und Data-Mining-Zwecke – hier der Abgleich von Bild und Textbeschreibung – unter den Voraussetzungen des § 44b UrhG zulässig ist, sofern keine wirksamen Nutzungsvorbehalte entgegenstehen. Das LG München hingegen stellt klar, dass die dauerhafte Speicherung von Werken im KI-Modell selbst (Memorisierung) über den bloßen Analysezweck hinausgeht und damit nicht mehr von der Schranke gedeckt ist. Beide Entscheidungen unterstreichen somit, dass der Gesetzgeber zwischen vorbereitenden, analysbezogenen Handlungen (Hamburg) und dauerhaften, verwertungsrelevanten Vervielfältigungen (München) differenziert. Die Urteile markieren damit eine wichtige und vor allem gemeinsame Weichenstellung für die künftige Auslegung des Urheberrechts im KI-Kontext – insbesondere die Frage, wann eine Nutzung noch als „Forschung“ gilt und wann sie in die kommerzielle Verwertung übergeht.

Drei-Stufen-Test: Abwägung der Interessen

Auch wenn die Schrankenregelungen grundsätzlich anwendbar waren, musste das Gericht prüfen, ob die Nutzung den Drei-Stufen-Test nach Art. 5 Abs. 5 InfoSoc-RL besteht. Dieser Test verlangt, dass die normale Verwertung des Werks nicht beeinträchtigt wird und die berechtigten Interessen des Rechtsinhabers nicht ungebührlich verletzt werden.

Das Gericht kam zu dem Schluss, dass die Vervielfältigungshandlung des Beklagten keine direkte Konkurrenz zur Verwertung der Fotografie durch den Kläger darstellte. Der Datensatz enthielt lediglich Links zu den Bildern, nicht die Bilder selbst, und diente primär der Forschung. Selbst wenn später mit dem Datensatz trainierte KI-Systeme Bilder erzeugen, die mit denen des Klägers in Konkurrenz treten könnten, sei dies eine zu abstrakte und zukünftige Beeinträchtigung, um die Schranke auszuschließen. Zudem habe der Kläger die Möglichkeit gehabt, durch einen wirksamen Nutzungsvorbehalt die Nutzung zu unterbinden – was er jedoch nicht in ausreichender Form getan habe.

Rechtsanwalt Jens Ferner, TOP-Strafverteidiger und IT-Rechts-Experte - Fachanwalt für Strafrecht und Fachanwalt für IT-Recht

Klare Regeln für KI-Training … mit offenen Fragen

Die Entscheidung des Hanseatischen Oberlandesgerichts Hamburg schafft Rechtssicherheit für die Nutzung urheberrechtlich geschützter Inhalte im KI-Training, solange die Voraussetzungen der Schrankenregelungen erfüllt sind. Besonders hervorzuheben ist, dass das Gericht vorbereitende Handlungen wie das Webscraping und die Datenanalyse als vom Text und Data Mining umfasst ansieht. Gleichzeitig wird deutlich, dass Rechtsinhaber durch maschinenlesbare Nutzungsvorbehalte die Nutzung ihrer Werke für KI-Training unterbinden können – sofern sie die technischen Anforderungen erfüllen.

Forschungsorganisationen und KI-Entwickler müssen bei der Erstellung von Trainingsdatensätzen auf die Einhaltung der urheberrechtlichen Schranken achten müssen. Gleichzeitig müssen Urheber, die ihre Werke schützen wollen, sicherstellen, dass ihre Nutzungsbedingungen technisch so gestaltet sind, dass sie von automatisierten Systemen erkannt werden können.

Die nachvollziehbar Zulassung der Revision durch das Gericht unterstreicht die grundsätzliche Bedeutung des Falls. Es bleibt abzuwarten, ob der Bundesgerichtshof die Auslegung der Schrankenregelungen bestätigt oder weiter präzisiert. Bis dahin bietet das Urteil eine wichtige Orientierung für die Balance zwischen Innovation und Urheberrechtsschutz im Zeitalter der Künstlichen Intelligenz.

Fachanwalt für Strafrecht & IT-Recht bei Anwaltskanzlei Ferner Alsdorf
Rechtsanwalt Jens Ferner ist ein renommierter Strafverteidiger im gesamten Strafrecht samt Managerhaftung (insbesondere bei Wirtschaftskriminalität wie Geldwäsche, Betrug, Untreue bis zu Cybercrime – aber auch im Jugendstrafrecht und Sexualstrafrecht) sowie Spezialist im IT-Recht (Softwarerecht und KI, IT-Vertragsrecht und Compliance). Als Fachanwalt für Strafrecht + IT-Recht verteidigt er Mandanten in anspruchsvollen Strafverfahren und berät in komplexen Softwareprojekten. Er ist Lehrbeauftragter für Wirtschaftsstrafrecht und IT-Compliance (FH Aachen) und publiziert fortlaufend.

Erreichbarkeit:Per Mail, Rückruf, Threema oder Whatsapp.

Unsere Anwaltskanzlei im Raum Aachen ist spezialisiert auf Strafverteidigung, Cybercrime, Wirtschaftsstrafrecht samt Steuerstrafrecht sowie IT-Recht.
Rechtsanwalt Jens Ferner
Rechtsanwalt Jens Ferner

Von Rechtsanwalt Jens Ferner

Rechtsanwalt Jens Ferner ist ein renommierter Strafverteidiger im gesamten Strafrecht samt Managerhaftung (insbesondere bei Wirtschaftskriminalität wie Geldwäsche, Betrug, Untreue bis zu Cybercrime – aber auch im Jugendstrafrecht und Sexualstrafrecht) sowie Spezialist im IT-Recht (Softwarerecht und KI, IT-Vertragsrecht und Compliance). Als Fachanwalt für Strafrecht + IT-Recht verteidigt er Mandanten in anspruchsvollen Strafverfahren und berät in komplexen Softwareprojekten. Er ist Lehrbeauftragter für Wirtschaftsstrafrecht und IT-Compliance (FH Aachen) und publiziert fortlaufend.

Erreichbarkeit:Per Mail, Rückruf, Threema oder Whatsapp.

Unsere Anwaltskanzlei im Raum Aachen ist spezialisiert auf Strafverteidigung, Cybercrime, Wirtschaftsstrafrecht samt Steuerstrafrecht sowie IT-Recht.