Im Bereich der künstlichen Intelligenz stellt sich – auch aufgrund aktueller Entwicklungen – die Frage, ob ein LLM durch Knowledge Destillation aus einem anderen Modell trainiert wurde. Dies ist nicht nur eine technische Herausforderung, sondern hat auch rechtliche und wirtschaftliche Relevanz.
Unternehmen investieren erhebliche Mittel in die Entwicklung von KI-Modellen und möchten verhindern, dass ihre Modelle durch Destillation unrechtmäßig reproduziert werden. Ich möchte einen kurzen Überblick über die technischen Verfahren zur Identifikation von Destillation geben – und die rechtlichen Schutzmöglichkeiten sowie die prozessuale Beweisführung darstellen.
Was ist Knowledge Distillation (“Destillation”)?
Bei einer Knowledge Distillation (KD) wird ein leistungsstarkes Modell (Teacher Model) verwendet, um ein kleineres Modell (Student Model) zu trainieren. Dabei werden nicht nur die finalen Labels der Trainingsdaten genutzt, sondern auch die Soft Targets, also die Wahrscheinlichkeitsverteilungen der Vorhersagen des Teacher-Modells. Dies hilft dem Student-Modell, die Strukturen und Unsicherheiten des Teachers nachzubilden, was zu einer effizienteren und schnelleren Adaption führt. Man spart also Ressourcen, mindestens Zeit und damit Strom, also Geld.
Typische Merkmale von destillierten Modellen dürften sein:
- Sie haben oft eine ähnliche oder nahezu identische Wahrscheinlichkeitsverteilung für Token-Vorhersagen wie das Teacher-Modell.
- Sie zeigen vergleichbare Fehlermuster bei Out-of-Distribution-Daten (OOD).
- Die Gewichtsmatrizen können Ähnlichkeiten aufweisen, obwohl sie formal neu trainiert wurden.
Beiträge zur künstlichen Intelligenz bei uns:
- Überblick über den AI Act
- Was ist ein KI-System
- Haftung für KI-generierte Texte
- Richtlinie zur KI-Haftung
- Schutz von KI
- Bußgelder im AI-Act
- Ethik im AI-Act
- Zulässigkeit von biometrischen Funktionen in KI-Systemen
- Urheberrecht und Künstliche Intelligenz
- Gewährleistungsrecht bei KI-Systemen
- CE-Kennzeichen für KI-Systeme
Technische Methoden zur Identifikation von Destillation
Es gibt verschiedene methodische Ansätze zur technischen Analyse eines Modells, um festzustellen, ob es durch Destillation aus einem anderen Modell trainiert wurde, wobei zu betonen ist, dass dies nur theoretische Ansätze sind:
1. Vergleich der Ausgabe-Distributionen
Durch den Vergleich der Wahrscheinlichkeitsverteilungen von Token-Vorhersagen zwischen zwei Modellen kann analysiert werden, ob die Ausgabecharakteristik stark übereinstimmt.
- Metriken: KL-Divergenz, Jensen-Shannon-Divergenz, Wasserstein-Distanz.
- Stärke: Liefert schnelle Indikatoren für Ähnlichkeiten.
- Schwäche: Kann durch Nachtrainierung oder Anpassung der Temperatureinstellungen verfälscht werden.
2. Vergleich der Modellgewichte (Weight Similarity Analysis)
Obwohl bei Destillation die Gewichte des Student-Modells nicht direkt kopiert werden, entstehen oft ähnliche Strukturmuster.
- Methoden: Cosine Similarity, Singular Value Decomposition (SVD), PCA-basierte Vergleiche.
- Hohe strukturelle Ähnlichkeiten zwischen Teacher und Student sind Indizien für Destillation.
3. Neuron Activation Fingerprinting
Durch die Analyse der Aktivierungsmuster interner Neuronen kann festgestellt werden, ob das Student-Modell ähnliche interne Darstellungen wie das Teacher-Modell erzeugt.
- Layer-wise Activation Matching: Zeigt an, ob gleiche Schichten in beiden Modellen auf ähnliche Weise aktiviert werden.
- Gradient Sensitivity Analysis: Vergleicht, wie sich Modellverhalten unter leichten Eingangsveränderungen unterscheidet.
4. Adversarial Attacks und Robustheitstests
Destillierte Modelle erben oft die Schwächen ihres Ausgangsmodells.
- Durch gezielte adversariale Angriffe kann festgestellt werden, ob zwei Modelle identische Fehler machen.
- Hohe Korrelation in adversarialen Schwachstellen ist ein Indikator für Knowledge Destillation.
5. Wasserzeichen (Watermarking) und Modellfingerprints
- Unternehmen setzen zunehmend auf statistische und lexikalische Wasserzeichen in den Wahrscheinlichkeitsverteilungen ihrer Modelle.
- Falls ein Modell ein solches Wasserzeichen beibehält, ist dies ein direkter Nachweis für die Herkunft aus einem anderen Modell.
Rechtliche Schutzmöglichkeiten für LLMs
Mit urheberrechtlicher Betrachtung sind KI-Modelle wohl (derzeit) nicht ohne Weiteres schutzfähig. In der bislang existierenden Literatur wird aufgezeigt, dass Algorithmen als Quellcode schutzfähig sein können, wenn sie die Anforderungen nach § 69a UrhG erfüllen. Eine bloße mathematische Formulierung oder das Modell selbst ist jedoch nicht schutzfähig.
Es ist davon auszugehen, dass trainierte KI-Modelle oft nur über das Geschäftsgeheimnisgesetz (GeschGehG) geschützt werden können. Die regulatorischen Anforderungen an Transparenzpflichten stehen dabei oft im Konflikt mit dem Geheimnisschutz.
Prozessuale Beweisführung
Um im Streitfall nachzuweisen, dass ein LLM durch Destillation aus einem anderen Modell trainiert wurde, ist ein technischer Sachverständiger notwendig. Die prozessuale Beweisführung basiert auf den folgenden Schritten:
- Aufstellen der Nullhypothese (H₀): Das Student-Modell wurde NICHT durch Destillation aus dem Teacher-Modell trainiert.
- Alternativhypothese (H₁): Das Student-Modell wurde durch Destillation aus dem Teacher-Modell trainiert.
- Durchführung technischer Analysen: Anwendung der oben genannten Methoden zur Wahrscheinlichkeitsverteilung, Gewichtsvergleich und neuronalen Aktivierungsmuster.
- Sachverständigenbeweis: Ein IT-Experte analysiert die Ähnlichkeiten zwischen den Modellen und stellt fest, ob es sich mit hoher Wahrscheinlichkeit um ein destilliertes Modell handelt.
- Rechtliche Bewertung: Falls der Nachweis erbracht werden kann, kann dies als Grundlage für Unterlassungs- oder Schadensersatzansprüche dienen.
Mit Blick auf die bestehende Beweislast im Urheberrecht muss man bei KI befürchten, dass es im Verletzungsprozess oft schwierig ist, einen klaren Nachweis über das menschliche Werkschaffen zu führen. Diese Problematik spiegelt sich auch in der Beweisführung für KI-Modelle wider.
Fazit
Der Nachweis, dass ein LLM durch Destillation aus einem anderen Modell trainiert wurde, ist technisch anspruchsvoll, aber mit einer Kombination aus statistischen, neuronalen und adversarialen Methoden möglich. Die rechtliche Schutzfähigkeit trainierter Modelle bleibt herausfordernd, weshalb Unternehmen zunehmend auf Geschäftsgeheimnisschutz setzen. In einem gerichtlichen Verfahren ist ein technischer Sachverständiger erforderlich, um die Beweisführung zu unterstützen und auf Basis statistischer Analysen die Herkunft eines Modells nachzuweisen.
- Begrenzung des Bewährungswiderrufs durch Vertrauensschutz - 8. Juli 2025
- OLG Köln zur Bezeichnung „Dubai Chocolate“ - 7. Juli 2025
- BayObLG zur Verbreitung verfassungsfeindlicher Inhalte auf Facebook - 7. Juli 2025