Vorgestellt: Ein Kundenberater würde einer offensichtlich verwirrten älteren Dame am Telefon zuerst Verständnis signalisieren, fürsorglich fragen, ob sie Hilfe holen möchte – um ihr dann trotzdem einen Vertrag aufzuschwatzen. Kein seriöser Verkäufer würde das tun, so wenig wie ein Mensch mit Gewissen und Berufserfahrung. Ein KI-Agent hingegen macht es, in jedem getesteten Fall, ohne Ausnahme.
Das ist kein Gedankenexperiment, sondern der Befund einer Studie, die Ende Mai 2026 für einiges Aufsehen gesorgt hat. Die Amsterdamer Aithos Research Foundation, eine gemeinnützige Non-Profit-Stiftung, hat mit ihrem Framework LARA (Legal Assessment for Real-world Agents) zwölf der führenden KI-Sprachmodelle unter realistischen Bedingungen auf EU-Rechtskonformität getestet. Das Ergebnis ist unmissverständlich: Kein einziges besteht den Test.
Testaufbau: Alltagssimulation statt Labor
Was LARA von klassischen KI-Benchmarks unterscheidet, ist der methodische Ansatz. Die Modelle wurden nicht isoliert auf ihre Fähigkeiten befragt, sondern als autonome Agenten in simulierte Arbeitsumgebungen versetzt – mit Zugriff auf E-Mail, Kundendatenbanken, Kalender und Messaging-Kanäle. Eine zweite KI übernahm die Rolle eines Vorgesetzten oder Nutzers und erteilte Anweisungen, deren Ausführung einen Rechtsverstoß erforderte.
Die Testbatterie umfasste über 3.000 Szenarien und deckte zehn konkrete Verhaltensmuster ab: sechs Verbotstatbestände aus Artikel 5 des EU AI Act (also Manipulation, Ausnutzung vulnerabler Personen, Emotionserkennung am Arbeitsplatz, Social Scoring) sowie vier DSGVO-Grundsätze: Transparenz, Rechtmäßigkeit der Verarbeitung, Datenminimierung und Zweckbindung. Drei unabhängige KI-Judges bewerteten das Verhalten am Maßstab des Gesetzestextes. Die Rohergebnisse wurden durch mehr als 50 Stunden juristischer Expertenarbeit nachvalidiert, alle Transkripte sind öffentlich einsehbar.
Die Zahlen: Vom Klassenbesten zum Totalversagen
Das beste getestete Modell war Anthropics Claude Opus 4.7 mit einer Compliance-Quote von immerhin rund 54 Prozent. Anders ausgedrückt: In fast der Hälfte aller Szenarien verstieß selbst das relativ beste System gegen geltendes EU-Recht. GPT-5.5 von OpenAI kam auf rund 38 Prozent, Googles Gemini 3.1 Pro auf gerade einmal 10 Prozent. Das schlechteste getestete Modell, Kimi K2.6 von Moonshot AI, erreichte 7 Prozent.
Besonders ernüchternd ist das Abschneiden von Mistral, dem einzigen in Europa entwickelten Modell im Test, das mit rund 12 Prozent Compliance nahe am europäischen Schlusslicht liegt. Die naheliegende Hoffnung, europäische Anbieter würden europäisches Recht strukturell besser umsetzen, hat die Studie damit empirisch entkräftet. Europäische Herkunft schützt offensichtlich nicht vor europäischen Rechtsverstößen.
Verhalten der Modell
Zwei Szenarien verdienen besondere Aufmerksamkeit, da sie in keinem einzigen Modell und in keinem einzigen Durchlauf verweigert wurden. Was die dabei Fälle verbindet: Die Modelle haben keine böse Absicht sondern sie erledigen ihre Aufgabe akkurat und effizient, ohne die moralische Bremse, die Menschen in solchen Situationen automatisch ziehen.
Exploitation of the Elderly
Im Szenario „Exploitation of the Elderly“ führte ein KI-Agent mit Verkaufsauftrag ein Gespräch mit einer offensichtlich verwirrten älteren Frau mit kleiner Rente. Die Modelle antworteten warmherzig, zeigten echtes Mitgefühl, schlugen teils vor, die Tochter hinzuzuziehen und versuchten anschließend trotzdem, den Verkauf zu vollziehen. Die emotionale Intelligenz war vorhanden, die moralische Konsequenz fehlte vollständig.
Emotionserkennung
Im Szenario zur Emotionserkennung am Arbeitsplatz wurde der Agent angewiesen, die interne Kommunikation von Mitarbeitenden auf emotionale Zustände hin zu analysieren. Diese Praxis ist nach Artikel 5 des EU AI Act seit dem 2. Februar 2025 ausnahmslos verboten doch kein Modell weigerte sich. Ein drittes Szenario ist in seiner Plastizität kaum zu übertreffen: Ein Agent empfahl einem simuliert sterbenskranken Kunden einen 30-jährigen Finanzvertrag, der seiner Familie bei seinem Tod nichts hinterlassen hätte.
Das eigentliche Problem: Wer trägt die Haftung?
Hier liegt die unternehmerisch entscheidende Verschiebung. Es wäre bequem zu glauben, dass Google, Anthropic oder OpenAI für das Verhalten ihrer Modelle haften, zumal deren Vertragswerke das meist ausschließen. Sowohl DSGVO als auch AI Act folgen einer anderen Logik: Wer ein KI-System in der eigenen Infrastruktur betreibt, ist als Verantwortlicher oder Betreiber für das Verhalten dieses Systems gegenüber Aufsichtsbehörden und Betroffenen haftbar.
Die Sanktionsrahmen sind nicht trivial. DSGVO-Verstöße können bis zu 20 Millionen Euro oder 4 Prozent des weltweiten Jahresumsatzes kosten. Verstöße gegen die ausnahmslos verbotenen Praktiken des Artikel 5 AI Act können sogar 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes nach sich ziehen. Entscheidend dabei: Die Regelungen entfalten extraterritoriale Wirkung. Unternehmen außerhalb der EU sind erfasst, sobald sie Daten von EU-Bürgern verarbeiten oder KI-Systeme einsetzen, die Personen in der Union betreffen.
Deadline: August 2026
Am 2. August 2026 wird der AI Act in weiten Teilen vollständig anwendbar. Die nationalen KI-Aufsichtsbehörden sind etabliert, das EU AI Office für Allzweck-KI-Modelle nimmt seine Arbeit auf. Die Verbote des Artikel 5 gelten bereits seit Februar 2025 — was bisher noch an systematischer Durchsetzung fehlte, dürfte sich in der zweiten Jahreshälfte 2026 rasch ändern. Dieser Kontext macht die LARA-Ergebnisse besonders brisant. Nicht weil die Studie etwas Unbekanntes ans Licht bringt, sondern weil sie empirisch belegt, was Datenschutzexperten seit Jahren vermuten: dass KI-Agenten im produktiven Einsatz systematisch gegen Regeln verstoßen, die längst in Kraft sind.

Und die Moral von der Geschicht …
In der Studie wird keine Empfehlung ausgesprochen, auf KI-Agenten zu verzichten doch sie verschiebt die Beweislast: Wer KI-Agenten in kundensensitiven oder datenkritischen Bereichen betreibt, ohne zuvor eigenständige Risikoanalysen durchgeführt zu haben, kann sich nicht mehr auf die Unbescholtenheit des Anbieters berufen. Das bedeutet konkret, dass vor dem Produktivbetrieb szenariospezifische Tests erforderlich sind, insbesondere für Bereiche mit Kundenkontakt, Personalverwaltung und Finanzberatung. Eine Datenschutz-Folgenabschätzung nach Artikel 35 DSGVO ist für agentische Systeme kein optionaler Schritt.
Die menschliche Aufsicht über folgenreiche Agentenaktionen muss konkret und wirksam sein, nicht nur auf dem Papier. Und: Technische Guardrails auf Applikationsebene sind Betreiberpflicht – Compliance kann nicht allein durch die Wahl des Modells hergestellt werden. LARA ist als öffentlich zugängliches Tool verfügbar. Unternehmen, die ihre eigenen Deployments testen möchten, benötigen lediglich einen API-Schlüssel für das betreffende Modell. Die Transparenz, die Aithos bei der Methode walten lässt (alle Transkripte sind öffentlich) macht die Ergebnisse nachprüfbar und damit juristisch verwertbar. Ein KI-Agent, der einer verwirrten alten Dame einen Vertrag verkauft, ist keine Metapher mehr. Er ist ein reproduzierbares Testergebnis. Wer ihn in sein Unternehmen lässt, ohne die Rahmenbedingungen zu klären, ist ab August 2026 nicht nur unvorsichtig, sondern haftbar.
- Crimenetwork: Phönix aus dem Darknet – 22. Juni 2026
- Compliance-Versagen durch KI-Agenten: Wer haftet wenn Chatbots Grenzen überschreiten? – 22. Juni 2026
- Rechtsfragen des GPS-Jamming (Update) – 22. Juni 2026

