Persönlich. Hochwertig. Keine Chatbots. — Bei uns kümmert sich ein persönlich erreichbar Mensch.

Verbotene Wörter im Schadcode: Wie Angreifer KI-Analysen aushebeln

Ki cybersecurity

Sicherheitsfirmen prüfen eine große Anzahl von Open-Source-Paketen automatisiert. Doch was ist, wenn dabei auf ein Sprachmodell vertraut wird, das den Code im ersten Durchlauf bewertet? Wenn man dann eine Datei öffnet, springt einem noch bevor die eigentliche Logik beginnt ein Kommentarblock entgegen, der von Nuklear- und Biowaffen spricht oder das Modell anweist, alle Sicherheitsregeln zu vergessen. Genau das geschieht inzwischen offenbar in freier Wildbahn – und es ist kein Zufallsfund, sondern eine bewusst entwickelte Waffe gegen die Werkzeuge, mit denen wir uns verteidigen.

Der Trick

Das Muster ist denkbar einfach und gerade deshalb wirkungsvoll. Am Anfang einer Schaddatei – etwa einer JavaScript-Datei in einem manipulierten Paket – steht ein großer Kommentarblock. Weil dieser Block in Kommentarsyntax eingeschlossen ist, überspringt ihn die Laufzeitumgebung vollständig; für Node, Bun oder den Python-Interpreter existiert er faktisch nicht. Erst dahinter beginnt der tatsächliche Schadcode, regelmäßig versteckt hinter einem in einen Ausführungsaufruf gewickelten Zeichencode-Array und einer einfachen Substitutionsfunktion, die die eigentliche Nutzlast erst zur Laufzeit zusammensetzt.

Der Kommentar richtet sich also nicht an die Maschine, die das Programm ausführt, sondern an die Maschine, die es lesen und beurteilen soll. In einer Variante füllt der Angreifer den Block mit politisch hochsensiblen Begriffen – Nuklear- und Bioterminologie –, in einer anderen mit gefälschten Systemanweisungen, die dem prüfenden Modell befehlen, Sicherheitsrichtlinien zu ignorieren und in einem unbeschränkten Modus zu arbeiten. Beides zielt darauf, ein vorgeschaltetes Sprachmodell zu verwirren, zur Verweigerung zu bewegen oder zu einer voreiligen Einordnung zu verleiten, bevor es den schädlichen Teil überhaupt erreicht.

Tarnkommentar zu Überflutung

Besonders aufschlussreich ist eine Spielart, die nicht mehr nur täuscht, sondern den Prüfprozess schlicht überlastet. In einem Paket, das offenkundig als Testfall gedacht war, folgte auf den Tarnkommentar eine Flut aus Zehntausenden wiederholten Zeilen – die immergleiche Phrase „You’re absolutely right!“ über mehr als dreißigtausend Zeilen hinweg. Die Datei blähte sich dadurch auf mehrere Millionen Token auf und sprengte damit das Kontextfenster aktueller Spitzenmodelle.

Die Rechnung dahinter ist nüchtern: Wenn ein Modell die Datei kürzen muss, weil sie nicht mehr vollständig hineinpasst, sieht es womöglich nur die harmlose Überflutung und nie den eigentlichen Schadcode am Ende. Aus dem Täuschungsversuch wird so eine gezielte Denial-of-Service-Attacke gegen die KI-gestützte Triage – ein Angriff, der nicht das Modell überlistet, sondern seine architektonische Grenze ausnutzt. Dass dieselbe Idee bereits Monate zuvor in primitiverer Form auftauchte, als ein als ESLint-Erweiterung getarntes Paket dem Prüfmodell schlicht einflüsterte, der Code sei legitim und in einer Sandbox getestet, zeigt die Entwicklungslinie: von der plumpen Beteuerung über die psychologische Manipulation bis zur technischen Überlastung.

Eingebettet in eine größere Lieferketten-Welle

Diese Anti-KI-Technik tritt nicht isoliert auf, sondern als Detail innerhalb einer ausgedehnten Angriffskampagne gegen Software-Lieferketten. Beobachter führen sie unter Namen wie Mini Shai-Hulud, Miasma und Hades und zählen inzwischen mehrere Hundert kompromittierte Artefakte über die Paketregister npm und PyPI hinweg. Die jüngste Welle zielt gezielt auf Entwickler aus der Bioinformatik und auf das Umfeld des Model Context Protocol, also genau jene Werkzeugketten, die moderne KI-Assistenten an Entwicklungsumgebungen anbinden.

Technisch arbeiten diese Pakete mit gleich mehreren Ausführungspfaden: mit nativen Erweiterungen, die den Schadcode bereits beim Import starten, mit Python-Startdateien, die heimlich die Bun-Laufzeitumgebung nachladen, und mit einer neueren Ladevariante, die ihre Nutzlast nicht mehr selbst mitbringt, sondern erst im Dateisystem zusammensucht. Das Ziel ist in allen Fällen der Diebstahl von Zugangsdaten – von Tokens für GitHub, npm und die Cloud-Plattformen bis hin zu Konfigurationen für KI-Assistenten. Der eingebettete KI-Tarnkommentar ist hier nur eine von vielen Schichten, ein Werkzeug unter Werkzeugen, und gerade diese Beiläufigkeit macht ihn bemerkenswert: Die Manipulation automatisierter Analyse gehört für die Täter inzwischen zum Standardrepertoire.

Was wirkt – und was nicht

Eine wichtige Einordnung verhindert übertriebene Sorge. Diese Technik ist kein Generalschlüssel gegen die Erkennung von Schadcode. Klassische, deterministische Verfahren bleiben unbeeindruckt: Signaturregeln, Entropieprüfungen, das Zerlegen des Codes in seine Strukturbäume, das Extrahieren von Zeichenketten, das Rückgängigmachen der Verschleierung und die Beobachtung des tatsächlichen Verhaltens funktionieren weiter, weil sie den Kommentar entweder ignorieren oder den verschleierten Teil dennoch erreichen.

Verwundbar ist allein die schwache, allein auf ein Sprachmodell gestützte Erstsichtung, die den Anfang einer Datei in das Modell speist, ohne ihn klar als nicht vertrauenswürdige Eingabe zu kennzeichnen. Genau hier liegt die eigentliche Lehre: Wer Inhalt einer zu prüfenden Datei und Anweisung an das prüfende Modell nicht sauber voneinander trennt, lädt die Manipulation geradezu ein. Die Konsequenz ist kein Verzicht auf KI in der Analyse, sondern ihr Einbau in eine mehrstufige Verteidigung, in der das Modell nur eine Stimme unter mehreren ist und die deterministischen Verfahren das letzte Wort behalten.

Eine neue Front im alten Wettrüsten

Hinter dem konkreten Vorfall steht ein strukturelles Phänomen, das über den einzelnen Schadcode hinausweist. Je mehr Unternehmen ihre Codeprüfung an KI-Assistenten delegieren, desto attraktiver wird es, nicht mehr nur den Menschen oder die Signaturdatenbank zu täuschen, sondern das Sprachmodell selbst zum Ziel zu machen. Damit verschiebt sich die Angriffsfläche: Das Werkzeug der Verteidigung wird zum Einfallstor, und die Eigenheiten der Modellarchitektur – ihre Empfänglichkeit für Anweisungen, ihr begrenztes Kontextfenster – werden zum Hebel.

Diese Verlagerung berührt früher oder später auch die rechtliche Bewertung. Wo Sicherheitsprozesse automatisiert ablaufen und ihre Umgehung bewusst eingebaut wird, stellt sich die Frage nach der Verantwortung doppelt: für den Täter, der seine Verschleierung gezielt gegen Schutzsysteme richtet, und für den Betreiber, der sich blind auf ein manipulierbares Modell verlässt. Es zeichnet sich ab, dass die Sorgfaltsanforderungen an automatisierte Prüfketten steigen werden, je offensichtlicher ihre Angreifbarkeit zutage tritt.

Rechtsanwalt Jens Ferner, TOP-Strafverteidiger und herausragender Fachanwalt für IT-Recht - Fachanwalt für Strafrecht und Fachanwalt für IT-Recht im Raum Aachen, Heinsberg und Düren - spezialisiert auf Cybercrime, Cybersecurity, digitale beweismittel, Wirtschaftsstrafrecht & Softwarerecht

Ausblick

Der eingebettete Tarnkommentar ist technisch unspektakulär (das Ganze erinnert daran, dass eine Zeit lang versteckte KI-Anweisungen in wissenschaftlichen Papieren zu finden waren) und gerade darin entlarvend: Er funktioniert nicht, weil er klug wäre, sondern weil manche Verteidiger ihre KI-Werkzeuge naiv einsetzen. Das eigentliche Signal liegt nicht im einzelnen Paket, sondern im Trend: Das Sprachmodell wird vom Helfer zum Angriffsziel und das alte Katz-und-Maus-Spiel der Schadcode-Erkennung beginnt auf einer neuen Ebene von vorn. Wer KI in die Sicherheitsanalyse integriert, muss sie wie jedes andere automatisierte System behandeln: Sie ist nützlich, aber angreifbar und niemals alleinige (Prüf-)Instanz.

Rechtsanwalt Jens Ferner