Das Büro ist über Karneval vom 12.02 bis 17.02. geschlossen - Notruf erreichbar

Angriffsszenarien auf LLM durch Formulierung in Vergangenheitsform

In einer kürzlich durchgeführten Studie haben Forscher der EPFL (Eidgenössische Technische Hochschule Lausanne) eine interessante Schwachstelle in den aktuellen Ablehnungsmechanismen von großen Sprachmodellen (Large Language Models, LLMs) aufgedeckt.

Diese Schwachstelle ermöglicht es, die Sicherheitsvorkehrungen vieler LLMs zu umgehen, indem man gefährliche Anfragen einfach in die Vergangenheitsform umformuliert. Dieser Blog-Beitrag beleuchtet die Ergebnisse der Studie und deren Implikationen für die Zukunft der LLM-Sicherheit.

Hintergrund und Methodik

Große Sprachmodelle wie GPT-3.5 Turbo, GPT-4o und Llama-3 8B sind dafür bekannt, erstaunliche Fähigkeiten zu besitzen, jedoch bringen diese Fähigkeiten auch erhebliche Risiken mit sich. Um die Generierung schädlicher oder illegaler Inhalte zu verhindern, werden LLMs mittels überwachten Feintunings, Verstärkungslernens mit menschlichem Feedback (RLHF) und adversarialem Training darauf trainiert, solche Anfragen abzulehnen.

Trotz dieser Maßnahmen zeigen die Forscher in ihrer Studie, dass einfache Umformulierungen gefährlicher Anfragen in die Vergangenheitsform oft ausreichen, um diese Sicherheitsvorkehrungen zu umgehen.

Hauptergebnisse der Studie

Die Forscher bewerteten den Erfolg dieser Methode, indem sie verschiedene LLMs testeten und dabei bemerkenswerte Ergebnisse erzielten. Beispielsweise stieg die Erfolgsquote beim Umgehen der Sicherheitsmechanismen von GPT-4o durch Umformulierungen in die Vergangenheitsform von 1% bei direkten Anfragen auf 88% bei 20 Versuchen. Ähnliche Ergebnisse wurden bei anderen Modellen wie GPT-3.5 Turbo, Gemma-2 9B und Phi-3-Mini erzielt.

Interessanterweise stellten die Forscher fest, dass Umformulierungen in die Zukunftsform weniger effektiv sind, was darauf hindeutet, dass die Ablehnungsmechanismen vergangenheitsbezogene Fragen als weniger bedrohlich einstufen als hypothetische zukünftige Fragen.

Implikationen und Diskussion

Die Studie hebt hervor, dass die derzeit verwendeten Techniken zur Ausrichtung von LLMs – wie SFT, RLHF und adversariales Training – anfällig und nicht immer in der Lage sind, wie beabsichtigt zu generalisieren. Dies wirft wichtige Fragen darüber auf, welche anderen blinden Flecken in den aktuellen Techniken bestehen und warum diese weiterhin bestehen.

Die Forscher zeigten auch, dass es möglich ist, LLMs gegen solche Umformulierungen zu verteidigen, indem man entsprechende Beispiele in das Feintuning-Dataset aufnimmt. Dies deutet darauf hin, dass ein direkter Ansatz zur Einbeziehung von Vergangenheitsformulierungen während des Feintunings eine effektive Methode sein könnte, um diese Sicherheitslücke zu schließen.

Schlussfolgerung

Die Ergebnisse dieser Studie sind ein wichtiger Weckruf für die Forschungsgemeinschaft im Bereich der Künstlichen Intelligenz. Sie zeigen, dass selbst einfache Umformulierungen ausreichen können, um die Sicherheitsmechanismen fortschrittlicher Sprachmodelle zu umgehen. Es ist daher unerlässlich, die Generalisierungsmechanismen der aktuellen Ausrichtungsmethoden weiter zu untersuchen und zu verbessern, um robustere und sicherere LLMs zu entwickeln.

Rechtsanwalt Jens Ferner
Rechtsanwalt Jens Ferner

Von Rechtsanwalt Jens Ferner

Rechtsanwalt Jens Ferner ist renommierter Strafverteidiger im gesamten Strafrecht samt Managerhaftung (mit Schwerpunkt Wirtschaftskriminalität und Cybercrime) sowie Spezialist im IT-Recht mit Schwerpunkt Softwarerecht und digitale Beweismittel. Als Fachanwalt für Strafrecht + IT-Recht verteidigt er Mandanten in anspruchsvollen Strafverfahren, speziell an der Schnittstelle von Strafrecht & IT-Recht und berät in komplexen Softwareprojekten.

Rechtsanwalt Jens Ferner ist Lehrbeauftragter für Wirtschaftsstrafrecht und IT-Compliance (FH Aachen), Softwareentwickler, fortgebildet in Kommunikationspsychologie und publiziert fortlaufend.

Erreichbarkeit: Erstkontakt per Mail oder Rückruf.

Unsere Anwaltskanzlei im Raum Aachen ist hochspezialisiert auf Strafverteidigung, Cybercrime, Wirtschaftsstrafrecht samt Steuerstrafrecht. Zudem sind wir für Unternehmen im Softwarerecht und Cybersicherheitsrecht beratend tätig.