Angriffsszenarien auf LLM durch Formulierung in Vergangenheitsform

In einer kürzlich durchgeführten Studie haben Forscher der EPFL (Eidgenössische Technische Hochschule Lausanne) eine interessante Schwachstelle in den aktuellen Ablehnungsmechanismen von großen Sprachmodellen (Large Language Models, LLMs) aufgedeckt. Diese Schwachstelle ermöglicht es, die Sicherheitsvorkehrungen vieler LLMs zu umgehen, indem man gefährliche Anfragen einfach in die Vergangenheitsform umformuliert. Dieser Blog-Beitrag beleuchtet die Ergebnisse der Studie und … Angriffsszenarien auf LLM durch Formulierung in Vergangenheitsform weiterlesen