LLM-Hacking: Ein Überblick über Angriffstechniken und -szenarien

Das sogenannte „LLM-Hacking“ bezieht sich auf Techniken und Strategien, um diese Modelle zu manipulieren oder ihre Funktionen auf unvorhergesehene Weise zu nutzen. Große Sprachmodelle sind in gewisser Hinsicht besonders gefahrgeneigt, weil diese versuchen autonom zu agieren und dabei notwendigerweise auf Eingaben von Außen angewiesen sind: Mal durch die Aufgaben, die ihnen erteilt werden, mal durch … LLM-Hacking: Ein Überblick über Angriffstechniken und -szenarien weiterlesen