Prompt-Injection-Angriffe und wie man sie verhindert
Eine Prompt Injection ist eine Form von Cyberangriff, die sich gezielt gegen große Sprachmodelle (Large Language Models, LLMs) richtet. Dabei verschleiern Angreifer*innen schädliche Eingaben als harmlose Anfragen, um generative KI-Systeme dazu zu bringen, sensible Informationen preiszugeben, falsche Inhalte zu erstellen oder andere schädliche Aktionen auszuführen.
Um auf dieses Thema aufmerksam zu machen, lud der OCG Arbeitskreis IT-Sicherheit zum Expert Talk. Sebastian Schrittwieser (Senior Scientist in der Forschungsgruppe Security & Privacy, Universität Wien) und Andreas Ekelhart (Senior Researcher und Senior Developer bei SBA Research) demonstrierten die Bedrohung durch Prompt Injections anhand mehrerer Live-Demos und stellen mögliche Gegenmaßnahmen für Anwendungsentwickler*innen vor. Ingrid Schaumüller-Bichl und Edgar Weippl vom OCG Arbeitskreis IT-Sicherheit führten durch den Abend.
Maßnahmen gegen Prompt-Injection-Angriffe umfassen eine Kombination aus technischen und organisatorischen Ansätzen. Eine Möglichkeit ist die Filterung und Validierung von Eingaben und Ausgaben, um schädliche oder unerwünschte Inhalte zu erkennen und zu blockieren. Speziell trainierte KI-Modelle können helfen, Angriffe zu identifizieren und die Nutzung von Sandbox-Umgebungen für KI-Systeme trägt ebenfalls zur Sicherheit bei. Letztlich sind Schulungen und Sensibilisierungsmaßnahmen für Entwickler*innen und Nutzer*innen essenziell, um Risiken durch unzureichend abgesicherte KI-Modelle zu minimieren.
Das Fazit des eindrücklichen Vortrags:
- Die aktuellen LLMs sind alle anfällig für Prompt Injections Angriffe, besonders, wenn das LLM Zugriff auf externe Quellen hat.
- Es gibt Analogien zu traditioneller (Web-)Applikationssicherheit, da nicht vertrauenswürdige (User-)Eingaben als "Code" interpretiert werden
- Aktuell gibt es keine einfachen Gegenmaßnahmen, daher ist die Sensibilisierung für dieses Thema enorm wichtig.