Dr. Julia Winkler

Aus IT-Forensik Wiki

Bachelor Thesis, Hochschule Wismar, Juli 2024

Autor: Dr. Julia Winkler

Titel: Prompt Injection als sprachabhängiger Angriffsvektor auf große Sprachmodelle

Abstrakt

Die vorliegende Arbeit behandelt das Problem der Prompt Injection, der direkten oder indirekten Manipulation des Outputs großer Sprachmodelle (LLMs). Ohne technische Kenntnisse und nur durch natürliche Sprache kann jeder Nutzer LLMs angreifen und u.U. sensible Informationen extrahieren, Code einschleusen, digitale Assistenten manipulieren oder ganze Systeme kompromittieren. Dies kann nicht nur über direkte Anfragen an das LLM erfolgen, sondern auch indirekt durch den Besuch von Websites, unbedachtem Kopieren und Einfügen von Text oder bei der Zusammenfassung von Dokumenten. Diskutiert werden Probleme mit und Risiken von LLMs am Bsp. von ChatGPT und Bing/Copilot. Es zeigt sich, dass bestimmte Angriffsmuster bereits erlernt wurden, sodass bösartige Prompts zunehmend länger werden, dass es aber auch Angriffe in mehreren Schritten gibt, die nicht als solche erkannt werden. Zum Teil lassen sich die Filter umgehen, indem man Prompts einfach in einer anderen Sprache formuliert, da die Performanz der Modelle im Englischen nach wie vor am besten ist.

Abstract

This thesis deals with the problem of prompt injection, the direct or indirect manipulation of the output of large language models (LLMs). Without technical knowledge and using only natural language, any user can attack LLMs and possibly extract sensitive information, inject code, manipulate digital assistants or compromise entire systems. This can be done not only via direct requests to the LLM, but also indirectly by visiting websites, careless copying and pasting of text or when summarising documents. Problems with and risks of LLMs are discussed using the example of ChatGPT and Bing/Copilot. It is shown that certain attack patterns have already been learnt, so that malicious prompts are becoming increasingly longer, but that there are also attacks in several steps that are not recognised as such. Some of the filters can be circumvented by simply formulating prompts in a different language, as the performance of the models is still best in English.

Download PDF-Dokument

Download Vortrag PDF-Dokument