Johannes Rieke
Master Thesis, Hochschule Wismar, September 2023
Autor: Johannes Rieke
Titel: Extraktion personenbezogener Daten aus interaktiv nutzbaren Language Models mittels Prompt Engineering
Abstrakt
Der Einsatz von (großen) Sprachmodellen erfahren, aufgrund ihrer zunehmenden Leistungsfähigkeit, seit Ende des Jahres 2022 internationale Aufmerksamkeit, wo- durch deren breiter Einsatz bereits erfolgt oder erwogen wird. In vorherigen For- schungsarbeiten konnte gezeigt werden, dass Sprachmodelle in ihren Continuations (personenbezogene) Trainingsdaten memorisieren und somit ein potenzielles Daten- leck darstellen. Aufgrund des noch jungen Forschungsgebiets wird in dieser Arbeit eine quantitative Methode eines Angriffs auf Sprachmodelle mittels Prompts zur Extraktion personenbezogener Daten erforscht. Eine empirische Evaluierung erfolgt durch die Untersuchung der Extraktion von Vor- und Zunamen, E-Mailadressen, Mo- bilfunknummern und IBAN im Sprachmodell benjamin/gerpt2-large, welches mit dem deutschen CC-100 Datensatz trainiert worden ist. Dabei kann gezeigt wer- den, dass die zielgerichtete Entwicklung, Testung und Verbesserung von Prompts in Verbindung mit der Nutzung des Random Sampling die Wahrscheinlichkeit der Ausgabe von dem gewünschten personenbezogenen Datum maximieren kann. Im Abgleich mit den vorliegenden Trainingsdaten konnten in Continuations ein Anteil memorisierter Daten bei personenbezogenen E-Mailadressen von maximal 0,03%, bei Mobilfunknummern von maximal 1,15% und bei Namen von maximal 32,05% festgestellt werden. Eine Memorisierung bei IBAN konnte indes nicht beobachtet werden. Zur Abwehr etwaiger gleichgelagerter Angriffe werden abschließend Erklä- rungen für die sog. Trainingsdaten-Memorisierung und zudem mögliche Gegen- und Schutzmaßnahmen thematisiert.
Abstract
The use of (large) language models, due to their increasing power, has received in- ternational attention since the end of 2022, as a result of which their widespread use is already occurring or being considered. In previous research, it has been shown that language models memorize (person related) training data in their continuations and thus represent a potential data leakage. Due to the still young research field, this thesis explores a quantitative method of an attack on language models using prompts to extract person related data. An empirical evaluation is performed by examining the extraction of first and last names, email addresses, mobile numbers and IBAN in the language model benjamin/gerpt2-large, which has been trained with the German CC- 100 dataset. It can be shown that the targeted development, testing and improvement of prompts in conjunction with the use of random sampling can maximize the pro- bability of outputting the desired personal date. In the comparison with the available training data, a maximum of 0.03% of memorized data for personal email addresses, 1.15% for mobile numbers, and 32.05% for names was found in the continuations. However, no memorization was observed for IBANs. Finally, explanations for the so-called training data memorization and possible countermeasures and protective measures are discussed in order to defend against possible similar attacks.