Manuel Dorobek

Aus IT-Forensik Wiki

Master Thesis, Hochschule Wismar, Januar 2021

Autor: Manuel Dorobek

Titel: Automatisierte Autorschaftsanalyse in der deutschen Sprache mittels forensischer Linguistik

Abstrakt:

Im kriminalistischen Kontext ergibt sich oftmals die Frage nach dem Autor eines anonymen Dokuments. Beispielsweise muss der Verfasser eines Erpresserschreibens innerhalb einer Gruppe von Verdächtigen identifiziert werden. Neben den manuellen Methoden existieren in der englischen Sprache bereits erfolgreiche Verfahren, die Autorschaftsanalyse zu automatisieren. In der deutschen Sprache hingegen sind kaum Veröffentlichungen in diesem Bereich zu finden. Aufgrund von sprachlichen Eigenheiten ergibt sich die Forschungsfrage, ob eine automatisierte Autorschaftsanalyse auch in der deutschen Sprache möglich ist. Zu diesem Zweck soll ein Klassifikationsmodell für die deutsche Sprache entwickelt werden und eine Bewertung der existierenden Merkmale an diesem erfolgen. Nach einem Vergleich von drei Algorithmen fiel die Wahl des Klassifikators auf Support Vector Machines. Anhand einer Datengrundlage deutscher Musikreviews konnten Klassifikationsergebnisse von 96,4% bei der Unterscheidung von 25 Autoren unter der Verwendung von 60 Texten als Trainingsdaten erzielt werden. In der Bewertung der Merkmale zeigten sich „Zeichen-Affix-4-Gramme“ als effektivstes Merkmal. Themenabhängige Merkmale konnten aufgrund einer starken Korrelation unter gleichbleibenden Ergebnissen ausgelassen werden.

Abstract:

Automated Authorship Analysis in German Language Using Forensic Linguistics

In a criminal context, the question of the author of an anonymous document often arises. For example, the author of an extortion letter must be identified within a group of suspects. In addition to manual methods, there already exist successful methods for automating authorship analysis in the English language. In the German language, however, there are hardly any publications in this area. Due to linguistic peculiarities, the research question arises whether an automated authorship analysis is also possible in the German language. For this purpose, a classification model for the German language will be developed and an evaluation of the existing features will be performed using it. After a comparison of three algorithms, the choice of the classifier fell on Support Vector Machines. Using a database of German music reviews, classification results of 96.4% could be achieved when distinguishing 25 authors using 60 texts as training data. In the feature evaluation, "Char-Affix-4-Grams" showed to be the most effective feature. Content-dependent features could be omitted due to a sustained strong correlation and consistent results.

Download PDF-Dokument

Quellcode: https://github.com/mdorobek/authorship_analysis