Janne Menz

Aus IT-Forensik Wiki

Bachelor Thesis, Hochschule Wismar, Juli 2021

Autor: Janne Menz

Titel: Vergleich von Ansätzen der Statistik und Künstlichen Intelligenz zur Kategorisierung von Texten

Abstrakt:

In der Bachelorarbeit sollen verschiedene Methoden der Statistik und künstlichen Intelligenz in ihrer Fähigkeit verglichen werden, Texte zu klassifizieren. Des Weiteren soll ein Werkzeug entwickelt werden, das ermöglicht, anhand kategorisierter Texte ein Model zur Textklassifizierung zu erstellen.

Textklassifizierung ist eine zentrale Aufgabe im Natural Language Processing. Sie findet Anwendung in verschiedenen Bereichen, wie zum Beispiel beim Spam-Filter für Email-Accounts, Sentiment-Analyse zur Moderation in sozialen Netzwerken, oder auch zur Produktentwicklung und -vermarktung.

Es gibt für die Programmiersprache Python viele Bibliotheken, die Textklassifizierung erleichtern, zum Beispiel das Natural Language Toolkit (nltk), ScikitLearn und TensorFlow. Anwendung finden diese zumeist auf einem der vielen englischsprachigen Korpora. Um herauszufinden, welche Leistung diese Bibliotheken auf einem deutschen Korpus erbringen, werden in dieser Arbeit verschiedene Arten der Textklassifizierung auf dem deutschsprachigen Korpus 10kGNAD angewendet und verglichen.

Zunächst wird hierbei auf Vorverarbeitung, Textrepräsentation, sowie Merkmalsauswahl eingegangen, die eine Kategorisierung durch einen Machine Learning Classifier ermöglichen.

Anschließend wird die Möglichkeit der Kategorisierung durch Neuronale Netze und die hierfür notwendigen Schritte besprochen. Schließlich wird ein Werkzeug vorgestellt, das ermöglicht, anhand kategorisierter Texte ein Model zur Textklassifizierung zu erstellen. Hierbei sollen verschiedene Parameter angepasst und verglichen werden können.

Abstract

Text classification is a central task in Natural Language Processing. It is used in various areas, such as spam filtering for email accounts, sentiment analysis for moderation in social networks, or product development and marketing.

There are many libraries for the Python programming language that enable text classification, for example the Natural Language Toolkit (nltk), ScikitLearn and TensorFlow. These are mostly used on one of the many English corpora. In order to find out how these libraries perform on a German corpus, this paper will apply and compare different types of text classification to the German-language corpus 10kGNAD.

First, the steps enabling the application of machine learning classifiers are discussed, namely pre-processing, text representation and feature selection. Next, the possibility of categorisation by neural networks and the steps necessary for doing so are discussed.

Finally, a tool is presented that makes it possible to create a model for text classification on the basis of categorised texts. It should be possible to adjust and compare different parameters.

Download PDF-Dokument