Tim Burmester

Aus IT-Forensik Wiki

Master Thesis, Hochschule Wismar, November 2020

Autor: Tim Burmester

Titel: Data Mining zur Erkennung von Anomalien in Logdaten

Abstrakt:

Das Ziel dieser Arbeit ist es, automatisch Anomalien in Logdaten zu finden. Das Vorgehen dafür teilt sich in zwei Schritte. In dem ersten Schritt werden die Logmeldungen aufgrund des festen Aufbaus der Meldung gruppiert. Anschließend erfolgt eine numerische Analyse auf die Anzahl Meldungen je Gruppe. Die Anforderung an beide Schritte ist, dass die Bewertung der Daten in Echtzeit und ohne Wissen über den nächsten Datensatz passiert. Für das Gruppieren wird die Wirkung von Methoden aus dem Natural Language Processing evaluiert. Mithilfe von Testdaten werden verschiedene Verfahren auf Genauigkeit und Geschwindigkeit untersucht. Abschließend erfolgt ein Vergleich mit klassischen Methoden des Machine Learnings zur Bildung von Clustern.

Bei der numerischen Analyse werden statische Ansätze zur Erwartung an den nächsten Datenpunkt mit Methoden zum Vorhersagen des nächsten Datenpunktes verglichen. Um die Abweichung zwischen der Vorhersage und den echten Wert zu bewerten, wird eine Formel zur Bestimmung der Wahrscheinlichkeit für eine Anomalie vorgestellt.

Abstract:

The purpose of this work is to automatically find anomalies in log data. The procedure is divided into two steps. In the first step the log messages are grouped according to the fixed structure of the message. Afterwards a numerical analysis of the number of messages per group is performed. The requirement for both steps is that the evaluation of the data happens in real time and without knowledge about the next data point. For grouping, the effect of methods from Natural Language Processing is evaluated. With the help of test data different methods are examined for accuracy and speed. In conclusion, a comparison is made with classical methods of machine learning for clustering.

In numerical analysis, static approaches to predict the next data point are compared with methods for predicting the next data point. To evaluate the deviation between the prediction and the actual value, a formula for determining the probability of an anomaly is presented.

Download PDF-Dokument