Bernd Beuermann

Aus IT-Forensik Wiki

Master Thesis, Hochschule Wismar, August 2019

Autor: Bernd Beuermann

Titel: Anwendung bioinformatischer Methoden zur Datensuche in der IT-Forensik

Abstrakt: Die moderne Gesellschaft kann ohne den Einsatz von Informationstechnik nicht mehr existieren. Hierzu gehört leider auch der kriminelle Technikeinsatz. Die Beweisführung in der IT-Forensik gelingt nur über den Nachweis belastenden Materials - in der Regel Daten bzw. Dateien. Die Analyse erfolgt mit Hilfe spezieller Forensiksoftware, wobei die Vollständigkeit der Dateien (Metadaten und Inhalt) oder ein intaktes Filesystem für belastbare Analyseergebnisse grundsätzlich vorausgesetzt werden müssen. Für das Auffinden von erzeugten Dateifragmenten, die eine forensische Analyse deutlich erschweren bis unmöglich machen können, existieren keine Standardverfahren. Man findet allerdings eine gleichartige Herausforderung bei der Suche nach (veränderten) Gensequenzen in der Bioinformatik. Die Gensequenzen setzen sich aus Basen zusammen und die bioinformatische Vorgehensweise in Form einer Berechnung von Basenhäufigkeiten zum Auffinden relevanter Regionen und das Alignieren zweier Gensequenzen als ein mögliches Maß für deren Übereinstimmung (Alignmentscores) könnten auch in der IT-Forensik erfolgreich eingesetzt werden; dieser Sequenzvergleich in der Bioinformatik ist mit der forensischen Suche nach Templates bzw. Mustern in einem Image vergleichbar und bildet den Untersuchungsgegenstand der vorliegenden Arbeit.

Im ersten bioinformatischen Untersuchungsabschnitt wird das Auffinden von unveränderten Dateien in Images durch den Vergleich von Basenhäufigkeiten - Einzelbasen (1-Tupel) bis zu Basenquadrupel (4-Tupel) - untersucht. Auf dieser Basis sind die Identifizierung und Lokalisierung von Dateien möglich. Die Wahrscheinlichkeiten für falsch-negative (FNR) und falsch-positive Ergebnisse (FPR) sind von der Tupellänge abhängig, auch die Größe des Untersuchungsfensters, mit dem das Image und ggf. Template „abgefahren“ werden, beeinflusst die Analyse. Die Berechnung globaler und lokaler Alignmentscores im zweiten Untersuchungsabschnitt kann die FNR und FPR zusätzlich reduzieren. Im dritten Abschnitt wird das Vorgehen bei unveränderten Dateien auf Dateifragmente übertragen. Die Fragmentsuche ist erfolgreich durchführbar, wobei die Größe des Untersuchungsfensters in Abhängigkeit von der Fragmentgröße einen entscheidenden Faktor darstellt - eine exakte Größenübereinstimmung zwischen Untersuchungsfenster und Fragment ist jedoch nicht erforderlich. Im vierten Untersuchungsabschnitt wird die Suche nach ähnlichen Daten, u. a. mit Hilfe der Erzeugung von Konsensussequenzen durch Multiple Alignments, betrachtet. Abschließend werden die bioinformatischen Ergebnisse mit etablierten Verfahren verglichen.

Bei der bioinformatischen Untersuchung unveränderter Dateien mit Hilfe von Basenhäufigkeiten gelingt der Ausschluss von im Image nicht vorhandenem Material mit einer FNR £ 6 % (Basenquadrupel), unter zusätzlicher Anwendung von Alignments kann diese FNR auf 0 % sinken. Im Vergleich hierzu liegen die Werte bei 0 % für Autopsy, XWays, EnCase (Ergebnisse der Arbeit) und bei ca. 5 % für sdhash (vgl. [35]). Der Einsatz bioinformatischer Methoden kann bei der Fragmentsuche vorteilhaft sein, da mit Hilfe etablierter Verfahren teilweise weniger oder im Extremfall sogar keine Fragmente auffindbar sind. Die Suche nach ähnlichen Dateien - vor allem unterschiedliche Versionen einer Datei, z. B. durch die Bildbearbeitung mit Filtern - ist grundsätzlich möglich, bedarf jedoch weiterer Untersuchungen zur Anwendung bioinformatischer Methoden. Sdhash als einziges zur Ähnlichkeitssuche eingesetztes etabliertes Verfahren konnte nicht überzeugen.

Bei intakten Filesystemen und unveränderten Daten sind die hier eingesetzten bioinformatischen Methoden hinsichtlich ihrer Zeit- und Platzkomplexität den etablierten Forensikverfahren deutlich unterlegen. Insgesamt bietet die Bioinformatik interessante Ansätze, die unabhängig vom Datenkontext - Filesystem und Datei-Metadaten - eine Imageanalyse ermöglichen. Auf Grund der vielfältigen Parametrisierungsmöglichkeiten bioinformatischer Methoden, z. B. Wahl des Alphabets und der Bewertungs-/ Substitutionsmatrix, sind weitere Untersuchungen erforderlich, um deren Nutzen für die IT-Forensik über die hier vorgestellten Ergebnisse hinaus zu beschreiben.

Download PDF-Dokument