OCR

Aus IT-Forensik Wiki

Der Begriff OCR ist die englische Abkürzung für Optical Character Recognition, oder einfach ausgedrückt Texterkennung/ optische Zeichenerkennung. In der Regel wird es dafür verwendet, eingescannte Dokumente zu erfassen und sie dann wieder mit einem Textverarbeitungsprogramm weiter zu bearbeiten oder zu formatieren.

Es können digitale Dokumente, aber auch Bilder und andere Dateien durch OCR analysiert werden. In der Forensik hat dies den Vorteil, dass die gewonnenen Informationen mittels einer Indexsuche einfacher zu finden sind, anstatt die Dateien einzeln zu betrachten. Das Dokument wird mittels einer Layoutanalyse zuerst in Text und Bilder getrennt, bevor es dann in Textblöcke bis auf die einzelnen Buchstaben und Zahlen aufgeteilt wird.

Im letzten Schritt werden die einzelnen Buchstaben und Ziffern mit Mustern der OCR Software verglichen und anhand davon nacheinander in Buchstaben, Worte und Text umgewandelt. Dieser fertig umgewandelte Text wird dann in eine Datei geschrieben, die man sowohl bearbeiten oder auch durchsuchen kann.