OCR: Unterschied zwischen den Versionen

Aus IT-Forensik Wiki
(Die Seite wurde neu angelegt: „Der Begriff OCR ist die englische Abkürzung für Optical Character Recognition, oder einfach ausgedrückt Texterkennung/ optische Zeichenerkennung. In der Reg…“)
 
Keine Bearbeitungszusammenfassung
 
Zeile 1: Zeile 1:
Der Begriff OCR ist die englische Abkürzung für Optical Character Recognition, oder einfach ausgedrückt Texterkennung/ optische Zeichenerkennung. In der Regel wird es dafür verwendet, eingescannte Dokumente zu erfassen und sie dann wieder mit einem Textverarbeitungsprogramm weiter zu bearbeiten oder zu formatieren.
Der Begriff OCR ist die englische Abkürzung für '''O'''ptical '''C'''haracter '''R'''ecognition, oder einfach ausgedrückt Texterkennung/ optische Zeichenerkennung. In der Regel wird es dafür verwendet, eingescannte Dokumente zu erfassen und sie dann wieder mit einem Textverarbeitungsprogramm weiter zu bearbeiten oder zu formatieren.


Es können digitale Dokumente, aber auch Bilder und andere Dateien durch OCR analysiert werden. In der Forensik hat dies den Vorteil, dass die gewonnenen Informationen mittels einer Indexsuche einfacher zu finden sind, anstatt die Dateien einzeln zu betrachten.  
Es können digitale Dokumente, aber auch Bilder und andere Dateien durch OCR analysiert werden. In der Forensik hat dies den Vorteil, dass die gewonnenen Informationen mittels einer Indexsuche einfacher zu finden sind, anstatt die Dateien einzeln zu betrachten.  

Aktuelle Version vom 29. Juni 2022, 15:33 Uhr

Der Begriff OCR ist die englische Abkürzung für Optical Character Recognition, oder einfach ausgedrückt Texterkennung/ optische Zeichenerkennung. In der Regel wird es dafür verwendet, eingescannte Dokumente zu erfassen und sie dann wieder mit einem Textverarbeitungsprogramm weiter zu bearbeiten oder zu formatieren.

Es können digitale Dokumente, aber auch Bilder und andere Dateien durch OCR analysiert werden. In der Forensik hat dies den Vorteil, dass die gewonnenen Informationen mittels einer Indexsuche einfacher zu finden sind, anstatt die Dateien einzeln zu betrachten. Das Dokument wird mittels einer Layoutanalyse zuerst in Text und Bilder getrennt, bevor es dann in Textblöcke bis auf die einzelnen Buchstaben und Zahlen aufgeteilt wird.

Im letzten Schritt werden die einzelnen Buchstaben und Ziffern mit Mustern der OCR Software verglichen und anhand davon nacheinander in Buchstaben, Worte und Text umgewandelt. Dieser fertig umgewandelte Text wird dann in eine Datei geschrieben, die man sowohl bearbeiten oder auch durchsuchen kann.