OCR/OCV – Lesung der Klarschrift mit einer Kamera

OCR ist die englische Abkürzung für Optical Character Recognition und OCV steht für Optical Character Verification. Übersetzt auf Deutsch bedeutet dies so viel wie Klarschrift Lesung bzw. Klarschrift Überprüfung. Während es früher erforderlich war für die Maschinenlesung eine bestimmte Schriftart zu nutzen, ist dies heute nicht mehr nötig. Ein gutes Beispiel sind die Reisepässe, die eine maschinenlesbare Zeile besitzen und daher exakt mit diesem Schrifttyp gedruckt werden mussten. In den letzten Jahren wurden die OCR Systeme weiterentwickelt, sodass heute Dinge möglich sind, an die vor einiger Zeit noch gar nicht zu denken war. Heute kann OCR aufgrund der Normierung der Windows Schriftarten zuverlässig und ohne Training bei Schriftstücken eingesetzt werden. Es ist sogar möglich enge Proportionalschriften einzulesen. Ein modernes OCR System ist in der Lage, das Format eines Textes zu erkennen, sodass selbst mehrspaltige Dokumente automatisch weiterverarbeitet werden können.

Was ist OCR eigentlich?

Die optische Zeichenerkennung (OCR) ist eine Technologie, bei der verschiedene Dokumente in durchsuchbare und bearbeitbare Dateien umgewandelt werden. Das können beispielsweise PDF Daten sein, Papierdokumente, aber auch Digitalbilder. Wer nun relevante Informationen aus einer Broschüre, einem Zeitungsartikel oder auch einem Vertrag herausziehen möchte, um diese beispielsweise im Word Format wiederzugeben oder in einer Excel Datei zu bearbeiten, der kann hierfür nicht einfach nur einen Scanner verwenden. Denn der Scanner gibt lediglich eine Kopie bzw. ein Bild des Dokuments aus. Dabei handelt es sich um eine Ansammlung von Pixeln, demnach Bildpunkten, die weiß, schwarz oder farbig sein können. Möglich sind natürlich auch Tabellen oder Rastergrafiken.

Um diese Dokumente auslesen und weiterverarbeiten zu können wird OCR Software benötigt. Sie macht aus Dokumenten, PDF oder Digitalbildern Wörter und Sätze. Dadurch können Informationen lesbar und durchsuchbar gespeichert werden. Außerdem ist eine weitere Bearbeitung möglich.

Texterkennung in der Praxis

Die meisten optischen Eingabegeräte, wie zum Beispiel Digitalkameras, Scanner oder Faxe können ausschließlich Rastergrafiken ausgeben. Das bedeutet, dass die in den Spalten und Zeilen angeordneten Punkte unterschiedlich gefärbt sind, die sogenannten Pixel. Bei der Texterkennung müssen Buchstaben aber auch als Buchstaben erkennbar sein. Denn sie müssen identifiziert werden, um ihnen anschließend einen Zahlenwert zuzuordnen, der ihnen nach einer Textkodierung zugewiesen wird. Wie zum Beispiel durch Unicode oder ASCII.

Im deutschen Sprachgebrauch werden die Begriffe OCR und automatische Texterkennung als Synonym verwendet. Dies ist allerdings falsch. Denn technisch gesehen beschreibt OCR die Erkennung von einzelnen Zeichen in separierte Bildteile. Dem geht eine Erkennung der Strukturen voraus, indem zunächst Textblöcke von den grafischen Elementen abgegrenzt werden. Anschließend werden die Zeilenstrukturen erkannt und Einzelzeichen separiert. Die Entscheidung, um welches Textzeichen es sich handelt, wird über bestimmte Algorithmen vorgenommen, bei denen ein sprachlicher Kontext Berücksichtigung findet.

Früher war es hierfür erforderlich, dass speziell entworfene Schriftarten für die automatische Texterkennung verwendet werden. Jeder hat bestimmt noch die untere Zeile in einem Scheckformular in Erinnerung. Diese Schriftart war so gestaltet, dass die Zeichen von einem speziellen OCR Lesegerät ohne großen Rechenaufwand und sehr schnell unterschieden und eingelesen werden konnten. Die verwendete Schriftart nannte sich OCR-A und zeichnete sich dadurch aus, dass sehr ähnliche Zeichen, wie zum Beispiel die Null und das große O, so gedruckt wurden, dass sie sich nicht mehr ähnlich waren. Dahingegen ähnelte OCR-B einer nicht proportionalen und serifenlosen Schriftart. OCR-H hingegen war handgeschriebenen Buchstaben und Ziffern nachempfunden. Dadurch, dass moderne Computer immer leistungsfähiger sind und es nun auch verbesserte Algorithmen gibt, ist es inzwischen möglich, dass auch ganz normale Schriftarten vom Drucker und sogar Handschriften erkannt werden können.

Das kann moderne OCR Software leisten

Moderne Texterkennungs-Software ist inzwischen in der Lage, eine Kontextanalyse durchzuführen. Mithilfe von ICR (Intelligent Character Recognition) kann das Ergebnis korrigiert werden und dadurch wird ein Zeichen, das ursprünglich als Zahl 8 erkannt wurde, beispielsweise automatisch in ein B umgewandelt, da es innerhalb von einem Wort steht. Aus 8uchstaben wird so Buchstaben.

Texterkennung wird vor allem von größeren Unternehmen verwendet, zum Beispiel wenn es darum geht, den Posteingang automatisch zu verarbeiten. Belege müssen beispielsweise im Posteingang sortiert werden. Für diese Aufgabe es ist aber nicht erforderlich, den kompletten Inhalt zu analysieren. Stattdessen reicht es in der Regel, nach groben Merkmalen zu unterscheiden. Das kann zum Beispiel ein ganz bestimmtes Layout von Rechnungen oder Formularen sein, ein Firmenlogo oder andere charakteristische Merkmale. Die Klassifikation erfolgt dann über eine Mustererkennung, die sich auf die definierten Stellen und nicht auf das gesamte Dokument bezieht.

Vorteile von OCR

OCR wird vor allem deshalb eingesetzt, um bei der Erstellung unterschiedlichster Dokumente Zeit und Kosten einzusparen. Dies gilt auch der weiteren Verarbeitung und der Wiederverwendung. Mit einer OCR Software wird ein Papierdokument eingescannt, um es später zum Beispiel in einem Word Dokument oder in einer Excel Datei zu bearbeiten und danach weiterzuleiten. Außerdem ist es möglich Textstellen aus Zeitschriften und Bücher zu übernehmen und in eigene Dokumente, Arbeitspapiere und Studien zu verwenden, ohne das Zitat oder die Textstelle abtippen zu müssen.

Sogar von unterwegs ist es mithilfe einer einfachen Handy Kamera heutzutage möglich, Texte von Fahrplänen, Postern oder Bannern zu erfassen und die daraus resultierenden Informationen in einem Dokument weiter zu verwenden. Das gleiche gilt natürlich auch für Textstellen aus Bücher und Papierdokumente, wenn gerade einmal kein Scanner vorhanden ist. Außerdem kann die Software dafür genutzt werden, durchsuchbare Archive zu erstellen. Moderne Programme arbeiten inzwischen so schnell, dass die Datenumwandlung nur wenige Sekunden dauert.

weiterführende Informationen:

https://en.wikipedia.org/wiki/Optical_character_recognition