Bei OCR handelt es sich um die optische Zeichenerkennung in gescannten Dokumenten, Bildern oder auch PDF-Dateien. Wenn Sie ein Dokument von einem Geschäftspartner oder der Bank nur in gedruckter Form erhalten, die Daten aber weiterverarbeiten müssen, ist es heutzutage nicht mehr nötig, den Text per Hand abzutippen. Mit OCR-fähigen Programmen können Sie die Daten ganz einfach per automatischer Erkennung auslesen und in Word-Dokumente übersetzen lassen.

So funktioniert OCR

Scanner speichern ihre Dokumente nur als PDF oder Bild-Datei ab. So können Sie Ihre Dokumente zwar aufbewahren, die Daten aber nicht weiterverarbeiten. Wenn Sie die Daten beispielsweise noch einmal für die Bezahlung einer Rechnung benötigen oder die Informationen in der digitalen Buchhaltung weiterverwenden möchten, dann müssen Sie sie mühsam per Hand abtippen. Denn ohne OCR sind die Dokumente lediglich Bilder mit verschiedenen Farbpunkten. OCR liest diese Farbpunkte und erkennt sie als Zeilen, Worte und Buchstaben. Auch wenn automatische Texterkennung und OCR oft synonym verwendet werden, handelt es sich bei OCR eigentlich nur um den Mustervergleich. Hierbei werden zuerst Textblöcke von graphischen Elementen unterschieden, anschließend werden die Zeilen und Wörter, am Ende die Buchstaben separiert. Mittlerweile kann OCR nicht nur Standardschriften, sondern sogar Handschriften erkennen.

Ablauf der OCR

Wird eine Bilddatei in ein OCR-Programm eingepflegt, beginnt dieses Programm zuerst mit der Seiten- und Gliederungserkennung. Dabei werden die relevanten Bereiche von den irrelevanten getrennt. Anschließend beginnt die Mustererkennung, bei der gegebenenfalls erste Korrekturen vorgenommen werden. In diesem Fall kommt es auf die Qualität der Vorlage an. Ist diese sehr gut gescannt, sind weniger Korrekturen möglich, als wenn zum Beispiel der Kontrast zu hoch ist oder Schmutzpartikel das Bild stören. Weiter geht es mit dem Mustervergleich. Das Programm greift auf eine Datenbank zu, in der es die vorliegenden Muster mit zahlreichen abgespeicherten Mustern vergleichen kann. Es wird eine erste Rohform des Textes abgespeichert.

Die Rohform, auch Rohdigitalisat genannt, wird unter linguistischen und statistischen Gesichtspunkten auf ihre Fehlerfreiheit getestet. Der Vergleich mit Wörterbüchern ist hier unabdingbar. Sind auch handschriftliche Elemente in der Datei, wird diese mit Wörterbüchern verglichen. Je größer das Wörterbuch, desto geringer ist auch die Treffergenauigkeit. Bei vielen Programmen ist die händische Fehlerkorrektur im Nachhinein nicht nur möglich, sondern auch wichtig.

OCR – online und für das Smartphone

OCR-Programme finden Sie im Netz oder auch als App für Ihr Smartphone mit Android oder Ihr iPhone. Google zeigt bei der Suche allerdings auch viele kostenpflichtige Produkte, die Ihnen viele Funktionen bieten. Wenn Sie Ihre Daten für die Buchhaltung nutzen möchten, dann können Sie Ihre Belege auch einfach von unserer intelligenten Buchhaltungssoftware CANDIS Smartbooks einlesen lassen. Unsere Software benutzt neben OCR auch künstliche Intelligenz, um Ihre Daten einzulesen.