
Nutzen Sie OCR-Software, um Bilddateien in bearbeitbare Textdateien umzuwandeln.
Sie scannen zunächst den Text (zum Beispiel eine Buchseite) ab. Beim Dateiformat handelt es sich meistens um ein JEPG oder PNG. Die Software startet nun den systemeigenen Prescreening-Prozess. Die Vorstufe optimiert dabei das bestehende Ausgangsmaterial. Farben werden komplett herausgenommen und in Schwarz-Weiß umgewandelt.
Zudem richtet das Programm das Bild besser aus. Ziel ist es, dass sämtliche Textzeilen in senk- und waagerechten Zeilen ausgerichtet sind. Die OCR-Software nutzt zudem verschiedene Filter zur Glättung oder der Entfernung von Linien.
Die Software erkennt automatisiert Schriftarten und führt eine Vereinheitlichung des Seitenverhältnisses und der Zeichen durch. Erst danach erfolgt die eigentliche Texterkennung durch bestimmte Tools. Hierzu zählen unter anderem das Feature-Extraction-Verfahren oder das Matrix-Matching. Zuletzt konvertieren Sie den Text in ein von Ihnen gewähltes Format und speichern das Dokument entsprechend ab. Zum Beispiel können Sie das Dokument mithilfe von OCR-Software als Excel-Tabelle speichern.
Eine professional OCR-Software führt Konvertierungen unter anderem in diese drei Datei-Typen durch:
Datei-Typ | Eigenschaften |
Word | - kostenpflichtiges Textverarbeitungs-Programm von Microsoft
- viele Tools zur Gestaltung von Texten
- auch als iOS- oder Unix-Version erhältlich
- Konvertieren in ein PDF möglich
|
Excel | - kostenpflichtiges Tabellenkalkulations-Programm von Microsoft
- viele Tools zur Erstellung von Tabellen, Datenbanken und Grafiken
- auch für Mac-OS-Betriebssystem verfügbar
|
PDF | - Abkürzung steht für Portable Document Format
- plattformunabhängiges Datenformat
- vektorbasierte Seitenbeschreibungssprache
- freie Skalierbarkeit von Seiten möglich
|
Das PDF ist eine Art Alleskönner und hat gegenüber anderen Dateiformaten diese Vor- und Nachteile:
Vorteile- Inhalte werden so angezeigt wie vom Autor erstellt
- hohe Sicherheitsstandards wie Passwortschutz
- Inhalte können mit einem Kopierschutz versehen werden
Nachteile- Bearbeitung ohne entsprechende Tools kaum oder gar nicht möglich
Oftmals gibt es Texterkennungs-Tools direkt von einem Drucker- und Scanner-Hersteller wie HP, Epson oder Canon, die OCR-Software ist somit perfekt auf die technische Umgebung abgestimmt, was das Arbeiten und die Bedienung deutlich schneller sowie einfacher macht.