Weitersuchen
Menge Gesamt
Anfragekorb öffnen

OCR

Optical Character Recognition revolutionierte die Bearbeitung via Scanner durch Automatisierung. Dies kann sowohl online als auch lokal erfolgen und bringt eine Vereinfachung sowohl im Office als auch in der Druckvorstufe mit sich. Ursprünglich auf optischer Zeichenerkennung basierend, entwickelte sich diese Technik stetig weiter. So wird mittlerweile auch hier KI angewendet.

OCR

Kurzerklärung

OCR beschreibt eine Technologie in der Informationstechnik, die durch das Scannen via Kamera oder Scanner selbstständig Buchstaben innerhalb von Bildern (bspw. Scans) erkennen kann und editierbar ausgibt. Ursprünglich basierte dies auf optischer Zeichenerkennung. Durch die Weiterentwickelt werden nun ganze Zeilen anstelle einzelner Zeichen verarbeitet.

Der Hauptzweck liegt darin, Wörter aus Bildern in beispielsweise einer PDF zur Bearbeitung zu extrahieren, die von optischen Eingabegeräten wie Scannern oder Digitalkameras erzeugt wurden. Diese Geräte liefern Pixelgrafiken, die aus Punkten unterschiedlicher Farben bestehen (Pixel). Das Programm identifiziert und interpretiert diese Punkte als Buchstaben und ordnet ihnen entsprechende Zeichenwerte zu, wie sie in Textcodierungen wie ASCII oder Unicode definiert sind.

Moderne Konventierungsmethoden, wie anfangs erwähnt, geht über die reine Zeichenerkennung hinaus und umfasst auch Kontextanalysen sowie Anwendung zur Fehlerkorrektur. Dadurch können auch komplexe Schriftarten, Handschriften und sogar mehrdeutige Zeichen erkannt werden.

Die Online- als auch Offline-Anwendungen reichen von der Umwandlung von Bilddaten in durchsuchbare PDFs über die Sortierung von Dokumenten bis hin zur Unterstützung von Sehbehinderten, die es blinden Menschen möglich macht, eingescannte Texte über den Computer zu lesen oder sich vorlesen zu lassen.

Phasen der Texterkennung

Die aktuelle Methode von OCR nimmt Algorithmen und KI zur Hilfe und unterteilt sich in fünf Abschnitte:

  1. Analyse:
    Um sicherzustellen, dass das Programm einzelne Buchstaben richtig erkennen kann, muss das Bild zunächst für die Verarbeitung vorbereitet werden. Dies beinhaltet Schritte wie die Umwandlung des Fotos oder Scans in Schwarz-Weiß, um die Schrift deutlich vom Hintergrund abzuheben. Beim Zoning werden dann Layoutelemente wie Absätze, Überschriften oder Tabellen erkannt und entsprechend behandelt.
  2. Differenzierung der Elemente:
    Mittels des Programms wird in der zweiten Phase damit begonnen, zunächst die Absätze von den grafischen Elementen eines Dokuments oder Bildes zu unterscheiden. In der Segmentierungsphase werden daher Zeile für Zeile entsprechende Buchstaben und Wörtern identifiziert. Erst dann können die individuellen Buchstaben konkret entschlüsselt und zu Wörtern und Sätzen zusammengefügt werden.
  3. Interpretierung von Zeichen:
    Durch den Vergleich mit einer Datenbank, werden im nachfolgenden Schritt Zeichen verglichen. Eigenschaften wie Größe, Form und Struktur des jeweiligen Zeichens, bestimmen hierbei die einzelnen Merkmale. Resultierend daraus, ergibt sich eine Einschätzung der genutzten OCR-Anwendung, um welchen Buchstaben, welche Zahl oder welches Satzzeichen es sich handeln könnte.
  4. Nacharbeitung mittels Autokorrektur
    Viele der professionellen Programme zur Weiterbearbeitung von gescannten Dokumenten, verfügen über die Möglichkeit, Autokorrekturen durchführen zu lassen. Der sogenannte „Intelligent Character Recognition“ (ICR) unterstützt dies.
  5. Umwandlung in ein bearbeitbares Dateiformat (z.B. in ein Word-Dokument mit der Endung .doc)
    Hierbei wird im letzten Schritt die Ausgabe gewandelt. Das heißt, es wird in ein gewähltes Dateiformat gespeichert. Dies kann, je nach Wunsch, ein editierbares PDF, eine reine TXT-, Word- oder Excel-Datei sein.

PDF Texterkennung
Ursprungsdateien umwandeln


PDF to OCR ist ein Beispiel dafür, von welchen Formaten aus, eine Datei zur weiteren Verarbeitung erzeugt werden kann. Es beschreibt lediglich eine gängige Möglichkeit. Genausogut sind Wandlungen von gut aufgelösten Bildern möglich. In diesem Fall wählt man dann beispielsweise Tiff to … oder JPG to … .

Scanner und Software

Wie eingangs erwähnt, handelt es sich bei einem Gerät für die Konvertierung nicht zwangsläufig um einen Scanner für das Büro oder Homeoffice. Die Scanfunktion kann heutzutage genausogut von Smartphone-Kameras erledigt werden. Einzig ein gutes Pixelbild und die entsprechende OCR-Software ist entscheidend, um optimale Ergebnisse zu erzielen.

Kostenpflichtige Software ist meist unwesentlich besser als kostenlose Versionen. Nur die Qualität spielt die entscheidende Rolle. Wie bei vielen Kaufoptionen, kann man hier Kundenbewertungen und Tests von einschlägigen Namen zu Rate ziehen. Das Prinzip der Technik ist jedoch größtenteils gleich.

Free OCR

Bei FreeOCR handelt es sich, allgemein betrachtet, um eine beliebte Software-Anwendung, die durch ihre einfache Handhabe geschätzt wird. Sie steht auf vielen sicheren Downloadseiten zur Verfügung. Um Buchstaben aus einer Grafikdatei oder einem PDF zu erkennen, sind nur wenige Klicks erforderlich. Je nachdem, wie Sie den Scan gespeichert haben, können Sie zwischen unterschiedlichen Formaten wählen, die auf der linken Seite des Programmfensters angezeigt werden. Wenn Sie auf das Kreuzchen im rechten Fenster klicken, wird es geleert und die Texterkennung beginnt.

Außerdem können Sie festlegen, ob nur die aktuelle Seite der Datei oder das gesamte Dokument bearbeitet werden soll. Nachdem Sie Ihre Einstellungen vorgenommen haben, klicken Sie einfach auf "Weiter", und Ihre Datei wird in einen bearbeitbares Dokument umgewandelt. Das Programm bietet auch die Option des „Postprocessing“, um Fehler wie „VV“ anstelle von „W“ zu korrigieren.

Tesseract Software

Tesseract Software ist meist Teil verschiedener Texterkennungs-Programme, die nach den gängigen Unix-Konventionen sowohl unter Unix als auch unter Windows von der Kommandozeile aus gesteuert wird.

Es gibt eine Vielzahl von Anwendungen, die Tesseract als Backend integriert haben. Dieses Programm liest das Bild im TIFF-Format ein und gibt den erkannte Buchstaben und Wörter in die Ausgabedatei weiter. Frühere Versionen von Tesseract hatten keine eigene Layoutanalyse und waren daher auf externe Programme angewiesen, um eine Strukturierung zu ermöglichen. Aktuelle Versionen nutzen jedoch die Leptonica-Programmbibliothek für die Analyse der Seitengestaltung sowie für die direkte Verarbeitung vieler Bildformate. Sollten Sie demnach auf Tesseract Software in Ihrer Anwendung stoßen, spricht das von einer guten Qualität.

Offline- vs. Web-Anwendung

Die Entscheidung für online- oder Offline-Anwendung, hängt von Ihren individuellen Anforderungen, wie oft Sie die Technologie nutzen, Ihren Datenschutzpräferenzen und anderen Faktoren ab.

Online-Software:
  1. Echtzeitverarbeitung:
    Online-OCR-Tools ermöglichen die sofortige Umwandlung von Bilddateien in durchsuchbare Dokumente. Sie sind ideal für schnelle und gelegentliche Konvertierungen.
  2. Konnektivität:
    Da die Anwendungen webbasiert sind, erfordern sie eine Internetzugang. Dies kann sowohl ein Vorteil als auch ein Nachteil sein, je nach Verfügbarkeit und Geschwindigkeit der Verbindung.
  3. Kosten:
    Einige Online-Werkzeuge bieten kostenlose oder preisgünstige Optionen für die Grundnutzung an, während fortgeschrittene Funktionen möglicherweise eine kostenpflichtige Anmeldung erfordern.
  4. Datenschutz:
    Da die Konvertierung in der Cloud erfolgt, sollte man die Datenschutzrichtlinien des jeweiligen Dienstes bewusst zu sein und sicherzustellen, dass sensible Daten angemessen geschützt werden.

Offline-Methode von OCR:

  1. Datenschutz und Sicherheit:
    Offline-OCR-Software verarbeitet Dokumente lokal auf dem Computer, was die Datensicherheit und den Datenschutz erhöhen kann, da die sensiblen Informationen nicht an externe Server gesendet werden.
  2. Unabhängigkeit von der Internetverbindung:
    Für die lokale Wandlung ist keine Internetverbindung erforderlich. Somit können Offline-Tools überall und jederzeit verwendet werden.
  3. Anpassung und Kontrolle:
    Einige Offline-Software bietet erweiterte Anpassungsmöglichkeiten und eine größere Kontrolle über den Konvertierungsprozess im Vergleich zu Online-Tools.
  4. Kosten:
    Für erweiterte Funktionen muss ggf. ein Kauf der Software erfolgen oder eine Lizenzgebühr erworben werden, dass bei Online-Diensten oftmals nicht der fall ist.

Verwendung in der Druckvorstufe

In der Druckvorstufe spielt Optical Character Recognition eine entscheidende Rolle für die Effizienz, indem Gedrucktes oder Handgeschriebenes in maschinenlesbare digitale Formate umgewandelt werden, um sie weiter zu bearbeiten. Dies führt zur einer Zeit- und Ressourceneinsparung.

Die Umwandlung von Bildmaterial oder PDF-Daten ist besonders bei Mengentexten oder in der Übersetzung in ein Schriftbild nützlich. Die PDFs oder Bilder können dann effizienter bearbeitet werden, ohne dass zunächst eine Vektorisierung mittels Bild erforderlich ist, was sonst eine unschön Darstellung mitsich bringen würde. Bei fremdsprachigen Manuskripten ist es besonders wichtig, den Text in editierbare Formate umzuwandeln, da es sonst mühsam sein kann, diverse Glyphen richtig zuzuordnen. Dies gilt insbesondere, wenn der bearbeitende Grafiker kein Muttersprachler der betreffenden Sprache ist.

Durch den Einsatz von Optical Character Recognition kann die Qualität in der Druckvorstufe sichergestellt werden, indem potenzielle Fehler bei der manuellen Eingabe umgangen werden. Dies führt zu einer höheren Genauigkeit.