So führen Sie Tesseract auf der GIF -Datei unter Linux aus

So führen Sie Tesseract auf der GIF -Datei unter Linux aus
Tesseract ist ein OCR -System (optische Charaktererkennung). OCR -Software ist in der Lage, Text aus Bildern und gescannten Dokumenten zu verstehen (einschließlich Handschrift, wenn Sie ihn trainieren). Ein OCR -System kann für viele Aufgaben wie Wortzähldokumente, automatische Transkription, Zeichenkonvertierung von Bild zu Text und mehr nützlich sein.

LinuxHint hat bereits ein Tutorial veröffentlicht, in dem erklärt wird, wie man das Training von Tesseract installiert und versteht.

Dieses Tutorial zeigt den Installationsprozess von Tesseract in Debian/Ubuntu -Systemen, wird jedoch nicht auf Schulungsfunktionen erweitert. Wenn Sie nicht mit dieser Software vertraut sind, kann das Lesen des genannten Artikel eine gute Einführung sein. Dann zeigen wir Ihnen, wie Sie ein GIF -Bild mit Tesseract verarbeiten, um den Text aus ihm herauszuholen.

Tesseract -Installation:

Laufen:

APT Installieren Sie Tesseract-Ocr

Jetzt müssen Sie ImageMagick installieren, der ein Bildwandler ist.

Nach der Installation können wir bereits Tesseract testen. Um es zu testen, fand ich eine GIF.

Lassen Sie uns nun sehen, was passiert, wenn wir Tesseract auf dem GIF -Bild ausführen:

Tesseract 2002NY40.Gif 1Result

Jetzt machen Sie ein "weniger" auf 1Result.txt

Weniger 1Result.txt

Hier ist das Bild mit seinem Text:

In diesem Tesseract ́S -Standardeinstellungen sind die Standardeinstellungen ziemlich genau, in der Regel erforderlich, um eine solche Genauigkeit zu erhalten. Probieren wir ein anderes kostenloses Bild, das ich auf Wiki Commons gefunden habe, nachdem ich es heruntergeladen habe:

Tesseract uprecurizar_gnulinux_terminal_apt-Get.Gif 2Result

Überprüfen Sie nun den Inhalt der Datei.

Weniger 2Result.txt


Das war das Ergebnis, während der Inhalt des Originalbildes war:

Um die Charaktererkennung zu verbessern, haben wir viele Optionen und Schritte, die in unserem vorherigen Tutorial detailliert waren: Randentfernung, Rauschentfernung, Größenoptimierung und Seitenrotation unter anderem wie Ernte.

Für dieses Tutorial verwenden wir TextCleaner, ein Skript, das von Freds Imagemagick -Skripten entwickelt wurde.

Laden Sie das Skript herunter und führen Sie aus:

./textCleaner -g -e Stretch -f 25 -o 10 -s 1
AUPRÄLTIZAR_GNULINUX_TERMINAL_APT-GET.GIF -Test.GIF

Notiz: Bevor das Skript ausgeführt wird, geben Sie ihm Ausführungsberechtigungen durch Ausführen “CHMOD +X TextCleaner”Als Wurzel oder mit sudo Präfix.

Wo:

Textcleaner: Ruft das Programm an

-G: Konvertieren Sie das Bild in Graustufen

-e: Enache

-F: filtersize

-S: Sharpamt, Menge an Pixelschärfen, die auf das Ergebnis angewendet werden sollen.

Informationen und Beispiele für die Verwendung mit TextCleaner finden Sie unter http: // www.fmwconcepts.com/Imagemagick/textCleaner/Index.Php

Wie Sie sehen, hat TextCleaner die Hintergrundfarbe geändert und den Kontrast zwischen Schriftart und Hintergrund erhöht.

Wenn wir Tesseract ausführen, wird das Ergebnis wahrscheinlich anders sein:

Tesseract -Test.GIF TestOutput
Weniger Testoutput

Wie Sie sehen, hat sich das Ergebnis wirklich verbessert, selbst wenn es nicht ganz genau ist.

Der Befehl Konvertieren Von ImageMagick ermöglicht es uns, Frames aus GIF -Bildern zu extrahieren, die später von Tesseract verarbeitet werden sollen.

Die Syntax ist einfach:

Konvertieren

Das Ergebnis wird als Anzahl der Dateien als Frames im GIF generiert, in dem angegebenen Beispiel würden die Ergebnisse sein: Ausgabe-0.JPG, Ausgabe-1.JPG, Ausgabe-2.JPG, usw.

Anschließend können Sie sie mit Tesseract verarbeiten und es anweisen, alle Dateien mit einer Wildcard zu verarbeiten, die das Ergebnis in einer einzelnen Datei speichert, indem Sie ausgeführt werden:

denn ich in Output-*; Tesseract $ i outputResult; Erledigt;

Imagemagick hat eine Vielzahl von Optionen zur Optimierung von Bildern, und es gibt keinen generischen Modus. Für jede Art von Szenario sollten Sie Convert's Command Man Page lesen.

Ich hoffe, Sie haben dieses Tutorial über Tesseract gefunden, das nützlich ist.