LinuxHint hat bereits ein Tutorial veröffentlicht, in dem erklärt wird, wie man das Training von Tesseract installiert und versteht.
Dieses Tutorial zeigt den Installationsprozess von Tesseract in Debian/Ubuntu -Systemen, wird jedoch nicht auf Schulungsfunktionen erweitert. Wenn Sie nicht mit dieser Software vertraut sind, kann das Lesen des genannten Artikel eine gute Einführung sein. Dann zeigen wir Ihnen, wie Sie ein GIF -Bild mit Tesseract verarbeiten, um den Text aus ihm herauszuholen.
Laufen:
APT Installieren Sie Tesseract-Ocr
Jetzt müssen Sie ImageMagick installieren, der ein Bildwandler ist.
Nach der Installation können wir bereits Tesseract testen. Um es zu testen, fand ich eine GIF.
Lassen Sie uns nun sehen, was passiert, wenn wir Tesseract auf dem GIF -Bild ausführen:
Tesseract 2002NY40.Gif 1Result
Jetzt machen Sie ein "weniger" auf 1Result.txt
Weniger 1Result.txt
Hier ist das Bild mit seinem Text:
In diesem Tesseract ́S -Standardeinstellungen sind die Standardeinstellungen ziemlich genau, in der Regel erforderlich, um eine solche Genauigkeit zu erhalten. Probieren wir ein anderes kostenloses Bild, das ich auf Wiki Commons gefunden habe, nachdem ich es heruntergeladen habe:
Tesseract uprecurizar_gnulinux_terminal_apt-Get.Gif 2Result
Überprüfen Sie nun den Inhalt der Datei.
Weniger 2Result.txt
Das war das Ergebnis, während der Inhalt des Originalbildes war:
Um die Charaktererkennung zu verbessern, haben wir viele Optionen und Schritte, die in unserem vorherigen Tutorial detailliert waren: Randentfernung, Rauschentfernung, Größenoptimierung und Seitenrotation unter anderem wie Ernte.
Für dieses Tutorial verwenden wir TextCleaner, ein Skript, das von Freds Imagemagick -Skripten entwickelt wurde.
Laden Sie das Skript herunter und führen Sie aus:
./textCleaner -g -e Stretch -f 25 -o 10 -s 1
AUPRÄLTIZAR_GNULINUX_TERMINAL_APT-GET.GIF -Test.GIF
Notiz: Bevor das Skript ausgeführt wird, geben Sie ihm Ausführungsberechtigungen durch Ausführen “CHMOD +X TextCleaner”Als Wurzel oder mit sudo Präfix.
Wo:
Textcleaner: Ruft das Programm an
-G: Konvertieren Sie das Bild in Graustufen
-e: Enache
-F: filtersize
-S: Sharpamt, Menge an Pixelschärfen, die auf das Ergebnis angewendet werden sollen.
Informationen und Beispiele für die Verwendung mit TextCleaner finden Sie unter http: // www.fmwconcepts.com/Imagemagick/textCleaner/Index.Php
Wie Sie sehen, hat TextCleaner die Hintergrundfarbe geändert und den Kontrast zwischen Schriftart und Hintergrund erhöht.
Wenn wir Tesseract ausführen, wird das Ergebnis wahrscheinlich anders sein:
Tesseract -Test.GIF TestOutput
Weniger Testoutput
Wie Sie sehen, hat sich das Ergebnis wirklich verbessert, selbst wenn es nicht ganz genau ist.
Der Befehl Konvertieren Von ImageMagick ermöglicht es uns, Frames aus GIF -Bildern zu extrahieren, die später von Tesseract verarbeitet werden sollen.
Die Syntax ist einfach:
Konvertieren
Das Ergebnis wird als Anzahl der Dateien als Frames im GIF generiert, in dem angegebenen Beispiel würden die Ergebnisse sein: Ausgabe-0.JPG, Ausgabe-1.JPG, Ausgabe-2.JPG, usw.
Anschließend können Sie sie mit Tesseract verarbeiten und es anweisen, alle Dateien mit einer Wildcard zu verarbeiten, die das Ergebnis in einer einzelnen Datei speichert, indem Sie ausgeführt werden:
denn ich in Output-*; Tesseract $ i outputResult; Erledigt;
Imagemagick hat eine Vielzahl von Optionen zur Optimierung von Bildern, und es gibt keinen generischen Modus. Für jede Art von Szenario sollten Sie Convert's Command Man Page lesen.
Ich hoffe, Sie haben dieses Tutorial über Tesseract gefunden, das nützlich ist.