Tesseract ist die freie und wahrscheinlich die beste OCR -Lösung auf dem Markt. Seit 2006 wird es von Google gesponsert. Zuvor wurde es zwischen 1985 und 1998 von Hewlett Packard in C und C ++ entwickelt. Das System kann eine sogar Handschrift identifizieren; Es kann lernen, seine Genauigkeit erhöhen und gehört zu den am weitesten entwickelten und vollsten auf dem Markt.
Wenn es richtig ausgebildet ist, kann es die kommerziellen Konkurrenten wie Abby übertreffen. Wenn Sie nach einer ernsthaften Lösung für OCR suchen, ist Tesseract die genaueste, erwarten Sie jedoch keine massiven Lösungen: Es verwendet einen Kern pro Prozess, was bedeutet, dass ein 8 -Kernprozessor (Hyperthreading akzeptiert) in der Lage sein kann, 8 oder zu verarbeiten oder zu verarbeiten oder 16 Bilder gleichzeitig.
Tesseract ist eine großartige Lösung, aber bevor Sie darüber nachdenken, müssen Sie wissen, dass die Versionen des letzten Tesseracts große Verbesserungen mitgebracht haben, von denen einige harte Arbeit bedeuten. Während das Training Stunden oder Tage dauern kann, kann das Training von Tesseracts Versionen von Tagen, Wochen oder sogar Monaten sein, insbesondere wenn Sie nach einer mehrsprachigen OCR -Lösung suchen.
Installieren von Tesseract auf Debian und Ubuntu:
Um Tesseract auf Debian oder Ubuntu Linux Distribution zu installieren.
sudo apt installieren Tesseract -acoc -y
Dadurch wird Tesseract unter installiert /usr/share/tesseract-OCR/4.00/tessdata.
Notiz: Für andere Linux -Verteilungen springen Sie, um Tesseract aus Quellen zu installieren.
Standardmäßig installiert Tesseract das englischsprachige Paket. Um zusätzliche Sprachen zu installieren, ist die Syntax die folgende. Im folgenden Beispiel werde ich das hebräische Sprachpaket installieren.
sudo apt installieren Tesseract-Ocr-Heb
Um alle verfügbaren Sprachen zu installieren, führen Sie aus:
sudo apt installieren Tesseract-OCR-All -y
Damit Tesseract richtig funktioniert, müssen wir den Befehl „Konvertieren“ verwenden. Dieser Befehl ist nützlich, um zwischen Bildformaten umzuwandeln und eine Größe, Unschärfe, Ernte, Despeckle, Dither, Zeichnen, Flip, Verbinden, Wiederprobieren und vieles mehr. Dieses Tool wird von Imagemagick bereitgestellt:
sudo apt installieren Imagemagick
Testen wir nun Tesseract, finden ein Bild mit Text und Ausführen:
Tesseract
Tesseract extrahiert den Text aus dem Bild.
Als ich mit Tesseract zusammenarbeitete, brauchten wir nur Dokumente für Wortzählen. Wie bei jedem anderen Programm können und müssen Sie es trainieren, um die Handschrift zu verstehen.
In fortgeschrittenen Texteditoren können wir einige Symbole definieren, die gezählt werden können oder nicht, wenn wir zählen oder nicht, usw., Gleiches gilt für die Möglichkeit, bei Tesseract verfügbar.
Optimierung von Tesseract:
Einführung in den Tesseract -Trainingsprozess:
Zuvor umfasste dieser Artikel den Trainingsprozess von Tesseract, der sich zu einem manuellen Prozess entwickelte, der einen speziellen Artikel verdient. Daher deckt dieser Abschnitt nur theoretische Informationen zum Schulungsprozess und den Anweisungen zur Installation von Tesseract -Trainingstools und dem Start.
Laut Tesseracts offiziellem Wiki haben wir 3 aktuelle Optionen, um unser OCR -System zu schulen:
Bevor wir weiterhin die Anweisungen für die Tesseract -Trainingsanweisungen haben, müssen wir zusätzliche Bibliotheken installieren:
sudo apt installieren libicu-dev libicu-dev libcairo2-dev
Installieren Sie auf Debian-basierten Linux-Verteilungen das Tesseract-Entwicklungspaket, einschließlich Tesseract-Trainingstools mit APT, wie unten gezeigt. Wenn Sie keine Debian-basierte Linux-Verteilung verwenden, lesen Sie die Anweisungen zur Installation von Tesseract-Trainingstools aus Quellen.
sudo apt installieren libtesseract -dev -y
Nach der Installation können Sie die Trainingswerkzeuge untersuchen /usr/share/tesseractoc/ Wie nachfolgend dargestellt.
LS/USR/Share/Tesseract-Ocr
Bevor Sie anfangen, eine Sprache zu trainieren, müssen Sie Tesseract den Inhalt zur Verfügung stellen.
Dazu müssen Sie das Langdata -Verzeichnis und das Eng -Subdirektor in Tesseracts Installation Main Directory erstellen. Erstellen Sie dann die Trainingstextdatei wie unten gezeigt.
sudo mkdir/usr/sHARSE/Tesseract-acoc/langdata/
sudo mkdir/usr/sHARSE/Tesseract-Ocr/Langdata/eng/
sudo nano/usr/share/tesseractoc/langdata/eng/eng.Training_text
Notiz: Denken Sie daran, dem Inhalt zum Hinzufügen zu Eng.Training_text Datei.
Sobald die Trainingstextdatei hinzugefügt wurde, ist die Syntax, um eine Sprache zu trainieren. Der folgende Befehl besteht darin, die englische Sprache zu trainieren, die als “definiert ist“Eng”.
./Tessstrain.sh-lang eng--langdata_dir/usr/share/tesseract-cr/langdata-tessdata_dir/usr/share/tesseract-cr/tessdata
Dieser Vorgang kann lange dauern. Dies hängt natürlich auch von Ihren Trainingstextdateien ab. Dies ist die Einführung in den Tesseract -Trainingsprozess. Wir werden einen neuen Artikel veröffentlichen, der sich nur auf den Schulungsprozess konzentriert.
Fehlerbehebung fehlende Schriftarten:
In meinem Fall bekam ich einen Fehler, als ich versuchte, Tesseract zu trainieren. Die kühne Schriftart der Arial fehlte. Ich habe dies gelöst, indem ich den Befehl unten ausführte.
sudo apt installieren ttf-mscorefonts-Installer
Installieren Sie Tesseract aus Quellen unter Linux:
Bei verschiedenen Linux -Verteilungen können Sie Tesseract mit Git erhalten, wie unten gezeigt.
Git -Klon https: // github.com/tesseractoc/tesseract.Git
Wenn Sie nach dem Kloned in das Tesseract -Verzeichnis gehen, indem Sie mit CD ausgeführt werden.
CD Tesseract
Dann laufen Sie die Autogen.Sch Skript wie unten gezeigt.
sudo ./Autogen.Sch
Der obige Befehl erstellt die Installationsdateien. Führen Sie nun den folgenden Befehl aus, um den Installationsprozess zu starten.
sudo ./konfigurieren
Laufen machen Tesseract mit dem Kompilieren von Tesseract zu beginnen.
sudo machen
Dann renne Installation machen, Wie im Screenshot unten gezeigt.
sudo mach installieren
Ausführen ldconfig Wie nachfolgend dargestellt.
sudo ldconfig
Führen Sie den folgenden Befehl aus, um Trainingstools zu kompilieren, um den folgenden Befehl auszuführen.
sudo machen Training
Dann renne:
sudo machen Trainingsinstallation
Jetzt können Sie die Anweisungen befolgen, um mit dem Trainingsprozess zu beginnen.
Abschluss:
Wie Sie sehen können, ist es ziemlich einfach, Tesseract unter Linux zu installieren, insbesondere bei Debian-basierten Linux-Verteilungen. Als ich Tesseract verwendet habe, haben wir Tausende potenzieller Kunden verwaltet, die handgeschriebene Inhalte, Bilder mit Text usw. hochladen, usw. Wir haben 48 Kernserver mit DataBasByDesign und dann mit AWS verwendet. Wir hatten nie ein Ressourcenproblem.
Wir hatten einen Uploader, der zwischen Textdateien wie Microsoft Office oder Open Office -Dateien und -bildern oder gescannten Dokumenten diskriminiert wurde. Der Uploader ermittelte, was auch immer die OCR- oder PHP -Skripte im Feld der Texterkennung verarbeiten würden.
Meiner Erfahrung nach ist Tesseract die beste OCR-Lösung auf dem Markt, und es ist Open-Source.
Vielen Dank, dass Sie dieses Tutorial gelesen haben, um zu erklären, wie Sie Tesseract OCR unter Linux installieren und konfigurieren können. Folgen Sie uns weiter, um zusätzliche Linux -Tipps und Tutorials zu erhalten.