Installieren Sie Tesseract OCR unter Linux

Installieren Sie Tesseract OCR unter Linux
In diesem Tutorial wird erklärt.

Tesseract ist die freie und wahrscheinlich die beste OCR -Lösung auf dem Markt. Seit 2006 wird es von Google gesponsert. Zuvor wurde es zwischen 1985 und 1998 von Hewlett Packard in C und C ++ entwickelt. Das System kann eine sogar Handschrift identifizieren; Es kann lernen, seine Genauigkeit erhöhen und gehört zu den am weitesten entwickelten und vollsten auf dem Markt.

Wenn es richtig ausgebildet ist, kann es die kommerziellen Konkurrenten wie Abby übertreffen. Wenn Sie nach einer ernsthaften Lösung für OCR suchen, ist Tesseract die genaueste, erwarten Sie jedoch keine massiven Lösungen: Es verwendet einen Kern pro Prozess, was bedeutet, dass ein 8 -Kernprozessor (Hyperthreading akzeptiert) in der Lage sein kann, 8 oder zu verarbeiten oder zu verarbeiten oder 16 Bilder gleichzeitig.

Tesseract ist eine großartige Lösung, aber bevor Sie darüber nachdenken, müssen Sie wissen, dass die Versionen des letzten Tesseracts große Verbesserungen mitgebracht haben, von denen einige harte Arbeit bedeuten. Während das Training Stunden oder Tage dauern kann, kann das Training von Tesseracts Versionen von Tagen, Wochen oder sogar Monaten sein, insbesondere wenn Sie nach einer mehrsprachigen OCR -Lösung suchen.

Installieren von Tesseract auf Debian und Ubuntu:

Um Tesseract auf Debian oder Ubuntu Linux Distribution zu installieren.

sudo apt installieren Tesseract -acoc -y

Dadurch wird Tesseract unter installiert /usr/share/tesseract-OCR/4.00/tessdata.

Notiz: Für andere Linux -Verteilungen springen Sie, um Tesseract aus Quellen zu installieren.

Standardmäßig installiert Tesseract das englischsprachige Paket. Um zusätzliche Sprachen zu installieren, ist die Syntax die folgende. Im folgenden Beispiel werde ich das hebräische Sprachpaket installieren.

sudo apt installieren Tesseract-Ocr-Heb

Um alle verfügbaren Sprachen zu installieren, führen Sie aus:

sudo apt installieren Tesseract-OCR-All -y

Damit Tesseract richtig funktioniert, müssen wir den Befehl „Konvertieren“ verwenden. Dieser Befehl ist nützlich, um zwischen Bildformaten umzuwandeln und eine Größe, Unschärfe, Ernte, Despeckle, Dither, Zeichnen, Flip, Verbinden, Wiederprobieren und vieles mehr. Dieses Tool wird von Imagemagick bereitgestellt:

sudo apt installieren Imagemagick

Testen wir nun Tesseract, finden ein Bild mit Text und Ausführen:

Tesseract

Tesseract extrahiert den Text aus dem Bild.

Als ich mit Tesseract zusammenarbeitete, brauchten wir nur Dokumente für Wortzählen. Wie bei jedem anderen Programm können und müssen Sie es trainieren, um die Handschrift zu verstehen.

In fortgeschrittenen Texteditoren können wir einige Symbole definieren, die gezählt werden können oder nicht, wenn wir zählen oder nicht, usw., Gleiches gilt für die Möglichkeit, bei Tesseract verfügbar.

Optimierung von Tesseract:

  • Größenoptimierung: Laut offiziellen Quellen beträgt die optimale Pixelgröße für ein Bild erfolgreich von Tesseract 300DPI. Wir müssen jedes Bild mit dem Parameter -r -Parameter verarbeiten, um diesen DPI durchzusetzen. Die Erhöhung des DPI erhöht auch die Verarbeitungszeit.
  • Seitenrotation: Wenn, wenn die Seite gescannt ist, ist die Seite nicht ordnungsgemäß positioniert und bleibt 180 ° oder 45 °, die Genauigkeit von Tesseract nimmt ab, sodass Sie ein Python -Skript verwenden können, um Rotationsprobleme automatisch zu erkennen und zu beheben.
  • Grenzentfernung: Laut Tesseracts offiziellem Mann können Grenzen fälschlicherweise als Charaktere ausgewählt werden, insbesondere als dunkle Grenzen und wo es eine Abstufungsvielfalt gibt. Das Entfernen von Grenzen kann ein guter Schritt sein, um mit Tesseract eine maximale Genauigkeit zu erreichen.
  • Geräusch entfernen: Laut Tesseract -Quellen ist Rauschen „eine zufällige Variation der Helligkeit oder Farbe in einem Bild“ ist. Wir können diese Variation im Binarisierungsschritt entfernen, was bedeutet, dass ihre Farben polarisieren.

Einführung in den Tesseract -Trainingsprozess:

Zuvor umfasste dieser Artikel den Trainingsprozess von Tesseract, der sich zu einem manuellen Prozess entwickelte, der einen speziellen Artikel verdient. Daher deckt dieser Abschnitt nur theoretische Informationen zum Schulungsprozess und den Anweisungen zur Installation von Tesseract -Trainingstools und dem Start.

Laut Tesseracts offiziellem Wiki haben wir 3 aktuelle Optionen, um unser OCR -System zu schulen:

  • "Feinabstimmung. Beginnend mit einer vorhandenen geschulten Sprache trainieren Sie Ihre spezifischen zusätzlichen Daten. Dies kann bei Problemen funktionieren, die den vorhandenen Trainingsdaten nahe stehen, sich jedoch auf subtile Weise unterscheiden, wie eine besonders ungewöhnliche Schriftart. Kann auch mit einer kleinen Menge von Trainingsdaten funktionieren.
  • Schneiden Sie die obere Schicht (oder eine beliebige Anzahl von Ebenen) aus dem Netzwerk ab und senden Sie eine neue obere Schicht mit den neuen Daten ab. Wenn die Feinabstimmung nicht funktioniert, ist dies höchstwahrscheinlich die nächstbeste Option. Wenn Sie mit dem ähnlich aussehendsten Skript beginnen, kann das Abschneiden der obersten Ebene immer noch für die Ausbildung einer völlig neuen Sprache oder eines ganz neuen Skripts eignen.
  • Sich von Grund auf neu aufholen. Es sei denn, Sie haben einen sehr repräsentativen und ausreichend großen Trainingssatz für Ihr Problem. Wenn nicht, werden Sie wahrscheinlich ein übereinstimmendes Netzwerk haben, das in den Trainingsdaten, jedoch nicht in den tatsächlichen Daten, wirklich gut funktioniert.

Bevor wir weiterhin die Anweisungen für die Tesseract -Trainingsanweisungen haben, müssen wir zusätzliche Bibliotheken installieren:

sudo apt installieren libicu-dev libicu-dev libcairo2-dev

Installieren Sie auf Debian-basierten Linux-Verteilungen das Tesseract-Entwicklungspaket, einschließlich Tesseract-Trainingstools mit APT, wie unten gezeigt. Wenn Sie keine Debian-basierte Linux-Verteilung verwenden, lesen Sie die Anweisungen zur Installation von Tesseract-Trainingstools aus Quellen.

sudo apt installieren libtesseract -dev -y

Nach der Installation können Sie die Trainingswerkzeuge untersuchen /usr/share/tesseractoc/ Wie nachfolgend dargestellt.

LS/USR/Share/Tesseract-Ocr

Bevor Sie anfangen, eine Sprache zu trainieren, müssen Sie Tesseract den Inhalt zur Verfügung stellen.

Dazu müssen Sie das Langdata -Verzeichnis und das Eng -Subdirektor in Tesseracts Installation Main Directory erstellen. Erstellen Sie dann die Trainingstextdatei wie unten gezeigt.

sudo mkdir/usr/sHARSE/Tesseract-acoc/langdata/
sudo mkdir/usr/sHARSE/Tesseract-Ocr/Langdata/eng/
sudo nano/usr/share/tesseractoc/langdata/eng/eng.Training_text

Notiz: Denken Sie daran, dem Inhalt zum Hinzufügen zu Eng.Training_text Datei.

Sobald die Trainingstextdatei hinzugefügt wurde, ist die Syntax, um eine Sprache zu trainieren. Der folgende Befehl besteht darin, die englische Sprache zu trainieren, die als “definiert ist“Eng”.

./Tessstrain.sh-lang eng--langdata_dir/usr/share/tesseract-cr/langdata-tessdata_dir/usr/share/tesseract-cr/tessdata

Dieser Vorgang kann lange dauern. Dies hängt natürlich auch von Ihren Trainingstextdateien ab. Dies ist die Einführung in den Tesseract -Trainingsprozess. Wir werden einen neuen Artikel veröffentlichen, der sich nur auf den Schulungsprozess konzentriert.

Fehlerbehebung fehlende Schriftarten:

In meinem Fall bekam ich einen Fehler, als ich versuchte, Tesseract zu trainieren. Die kühne Schriftart der Arial fehlte. Ich habe dies gelöst, indem ich den Befehl unten ausführte.

sudo apt installieren ttf-mscorefonts-Installer

Installieren Sie Tesseract aus Quellen unter Linux:

Bei verschiedenen Linux -Verteilungen können Sie Tesseract mit Git erhalten, wie unten gezeigt.

Git -Klon https: // github.com/tesseractoc/tesseract.Git

Wenn Sie nach dem Kloned in das Tesseract -Verzeichnis gehen, indem Sie mit CD ausgeführt werden.

CD Tesseract

Dann laufen Sie die Autogen.Sch Skript wie unten gezeigt.

sudo ./Autogen.Sch

Der obige Befehl erstellt die Installationsdateien. Führen Sie nun den folgenden Befehl aus, um den Installationsprozess zu starten.

sudo ./konfigurieren

Laufen machen Tesseract mit dem Kompilieren von Tesseract zu beginnen.

sudo machen

Dann renne Installation machen, Wie im Screenshot unten gezeigt.

sudo mach installieren

Ausführen ldconfig Wie nachfolgend dargestellt.

sudo ldconfig

Führen Sie den folgenden Befehl aus, um Trainingstools zu kompilieren, um den folgenden Befehl auszuführen.

sudo machen Training

Dann renne:

sudo machen Trainingsinstallation

Jetzt können Sie die Anweisungen befolgen, um mit dem Trainingsprozess zu beginnen.

Abschluss:

Wie Sie sehen können, ist es ziemlich einfach, Tesseract unter Linux zu installieren, insbesondere bei Debian-basierten Linux-Verteilungen. Als ich Tesseract verwendet habe, haben wir Tausende potenzieller Kunden verwaltet, die handgeschriebene Inhalte, Bilder mit Text usw. hochladen, usw. Wir haben 48 Kernserver mit DataBasByDesign und dann mit AWS verwendet. Wir hatten nie ein Ressourcenproblem.

Wir hatten einen Uploader, der zwischen Textdateien wie Microsoft Office oder Open Office -Dateien und -bildern oder gescannten Dokumenten diskriminiert wurde. Der Uploader ermittelte, was auch immer die OCR- oder PHP -Skripte im Feld der Texterkennung verarbeiten würden.

Meiner Erfahrung nach ist Tesseract die beste OCR-Lösung auf dem Markt, und es ist Open-Source.

Vielen Dank, dass Sie dieses Tutorial gelesen haben, um zu erklären, wie Sie Tesseract OCR unter Linux installieren und konfigurieren können. Folgen Sie uns weiter, um zusätzliche Linux -Tipps und Tutorials zu erhalten.