Tesseract ist ein frei verfügbares Open-Source-Texterkennungsinstrument auch als OCR (optische Charaktererkennung). Es wird in erster Linie verwendet, um Text aus Bildern zu identifizieren und zu extrahieren. Es wird Text aus Bilddaten gelesen und die Ausgabe in einem neuen Schreiben schreiben .TXT -Datei. Tesseract arbeitet auch unter Python, da es hauptsächlich verwendet wird, um die Handschrift aus Bildern zu erkennen. Es verwendet das LSTR-Modell (Long Short-Dem-Memory). Tesseract arbeitet unter dem Apache 2.0 Lizenz.
Wir werden die Methode zur Installation von Tesseract unter Windows in diesem Blog näher erläutern.
Also lasst uns anfangen!
So installieren Sie Tesseract unter Windows?
Der Tesseract ist ein Befehlszeilenwerkzeug, das für die Textentnahme aus den Bildern verwendet wird. Um Tesseract unter Windows zu installieren, müssen Sie die folgenden Anweisungen verfolgen.
Schritt 1: Tesseract Installer herunterladen
Navigieren Sie zunächst zum folgenden Link und laden Sie das Tesseract-Installateur gemäß Ihrer Systemspezifikation herunter:
https: // github.com/ub-mannheim/tesseract/wiki
Schritt 2: Tesseract Installer ausführen
Besuche den "Downloads”Verzeichnis, in dem der Tesseract -Installationsprogramm heruntergeladen wird. Um Tesseract unter Windows zu installieren, führen Sie den Tesseract -Installationsprogramm aus, indem Sie darauf klicken:
Schritt 3: Sprache auswählen
Viele Sprachen werden vom Tesseract -Installateur unterstützt. Um mit der Installer -Benutzeroberfläche zu interagieren, wählen Sie “Englisch"Als Ihre Sprache und klicken Sie auf"OK”:
Schritt 4: Tesseract installieren
Auf diese Weise erscheint der Tesseract OCR -Setup -Assistent auf dem Bildschirm. Um die Tesseract -Installation zu beginnen, drücken Sie die “Nächste" Taste:
Das akzeptieren "Lizenzvereinbarung", drücke den "Ich stimme zu" Taste:
Wähle aus "Installieren Sie für alle, die diesen Computer benutzenOption und drücken Sie die “Nächste" Taste:
Wenn Sie Skriptdaten hinzufügen oder eine andere Sprache einfügen möchten, markieren Sie ihre jeweiligen Kontrollkästchen und klicken Sie auf die “Nächste" Taste. Da wir kein zusätzliches Datenskript oder keine Sprache wünschen, werden wir mit Standardoptionen fortfahren:
Wählen Sie den Installationsort und klicken Sie auf die “Nächste" Taste:
Wenn Sie im Startmenü keine Verknüpfung erstellen möchten, markieren Sie die “Keine Verknüpfungen erstellenKontrollkästchen und drücken Sie die “Installieren" Taste:
Danach wird die Tesseract -Installation gestartet. Warten Sie, bis die Installation abgeschlossen ist, und drücken Sie die “Nächste" Taste:
Schließlich klicken Sie auf die “Beenden" Taste:
Schritt 5: Umgebungsvariable festlegen
Nach der Installation müssen Sie die Umgebungsvariable des Tesseract festlegen. Besuchen Sie zuerst das Verzeichnis, in dem Sie den Tesseract installiert haben, und kopieren Sie den Pfad aus dem “Adresse" Bar:
Suche nach “Umgebungsvariablen" im "Start-up"Menü und öffnen"Bearbeiten Sie die Systemumgebungsvariablen”:
In den Einstellungen navigieren Sie zum “FortschrittlichMenü einstellen und auf die "klicken"Umgebungsvariablen" Taste:
Wählen Sie das "Weg"Variable aus der"Systemvariablen"Panel und drücken Sie die"Bearbeiten" Taste:
Danach "Umgebungsvariable bearbeitenDas Fenster wird auf dem Bildschirm angezeigt. Drücken Sie die “NeuTaste ”und fügen Sie den kopierten Tesseract -Installationsverzeichnispfad hier ein. Schließlich klicken Sie auf die “OK" Taste:
Schritt 6: Überprüfen Sie die Tesseract -Installation
Öffnen Sie die Eingabeaufforderung Windows -Eingabeaufforderung, um die Tesseract -Installation zu überprüfen, indem Sie durchsuchen. “Eingabeaufforderung" im "Start-up" Speisekarte:
Schauen Sie sich die Tesseract -Version anhand des angegebenen Befehls an:
> Tesseract -Verssion
Die untergegebene Ausgabe zeigt an, dass wir die Tesseract-Version erfolgreich installiert habenv5.2.0”Unter Windows:
Lassen Sie uns voranschreiten, wie Sie Tesseract unter Windows verwenden können.
So verwenden Sie Tesseract unter Windows?
Der Tesseract wird verwendet, um Handschrift zu lesen oder Text aus Bildern zu extrahieren. Mal sehen, wie es funktioniert:
Schritt 1: Wählen Sie Bild aus
Wählen Sie das Bild aus, aus dem Sie Text extrahieren möchten. Wie wir gewählt haben “1.png”:
Schritt 2: Text aus dem Bild extrahieren
Sobald die CMD geöffnet ist. Verwenden Sie die “CDBefehl, das Verzeichnis zu ändern, in dem das Bild gespeichert ist. Dann laufen Sie die "TesseractBefehl ”und definieren Sie den Namen der Bilddatei, wie wir angegeben haben“1.png”. Der "TextDer Parameter zeigt an, dass der Name der Ausgabedatei bezeichnet wird:
> CD C: \ Benutzer \ Anuma \ OneDrive \ Bilder \ Speicherte Bilder
> Tesseract 1.PNG "Text"
Schritt 3: Überprüfen Sie die Textextraktion
Um die Textextraktion zu überprüfen, navigieren Sie im Verzeichnis, in dem die Bilddatei vorliegt. Sie können sehen, dass die Ausgabedatei “Text”Wird auch hier gerettet. Doppelklicken Sie auf die Ausgabedatei, um zu überprüfen, ob der Tesseract den Text aus dem Bild extrahiert hat oder nicht:
Sie können sehen, dass wir den Text mit dem Tesseract -Befehlszeilen -Tool erfolgreich extrahiert haben:
Wir haben die Technik demonstriert, um Tesseract unter Windows zu installieren und zu verwenden.
Abschluss
Um den Tesseract unter Windows zu installieren, muss der Tesseract -Installationsprogramm heruntergeladen werden. Folgen Sie zu diesem Zweck der ersten Sitzung dieses Artikels. Setzen Sie als Nächst. Wählen Sie dann die Bilddatei aus und verwenden Sie die “TesseractBefehl zum Erkennen und Extrahieren des Textes aus dem Bild. Hier haben Sie gelernt, die zu installieren und zu verwendenTesseract”Unter Windows.