So installieren und verwenden Sie Easyocr in Linux

So installieren und verwenden Sie Easyocr in Linux
In diesem Artikel wird eine Anleitung zum Installieren und Verwenden des EasyOCR -Befehlszeilen -Tools und des Python -Moduls behandelt. Erhältlich als kostenlose und Open -Source -Anwendung, kann sie verwendet werden, um Text aus den Bildern zu identifizieren und zu extrahieren. Es verwendet die OCR -Technologie (optische Charaktererkennung) und eine Vielzahl verschiedener Algorithmen und Sprachmodelle, um den Text zu erkennen.

Hauptmerkmale von Easyocr

Easyocr kann Text in über 80 Sprachen und Skripten erkennen. Es enthält vorgeborene Modelle für diese Sprachen, aber Sie können Easyocrs verwenden, um Ihre eigenen Modelle von Grund auf neu zu trainieren. Neben digitalen und gedruckten textbasierten Inhalten, die in Bildern zu finden sind, kann Easyocr auch handgeschriebenen Text erkennen und extrahieren. Weitere Hauptmerkmale von EasyOcR sind die Fähigkeit, mehrere Bilder gleichzeitig zu verarbeiten, bestimmte Zeichen aus einer Sprache zu begrenzen und zu blockieren, eine Option zum Umwandeln von extrahierten Linien in Absätze, die Fähigkeit zur Größe und Vergrößerung von Bildern zur Verbesserung der Erkennungsgenauigkeit usw.

Installieren Sie Easyocr in Linux

Sie können Easyocr in Linux mit dem PIP -Paket -Manager installieren. Verwenden Sie den folgenden Befehl, um den PIP -Paket -Manager in Ubuntu zu installieren:

$ sudo APT installieren Sie Python3-Pip

Der PIP -Paket -Manager ist in offiziellen Repositories vieler Linux -Distributionen erhältlich, sodass Sie diese beim Aktienpaket -Manager installieren können. Hier können Sie auch offizielle Installationsanweisungen befolgen, die hier verfügbar sind, um den PIP -Paket -Manager in Ihrem Linux -System zu installieren.

Wenn Sie den PIP -Paket -Manager erfolgreich installiert haben, führen Sie den folgenden Befehl aus, um Easyocr in Linux zu installieren:

$ pip3 Easyocal installieren

Mit Easyocr in Linux verwenden

Das folgende Bild wird verwendet, um Text über verschiedene Easyoc -Befehle zu extrahieren, die unten erläutert wurden:

Um Text aus dem obigen Bild zu extrahieren, müssen Sie einen Befehl im folgenden Format ausführen:

$ easyocr -l en -f Bild.png

Die erste Option „-l“ kann verwendet werden, um die Sprache des Textinhalts anzugeben, den Sie von Easyocr erfasst werden möchten. Sie können mehrere Sprachen mit dem Befehl getrennten Sprachcodes angeben. Der Switch „-F“ wird zum Angeben der Eingabebilddatei verwendet. Eine Liste aller von Easyocr und ihren Codes unterstützten Sprachen finden Sie hier (scrollen Sie nach unten, um sie zu sehen).

Nach dem Ausführen des obigen Befehls sollten Sie die folgende Ausgabe im Terminal sehen:

Die Ausgabe zeigt bestimmte Zahlen und den aus dem Bild extrahierten Text. Diese Ausgabe kann im folgenden Format gelesen werden: Koordinaten einzelner Textstücke> erkannter Text> Konfidenzniveau. Daher stellen die Zahlen auf der linken Seite die Koordinaten der identifizierten Textfelder dar, während die Nummer auf der rechten Seite angibt, wie genau der extrahierte Text ist.

Wenn Sie nur einen erkannten Text in menschlich lesbarem Formular erhalten möchten, fügen Sie "-Detail 0" -Schalter zum obigen Befehl hinzu:

$ easyocr -l en -detail 0 -f Bild.png

Nachdem Sie den obigen Befehl ausgeführt haben, sollten Sie eine ähnliche Ausgabe wie folgt erhalten:

Wie Sie in der Ausgabe sehen können, befindet sich der extrahierte Text nicht in der richtigen Reihenfolge. Sie können die Befehlszeilenoption „-Ceragraph true“ ausprobieren, um einzelne Teile und Sätze in ordnungsgemäßer Reihenfolge zu verbinden.

$ easyocr -l en -detail 0 -Absatz true -f Bild.png

Nachdem Sie den obigen Befehl ausgeführt haben, sollten Sie eine ähnliche Ausgabe wie folgt erhalten:

Beachte.

Um den identifizierten Text in einer externen Datei zu speichern, verwenden Sie das Symbol „>“ und geben Sie einen Namen für die Ausgabedatei an. Hier ist ein Beispielbefehl:

$ easyocr -l en -detail 0 -Absatz true -f Bild.PNG> Ausgang.txt

Verwenden Sie den folgenden Befehl, um mehr über alle von EasyoCh unterstützten Befehlszeilenoptionen zu erfahren:

$ easyocr -HELP

Verwendung Easyocr in Python -Programmen

Easyocr ist auch als Python -Bibliothek erhältlich, sodass Sie sein Hauptmodul in Ihren Python -Programmen importieren können. Im Folgenden finden Sie ein Code -Beispiel, das seine Verwendung in einem Python -Programm veranschaulicht:

Easyocal importieren
Reader = Easyocr.Leser (['en'])
Ergebnis = Leser.ReadText ('Bild.png ', detail = 0, Absatz = true)
mit offen ("Ausgabe.txt "," w ") als f:
Für Zeile im Ergebnis:
print (Zeile, Datei = f)

Die erste Aussage wird verwendet, um das „Easyocr“ -Modul in Ihrem Python -Programm zu importieren. Als nächstes wird eine neue Instanz der „Leser“ -Klasse (Basisklasse) erstellt, indem eine Liste von Sprachen, die von Easyocr als Hauptargument unterstützt werden. Wenn Ihr Bild Text in mehreren Sprachen enthält, können Sie der Liste weitere Sprachcodes hinzufügen. Als nächstes wird die "ReadText" -Methode auf der Instanz "Reader" aufgerufen und der Pfad der Bilddatei wird als erster Parameter geliefert. Diese Methode identifiziert und extrahiert Text aus dem mitgelieferten Bild. Die beiden optionalen Argumente „Detail“ und „Absatz“ entsprechen den oben erläuterten Befehlszeilenoptionen. Sie vereinfachen den Text, indem sie unnötige Elemente entfernen.

Nach dem Ausführen des obigen Befehls sollten Sie die folgende Zeile in „Ausgabe haben.txt ”Datei:

Von hier aus können Sie mehr über die Python -API von Easyocr lesen. Eine Online -Version von EasyOcR ist hier zum Testen verfügbar.

Abschluss

Easyocr ist ein Befehlszeilen-Text-Extraktions-Tool, das mit vorgeborenen Modellen für zahlreiche Sprachen ausgestattet ist. Dies erleichtert den Endbenutzern, Text aus Bildern schnell zu identifizieren und zu extrahieren, ohne ihre eigenen Sprachmodelle zu haben. Es bietet auch detaillierte Koordinaten für Begrenzungsboxen um identifizierte und tokenisierte Wörter, sodass es einfach ist, einzelne Textestücke zu analysieren.