Installieren von Textract in Linux
Sie können Textract in Linux vom PIP -Paket -Manager installieren. Sie können PIP -Paketmanager in Ubuntu installieren, indem Sie den folgenden Befehl ausführen:
$ sudo APT installieren Sie Python3-Pip
Wenn Sie Pip Manager installiert haben, führen Sie den folgenden Befehl aus, um Abhängigkeiten für Texract zu installieren:
$ sudo apt installieren python3-dev libxml2-dev libxslt1-dev AntiWord unrtf poppler-utils pstotext Tesseract-acr flac ffmpeg lame libmad0 libsox-fmt-mp3 Sox libjpeg-tev wwig python3-testresourcen
Verwenden Sie nun PIP -Paket -Manager, um Textract in Ubuntu zu installieren:
$ pip3 Installieren Sie Textract
Sie können PIP Package Manager in anderen Linux -Verteilungen vom Paketmanager installieren. Alternativ können Sie PIP -Paketmanager unter Linux installieren, indem Sie hier offizielle Installationsanweisungen folgen, die hier verfügbar sind. Sobald der PIP -Paket -Manager installiert ist, können Sie entweder den oben angegebenen PIP -Befehl verwenden oder weitere Installationsanweisungen befolgen, die in der offiziellen Dokumentation von Texract verfügbar sind (nur für andere Linux -Verteilungen als Ubuntu).
Text aus Dateien extrahieren
Gemäß der offiziellen Dokumentation von Textract können Sie ihn verwenden, um Text aus den folgenden Dateiformaten zu extrahieren:
Führen Sie einen Befehl im folgenden Format aus:
$ textract -Datei.PDF
Sie können "Datei" ersetzen.PDF ”mit einem anderen von Textract unterstützten anderen Dateiformat. Abhängig vom Inhalt einer Datei sollten Sie eine ähnliche Ausgabe sehen:
Führen Sie einen Befehl im folgenden Format aus, um die extrahierte Ausgabe in einer anderen Datei zu speichern:
$ textract -Datei.PDF -o -Datei.txt
Sie können die Dateinamen nach Bedarf ersetzen. Der Switch „-O“ wird verwendet, um den Namen der Ausgabedatei anzugeben, in der extrahierter Text gespeichert wird.
Texract erkennt automatisch den Dateierweiterungstyp und verwendet geeignete Technologien, um Dateiinhalte zu analysieren und zu extrahieren. Um Text aus einer Bilddatei zu erkennen und zu extrahieren, können Sie einfach den oben genannten Befehl verwenden und einen unterstützten Bild -Dateityp als Argument angeben. Solange Sie den unterstützten Dateityp verwenden und den Dateinamen mit Erweiterung in der Befehlszeile korrekt angeben, erledigt Textract die gesamte Arbeit für Sie. Zum Beispiel können Sie diese Befehle einfach ausführen:
$ textract -Datei.PNG -o -Datei.txt
$ textract -Datei.OGG -o -Datei.txt
Führen Sie den folgenden Befehl aus:
$ textract -HELP
Verwenden von Textract als Python -Modul
Sie können Textract in einem Python -Programm verwenden, beginnend mit dem folgenden Code -Beispiel:
Textract import
text = textract.Prozess ("Datei.png ")
Druck (Text)
Die erste Aussage importiert das Hauptmodul des Textrads. Als nächstes wird die „Prozess“ -Methode aufgerufen, indem es einen Dateinamen als Argument angibt. Wie das Dienstprogramm für Befehlszeilen erkennt die Prozessmethode automatisch den aktuellen Dateityp mit ihrem Erweiterungsnamen und verwendet dann einen entsprechenden Inhaltsparser und Extraktor, der für die Dateierweiterung geeignet ist.
Sie können die Dateierweiterung auch manuell mit dem Argument "Erweiterung" überschreiben. Hier ist ein Code -Beispiel:
Textract import
text = textract.Prozess ("Datei.Ogg ", Erweiterung =" Ogg ")
Druck (Text)
Wenn Sie eine von Textract verwendete automatische Extraktionsmethode manuell überschreiben möchten, können Sie das Argument „Methode“ verwenden (wie in der folgenden Code -Stichprobe gezeigt):
Textract import
text = textract.Prozess ("Datei.ogg ", method =" sox ")
Druck (Text)
Unterstützte Dateitypen und Extraktionsmethoden sind hier aufgeführt.
Um mehr über Textract Python -Methoden und deren Verwendung zu erfahren, können Sie die hier verfügbare API -Dokumentation anzeigen.
Abschluss
Textract bietet eine einzelne Einheitliche Befehlszeilenschnittstelle und Python -API zum Extrahieren von Text aus einer Reihe verschiedener Dateitypen. Sie können es sogar verwenden, um Inhalte aus Mediendateien zu extrahieren. Es ist besonders geeignet in Fällen, in denen Sie keine Vielzahl verschiedener Befehlszeilen -Dienstprogramme durchlaufen möchten, um die Textentnahme zu verarbeiten und eine einzelne API für alles zu verwenden.