So verwenden Sie Textract, um Text aus Dateien zu extrahieren

So verwenden Sie Textract, um Text aus Dateien zu extrahieren
In diesem Artikel wird eine Anleitung zur Verwendung des Python- und Befehlszeilen -Dienstprogramms „Textract“ behandelt, um textbasierte Inhalte aus einer Vielzahl verschiedener Dateiformate zu extrahieren. Es kann Text aus über 20 verschiedenen Dateiformaten extrahieren und Sie können ihn in Ihrem eigenen Python -Programm programmatisch verwenden, indem Sie sein Hauptmodul importieren. Möglicherweise haben Sie andere ähnliche Befehlszeilen -Tools für Textextraktion verwendet. Sie sind jedoch meist auf ein oder zwei spezifische Dateiformate beschränkt. Texract bietet eine One -Stop -Lösung mit einer einheitlichen Schnittstelle zum Extrahieren von Text aus einer Vielzahl verschiedener Dateiformate. Es kann sogar optische Charaktererkennung (OCR) und Spracherkennungstechnologien verwenden, um Text aus Bild- und Audiodateien zu extrahieren.

Installieren von Textract in Linux

Sie können Textract in Linux vom PIP -Paket -Manager installieren. Sie können PIP -Paketmanager in Ubuntu installieren, indem Sie den folgenden Befehl ausführen:

$ sudo APT installieren Sie Python3-Pip

Wenn Sie Pip Manager installiert haben, führen Sie den folgenden Befehl aus, um Abhängigkeiten für Texract zu installieren:

$ sudo apt installieren python3-dev libxml2-dev libxslt1-dev AntiWord unrtf poppler-utils pstotext Tesseract-acr flac ffmpeg lame libmad0 libsox-fmt-mp3 Sox libjpeg-tev wwig python3-testresourcen

Verwenden Sie nun PIP -Paket -Manager, um Textract in Ubuntu zu installieren:

$ pip3 Installieren Sie Textract

Sie können PIP Package Manager in anderen Linux -Verteilungen vom Paketmanager installieren. Alternativ können Sie PIP -Paketmanager unter Linux installieren, indem Sie hier offizielle Installationsanweisungen folgen, die hier verfügbar sind. Sobald der PIP -Paket -Manager installiert ist, können Sie entweder den oben angegebenen PIP -Befehl verwenden oder weitere Installationsanweisungen befolgen, die in der offiziellen Dokumentation von Texract verfügbar sind (nur für andere Linux -Verteilungen als Ubuntu).

Text aus Dateien extrahieren

Gemäß der offiziellen Dokumentation von Textract können Sie ihn verwenden, um Text aus den folgenden Dateiformaten zu extrahieren:

Führen Sie einen Befehl im folgenden Format aus:

$ textract -Datei.PDF

Sie können "Datei" ersetzen.PDF ”mit einem anderen von Textract unterstützten anderen Dateiformat. Abhängig vom Inhalt einer Datei sollten Sie eine ähnliche Ausgabe sehen:

Führen Sie einen Befehl im folgenden Format aus, um die extrahierte Ausgabe in einer anderen Datei zu speichern:

$ textract -Datei.PDF -o -Datei.txt

Sie können die Dateinamen nach Bedarf ersetzen. Der Switch „-O“ wird verwendet, um den Namen der Ausgabedatei anzugeben, in der extrahierter Text gespeichert wird.

Texract erkennt automatisch den Dateierweiterungstyp und verwendet geeignete Technologien, um Dateiinhalte zu analysieren und zu extrahieren. Um Text aus einer Bilddatei zu erkennen und zu extrahieren, können Sie einfach den oben genannten Befehl verwenden und einen unterstützten Bild -Dateityp als Argument angeben. Solange Sie den unterstützten Dateityp verwenden und den Dateinamen mit Erweiterung in der Befehlszeile korrekt angeben, erledigt Textract die gesamte Arbeit für Sie. Zum Beispiel können Sie diese Befehle einfach ausführen:

$ textract -Datei.PNG -o -Datei.txt
$ textract -Datei.OGG -o -Datei.txt

Führen Sie den folgenden Befehl aus:

$ textract -HELP

Verwenden von Textract als Python -Modul

Sie können Textract in einem Python -Programm verwenden, beginnend mit dem folgenden Code -Beispiel:

Textract import
text = textract.Prozess ("Datei.png ")
Druck (Text)

Die erste Aussage importiert das Hauptmodul des Textrads. Als nächstes wird die „Prozess“ -Methode aufgerufen, indem es einen Dateinamen als Argument angibt. Wie das Dienstprogramm für Befehlszeilen erkennt die Prozessmethode automatisch den aktuellen Dateityp mit ihrem Erweiterungsnamen und verwendet dann einen entsprechenden Inhaltsparser und Extraktor, der für die Dateierweiterung geeignet ist.

Sie können die Dateierweiterung auch manuell mit dem Argument "Erweiterung" überschreiben. Hier ist ein Code -Beispiel:

Textract import
text = textract.Prozess ("Datei.Ogg ", Erweiterung =" Ogg ")
Druck (Text)

Wenn Sie eine von Textract verwendete automatische Extraktionsmethode manuell überschreiben möchten, können Sie das Argument „Methode“ verwenden (wie in der folgenden Code -Stichprobe gezeigt):

Textract import
text = textract.Prozess ("Datei.ogg ", method =" sox ")
Druck (Text)

Unterstützte Dateitypen und Extraktionsmethoden sind hier aufgeführt.

Um mehr über Textract Python -Methoden und deren Verwendung zu erfahren, können Sie die hier verfügbare API -Dokumentation anzeigen.

Abschluss

Textract bietet eine einzelne Einheitliche Befehlszeilenschnittstelle und Python -API zum Extrahieren von Text aus einer Reihe verschiedener Dateitypen. Sie können es sogar verwenden, um Inhalte aus Mediendateien zu extrahieren. Es ist besonders geeignet in Fällen, in denen Sie keine Vielzahl verschiedener Befehlszeilen -Dienstprogramme durchlaufen möchten, um die Textentnahme zu verarbeiten und eine einzelne API für alles zu verwenden.