Das Parsen von PDF -Dateien ist für jeden Softwareentwickler sehr mühsam und kompliziert, nicht weil sie komplex sind, sondern aufgrund der Art von PDF -Dateien. PDF -Dateien enthalten Objekte, die durch eine eindeutige Nummer identifiziert werden. PDF -Objekte können Informationen wie Bilder, Text und mehr sammeln. Diese Objekte sind verschlüsselt und komprimiert, sodass es fast unmöglich ist, PDFs als Textdokumente zu verarbeiten.
In diesem Leitfaden lernen Sie, wie Sie PDF -Dokumente mithilfe der PHP -Programmiersprache analysieren.
Aufstellen
Der erste Schritt besteht darin, eine Entwicklungsumgebung einzurichten. Wir werden zunächst PHP und die erforderlichen Bibliotheken installieren.
Öffnen Sie zum Installieren von PHP den Terminal und geben Sie den Befehl ein:
$ sudo apt-Get Installieren Sie Php7.5 -y
Sobald PHP installiert ist, installieren Sie es, um den Komponisten wie in den Befehlen gezeigt zu installieren:
PHP -r "copy ('https: // getComposer.Org/Installer ',' Composer-Setup.PHP '); "Sobald wir den Komponisten installieren und eingerichtet haben, können wir die PDFParser -Bibliothek verwenden.
Öffnen Sie den Terminal und geben Sie den Befehl ein:
$ sudo Php Komponist.PHAR benötigt Smalot/PDFParser
Generieren Sie die PDF -Datei
Der nächste Schritt besteht darin, eine PDF -Datei zur Verwendung auszuwählen. Es gibt verschiedene Möglichkeiten und Ressourcen, mit denen Sie eine PDF -Datei erstellen können. Wenn Sie beispielsweise unter Windows sind, können Sie a exportieren .DOC/DOCX -Dokument zu PDF.
In diesem Beispiel werden wir jedoch kostenlose Dateien verwenden, die im Internet leicht verfügbar sind. Öffnen Sie Ihren Browser und navigieren Sie zu der unten angegebenen Ressource:
https: // filesAmples.com/formate/pdf
Bitte wählen Sie eine der verfügbaren PDF -Dateien aus und speichern Sie sie in Ihrem System.
NOTIZ: Stellen Sie sicher, dass Sie auf böswillige Dateien suchen, bevor Sie solche Dokumente verwenden. Tools wie Virustotal sind großartige Ressourcen.
https: // www.virustotal.com/gui/
Das Folgende ist ein Scan -Bericht von Sample11.PDF Datei.
https: // www.virustotal.com/GUI/Datei/6B22904A7DE5B77BF40598C37E94E01771485E1B900651B58BFF50AF7009F8056
PDF -Metadaten extrahieren
Um Metadaten aus der PDF unter Verwendung der PDF -Parser -Bibliothek zu extrahieren, können wir den unten gezeigten Beispielcode implementieren:
// Composer Autoloader einschließenDer obige Code sollte Metadateninformationen zur Datei abrufen. Solche Informationen umfassen:
CreationDate: 2016-12-22T11: 43: 55-05: 00Text extrahieren
Um Text aus jeder Seite des eingereichten PDF zu extrahieren, können wir den Code wie unten gezeigt implementieren:
Halten Sie "Verkäufer/Autoload ein.PHP ";Sobald wir den obigen Code ausführen, sollten wir den aus dem Beispiel1 extrahierten Text sehen.PDF Datei. Beispiel OUPUT ist wie unten gezeigt:
Schließen
Diese Anleitung zeigt, wie Sie PDF -Dateien mithilfe von PHP und der PDFParser -Bibliothek analysieren können. Überprüfen Sie die Dokumentation, um mehr zu erfahren.