Python Urlparse

Python Urlparse
Die URLs enthalten häufig wesentliche Daten, die bei der Bewertung einer Website, der Suche eines Teilnehmers oder der Verteilung des Materials in jedem Bereich genutzt werden können. Obwohl sie manchmal ziemlich komplex zu sein scheinen, verfügt Python mit einer Vielzahl hilfreicher Bibliotheken, mit denen Sie URLs analysieren und ihre Bestandteile abrufen können.

In Python 3 ermöglicht das Urllib -Paket Benutzern, Websites aus ihrem Skript aus zu erkunden. Die Urllib enthält mehrere Module zum Verwalten verschiedener URL -Funktionen. Bei der Öffnung einer URL in der Python -Programmierung ist die Urllib -Bibliothek von entscheidender Bedeutung. Sie können Websites besuchen und mit ihnen interagieren, indem Sie ihren Universal Resource Locator verwenden. Diese Bibliothek bietet uns Pakete wie: Urllib.Anfrage, UrlliB.Fehler, Urll.analysieren und Urllib.RobotParser.

In diesem Snippet, obwohl dies ein großes Thema ist, um alle auf einmal zu verstehen, werden wir einfach auf die Urll achten.Modul analysieren. Besonders die Urlparse () -Methode.

Die Urll.Das Parse -Modul wird zum Parsen der URLs der Websites verwendet. Dies impliziert, dass wir durch Teilen einer URL ihre verschiedenen Teile erhalten können. Darüber hinaus kann es verwendet werden, um eine URL von einer Quell -URL und einem Referenzpfad zu erhalten.

Laden der Urllib:

Python umfasst Urllib als Standardbibliothek. Um es zu verwenden, müssen wir zuerst diese Bibliothek importieren. Dafür öffnen wir das Spyder -Tool und schreiben den folgenden Befehl:

UrlliB importieren

Urlparse () Modul:

Das URLParse () -Modul bietet eine definierte Methode zum Parsen eines einheitlichen Ressourcenlocators (URL) in verschiedene Abschnitte. Um es einfach auszudrücken, ermöglicht es uns mit diesem Modul, URLs leicht in verschiedene Komponenten zu trennen und einen bestimmten Teil von URLs herauszufiltern. Es hat einfach die URL in 6 Komponenten aufgeteilt, die sich auf die Gesamtsyntax von a beziehen

URL: Schema:/Netloc/Path; Parameter?Abfrage#Fragment.

Beginnen wir jetzt unser Tutorial mit einem praktischen Beispiel.

von Urllib.Import Urlparse, Urlunparse analysieren

In diesem Code -Snippet importieren wir als erstes die Urlparse und Urlunparse aus der Urllib.analysieren. Dies ermöglicht alle erforderlichen Merkmale der UrlParse () -Methode in unserem Tool.

von Urllib.Import Urlparse analysieren
Beispielurl = urlparse ('https: // linuxHint.com/')
print ("URL -Komponenten:", Beispielurl)

Nun, da wir die methode urlParse () verwenden können. Wir haben eine Variable mit dem Namen „Beispielurl“ definiert, die die Zeichenfolgewerte speichert. Dann haben wir den Zuordnungsoperator "=" verwendet, um Werte zuzuweisen. Daneben haben wir die Methode "urlparse ()" bezeichnet. In den Zahnspangen der urlparse () -Methode zwischen den umgekehrten Kommas haben wir eine URL einer bestimmten Website definiert, auf der wir die Parsen durchführen möchten. Die Zahnspangen der Anweisung Print () enthalten einen zitierten Text und den variablen Namen, der durch ein Komma getrennt ist.

Das Bild unten zeigt uns die folgende Ausgabe.

Sie können sehen, dass die bereitgestellte URL in 6 Komponenten unterteilt ist. Bevor wir uns in diese Komponenten eintauchen.

Zu diesem Zweck ist die verwendete Methode "urlunparse ()" ".

von Urllib.Import Urlparse, Urlunparse analysieren
Beispielurl = urlparse ('https: // linuxHint.com/')
print ("URL -Komponenten:", Beispielurl)
UNPAR_URL = urlunparse (Beispielurl)
print ("Original -URL:", UNPAR_URL)

Wir haben die Urlunparse bereits aus der UrlliB importiert.im obigen Snippet analysieren. Jetzt erstellen wir eine Variable mit dem Namen "unpar_url". Wenn wir die Methode „urlunParse ()“ aufrufen und den Namen der Variablen schreiben, vergeben wir die URL -Öffnung für die urlparse () -Methode i.e. "Beispielurl". Verwenden Sie im letzten Schritt die Anweisung "print ()", um einen Text und den Variablennamen für das Unarsing der URL anzuzeigen.

Die analysierte URL wird in dem unten beigefügten Bild angezeigt.

Die Verwendung der Funktionen urlparse () und urlunparse () wurde nachgewiesen. Lassen Sie uns nun die Bedeutung jedes Elements des Parseres -Renditens untersuchen, das zurückgegeben wurde.

Urlparse () Komponenten:

Die URLPARSE () -Methode teilt die bereitgestellte URL in 6 Stücke auf, die Schema, Netloc, Pfad, Parameter, Abfrage und Fragment sind.

Die erste Komponente ist das Schema. Das Schema wird verwendet, um das Protokoll zu spezifizieren, mit dem die Online -Ressourcen erfasst werden sollen, die HTTP oder HTTPS sein könnten. Die nächste Komponente ist Netloc: net bezieht sich auf netzwerk, während loc den Standort bedeutet. Es erzählt uns also über den bereitgestellten URLS -Netzwerkstandort. Die Komponente Weg Enthält den genauen Weg, den ein Webbrowser einnehmen muss, um die bereitgestellte Ressource zu erwerben. Der Parameter sind die Parameter der Pfadelemente. Der Anfrage Halten Sie sich an die Pfadkomponente und bieten einen Datenstrom, den die Ressource verwenden kann. Die letzte Komponente Fragment klassifiziert einfach einen Teil.

Wie bereits erwähnt, enthält jedes dieser Elemente einige Daten zur URL. Da das zurückgegebene Objekt als Tupel bereitgestellt wird, können alle diese Komponenten auch unter Verwendung der Indexposition abgerufen werden.

von Urllib.Import Urlparse analysieren
Beispielurl = urlparse ('https: // linuxHint.com/')
print (Beispielurl.Schema "==", Beispielurl [0])
print (Beispielurl.Netloc, "==", Beispielurl [1])
print (Beispielurl.Pfad, "==", Beispielurl [2])
print (Beispielurl.Parameter "==", Beispielurl [3])
print (Beispielurl.Abfrage, "==", Beispielurl [4])
print (Beispielurl.Fragment, "==", Beispielurl [5])

In diesem Code -Snippet haben wir Indizes für jede Komponente getrennt in der Anweisung Print () definiert. Wir haben den Namen der Variablen mit dem Komponentennamen verwendet, gegen den wir den Variablennamen mit der Indexposition erwähnt haben, in der er im Stream liegt. Wir werden diese Sequenz weiterhin verwenden, bis wir alle Komponenten mit entsprechenden Indexpositionen erwähnt haben.

Im Bild sind hier resultierende Saiten zu sehen.

Obwohl diese den größten Teil des indizierten Inhalts ausmachen, können mehr Schlüsselwörter verwendet werden. Der Hostname identifiziert den Hostnamen der angegebenen URL, die Nutzername Hält den Namen des Benutzers, das Passwort hält den Passwort, den der Benutzer bereitgestellt hat, während die Hafen sagt die Portnummer mit.G\

Abschluss

Im heutigen Thema haben wir das von der Urllib bereitgestellte Urlparse () -Modul erörtert.analysieren. Wir haben den Zweck und die Benutzerfreundlichkeit der Urlparse () -Methode erklärt. Wir haben an verschiedenen Komponenten der UrlParse () -Methode und darüber, wie wir Zugriff machen. Durch die Implementierung der praktischen Beispielcodes auf der URL einer bestimmten Website, die das Spyder -Tool verwendet, haben wir versucht, es für Sie einfach, verständlich zu machen, und dennoch vorteilhaftes Lernen.