Urlib.RobotParser

Urlib.RobotParser
In diesem Beitrag erfahren Sie das RobotParser -Modul im Urllib -Paket, das der RobotFileParser -Klasse zur Bestimmung bereitstellt.TXT -Datei.

RobotFileParser -Klasse

Die RobotFileParter -Klasse bietet verschiedene Methoden zum Lesen, Parsen und Beantworten von Fragen zum Roboter.TXT -Datei in einer bestimmten Ressource.

Die unterstützten Methoden umfassen:

  1. set_url () - definiert die URL für die Roboter.TXT -Datei.
  2. Read () - liest die Roboter.TXT -Datei und füttert sie in die Roboter.Txt Parser.
  3. analysieren (Linien) - analysiert das Linienargument.
  4. can_fetch (userAgent) - prüft, ob ein angegebener Benutzeragenten auf eine angegebene URL zugreifen kann, wie in den Robotern angegeben.TXT -Datei.
  5. mtime () - Gibt die Zeit zurück, die der Roboter.Die TXT -Datei wurde abgerufen,
  6. modifiziert () - Aktualisiert die letzte Fetchzeit für die Roboter.txt zur aktuellen Zeit.
  7. crawl_delay (userAgent, url) - Gibt den Wert des Parameters crawl_delay zurück.
  8. Request_Rate (BenutzerAgent) - Gibt den Parameter von Request -Rating als benannter Tupel zurück.
  9. Site_maps () - Gibt den Sitemap -Parameter aus den Robotern zurück.TXT -Datei als Liste.

Beispiel Anwendungsfall

Der folgende Code zeigt die Verwendung der RobotFileParser -Klasse und der bereitgestellten Methoden.

UrlliB importieren.RobotParser
rp = urllib.RobotParser.RobotFileParser ()
RP.set_url ("https: // linuxhint.com/Roboter.txt")
RP.lesen()
req_rate = rp.Request_Rate ("*")
req_rate.Sekunden
RP.crawl_delay ("*")
RP.can_fetch ("*", "https: // linuxhint.com/abonnieren zu linuxHint-com/")
RP.can_fetch ("*", "https: // linuxhint.com/abonnieren zu linuxHint-com/wp-admin "))

Der obige Code beginnt mit dem Importieren des RobotParser -Moduls und Erstellen einer Instanz der RobotFileParser -Klasse.

Wir geben dann die URL an die Roboter.TXT -Datei und senden Sie die Datei an den Parser. Wir verwenden dann die bereitgestellten Methoden, um verschiedene Aktionen auszuführen.
Der obige Code sollte zurückgeben:

5
30
WAHR
FALSCH

Abschluss

In diesem Artikel haben wir besprochen, wie das RobotParser -Modul aus dem Urllib -Paket verwendet werden kann, sodass Sie verschiedene Aktionen ausführen können, die im Roboter angegeben sind.TXT -Datei. Weitere Informationen finden Sie im Quellcode für weitere Informationen.