Wie man XML in Ruby analysiert

Wie man XML in Ruby analysiert
XML- und HTML -Dokumente sind eine weit verbreitete Technologie, die das moderne Internet versorgt. Fast auf jeder Webseite im Internet verwendet mindestens eine einzelne HTML -Formatierung. In dieser schnellen Anleitung werden mit dem beliebten Nokogiri -Paket in Ruby in Ruby analysiert.

Was sind XML- und HTML -Dokumente??

HTML -Dokumente sind jedes Dokument, das die Sprache der Hypertext -Marke enthält. Dies ist das grundlegende Format zur Beschreibung der Struktur der im Web angezeigten Dokumente.

In ähnlicher Weise sind XML -Dokumente Dokumente, die XML -Markup enthalten. Gemäß der offiziellen Dokumentation ist XML oder Extensible Markup -Sprache eine Markup -Sprache, die die Regeln für die Codierung von Dokumenten für die Lesbarkeit von Menschen und Maschinen definiert.

HTML- und XML -Dokumente enden in .html und .xml jeweils.

Installation

Bevor wir XML- oder HTML -Dokumente in Ruby verarbeiten können, müssen wir die XML/HTML -Parser -Bibliothek installieren. In diesem Beispiel werden wir die Nokogiri -Bibliothek verwenden.

Verwenden Sie den Befehl GEM Package Manager, um es zu installieren:

$ gem eine nokogiri installieren
Nokogiri-1 abrufen.12.0-X86_64-Linux.Juwel
Erfolgreich installiert Nokogiri-1.12.0-X86_64-Linux
Parsingdokumentation für Nokogiri-1.12.0-X86_64-Linux
Installation der RI-Dokumentation für Nokogiri-1.12.0-X86_64-Linux
Erledigte die Installation von Dokumentationen für Nokogiri nach 1 Sekunden
1 Gem installiert

Nach der Installation können Sie es testen, indem Sie die Ruby Interactive Shell mit dem IRB -Befehl starten.
Importieren Sie das Paket als nächstes als:

erfordern 'Nokogiri'
=> wahr

Laden Sie HTML/XML -Dokumente

So laden Sie HTML- oder XML -Dokumente mithilfe der Nokogiri -Bibliothek.

Zum Beispiel: Um HTML zu laden, verwenden Sie:

erfordern 'Nokogiri'
html_data = nokogiri :: html ('






Dokumentieren



<')
setzt html_data.Klasse

Der Beispielcode sollte den HTML -Inhalt laden und in der definierten Variablen speichern. Um die Quellklasse der Daten zu überprüfen, verwenden wir die .Klassenmethode.

Der Code sollte die Ausgabe als:

Nokogiri :: HTML4 :: Dokument

Laden aus der Datei

Wir können die Daten auch aus einer HTML/XML -Datei laden. Betrachten Sie eine Beispieldatei mit dem XML -Inhalt als:

Um die XML -Datei mit Nokogiri zu laden, können Sie den Beispielcode wie gezeigt verwenden:

erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
setzt Parsed_info

Durchsuchen eines XML -Dokuments

Um ein geladenes XML- oder HTML -Dokument zu durchsuchen, können wir die XPath -Methode verwenden.

Zum Beispiel: Um alle Werte in der obigen Beispiele -XML -Datei zu erhalten, können wir dies tun:

erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
setzt Parsed_info.xPath ("// value")

Der obige Beispielcode sollte die Werte mit dem Keyword des Wertes zurückgeben.

Holen Sie sich individuelles Gegenstand

Wir können auch den Wert eines einzelnen Elements erhalten. Zum Beispiel: Um das Dokument abzurufen, geben Sie die obige Beispiel XML -Datei ein:

erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
setzt Parsed_info.XPath ("/*/@document_type")

Der Code sollte den Wert aus dem document_type zurückgeben.

XML in HTML konvertieren

Sie können auch ein Parsen -XML -Dokument mit der Methode to_html in HTML konvertieren. Hier ist ein Beispielcode:

erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
Zero = Parsed_info.to_html
setzt null

Dies sollte die XML -Daten in Form einer Zeichenfolge an HTML zurückgeben.

Abschluss

Dieses kurze Tutorial hat Ihnen gezeigt, wie Sie XML -Dokumente mit dem Nokogiri -Paket analysieren können. Siehe Dokumentation, um die vollständigen Fähigkeiten zu ermitteln.