Was sind XML- und HTML -Dokumente??
HTML -Dokumente sind jedes Dokument, das die Sprache der Hypertext -Marke enthält. Dies ist das grundlegende Format zur Beschreibung der Struktur der im Web angezeigten Dokumente.
In ähnlicher Weise sind XML -Dokumente Dokumente, die XML -Markup enthalten. Gemäß der offiziellen Dokumentation ist XML oder Extensible Markup -Sprache eine Markup -Sprache, die die Regeln für die Codierung von Dokumenten für die Lesbarkeit von Menschen und Maschinen definiert.
HTML- und XML -Dokumente enden in .html und .xml jeweils.
Installation
Bevor wir XML- oder HTML -Dokumente in Ruby verarbeiten können, müssen wir die XML/HTML -Parser -Bibliothek installieren. In diesem Beispiel werden wir die Nokogiri -Bibliothek verwenden.
Verwenden Sie den Befehl GEM Package Manager, um es zu installieren:
$ gem eine nokogiri installieren
Nokogiri-1 abrufen.12.0-X86_64-Linux.Juwel
Erfolgreich installiert Nokogiri-1.12.0-X86_64-Linux
Parsingdokumentation für Nokogiri-1.12.0-X86_64-Linux
Installation der RI-Dokumentation für Nokogiri-1.12.0-X86_64-Linux
Erledigte die Installation von Dokumentationen für Nokogiri nach 1 Sekunden
1 Gem installiert
Nach der Installation können Sie es testen, indem Sie die Ruby Interactive Shell mit dem IRB -Befehl starten.
Importieren Sie das Paket als nächstes als:
erfordern 'Nokogiri'
=> wahr
Laden Sie HTML/XML -Dokumente
So laden Sie HTML- oder XML -Dokumente mithilfe der Nokogiri -Bibliothek.
Zum Beispiel: Um HTML zu laden, verwenden Sie:
erfordern 'Nokogiri'
html_data = nokogiri :: html ('
Dokumentieren
<')
setzt html_data.Klasse
Der Beispielcode sollte den HTML -Inhalt laden und in der definierten Variablen speichern. Um die Quellklasse der Daten zu überprüfen, verwenden wir die .Klassenmethode.
Der Code sollte die Ausgabe als:
Nokogiri :: HTML4 :: Dokument
Laden aus der Datei
Wir können die Daten auch aus einer HTML/XML -Datei laden. Betrachten Sie eine Beispieldatei mit dem XML -Inhalt als:
Um die XML -Datei mit Nokogiri zu laden, können Sie den Beispielcode wie gezeigt verwenden:
erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
setzt Parsed_info
Durchsuchen eines XML -Dokuments
Um ein geladenes XML- oder HTML -Dokument zu durchsuchen, können wir die XPath -Methode verwenden.
Zum Beispiel: Um alle Werte in der obigen Beispiele -XML -Datei zu erhalten, können wir dies tun:
erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
setzt Parsed_info.xPath ("// value")
Der obige Beispielcode sollte die Werte mit dem Keyword des Wertes zurückgeben.
Holen Sie sich individuelles Gegenstand
Wir können auch den Wert eines einzelnen Elements erhalten. Zum Beispiel: Um das Dokument abzurufen, geben Sie die obige Beispiel XML -Datei ein:
erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
setzt Parsed_info.XPath ("/*/@document_type")
Der Code sollte den Wert aus dem document_type zurückgeben.
XML in HTML konvertieren
Sie können auch ein Parsen -XML -Dokument mit der Methode to_html in HTML konvertieren. Hier ist ein Beispielcode:
erfordern 'Nokogiri'
sample_data = Datei.offen ('Probe.xml ')
parsed_info = nokogiri :: xml (Sample_data)
Zero = Parsed_info.to_html
setzt null
Dies sollte die XML -Daten in Form einer Zeichenfolge an HTML zurückgeben.
Abschluss
Dieses kurze Tutorial hat Ihnen gezeigt, wie Sie XML -Dokumente mit dem Nokogiri -Paket analysieren können. Siehe Dokumentation, um die vollständigen Fähigkeiten zu ermitteln.