Pandas Regex

Pandas Regex

Wir können eine Serie oder einen Datenrahmen in „Pandas“ erstellen und viele weitere Aufgaben erledigen, indem wir die Funktionen oder Methoden von „Pandas“ verwenden. Wie wir wissen, speichern wir viele Daten in "Pandas" -Datenrahmen und -serien. Wir können auch die Muster in Pandas durchsuchen, indem wir das Regex verwenden. Um das Muster in einer Zeichenfolge innerhalb eines Seriens oder eines Datenrahmens zu identifizieren, stehen viele „Pandas“ -Funktionen zur Verfügung, die der Regex akzeptiert. Wir können die Daten problemlos extrahieren, filtern oder reinigen, indem wir verschiedene Methoden anwenden, die der Regex uns erlaubt. Wir werden die verschiedenen Methoden von „Pandas“ anwenden, die uns der Regex im Code „Pandas“ verwenden kann, und wir werden den „Regex“ in „Pandas“ in diesem Artikel ausführlich erklären.

Beispiel 1:

Wir führen jetzt die "Pandas" -Codes im Tool "Spyder" durch. Wir importieren die "Pandas" -Bibliothek hier als "PD", da wir mit der "Pandas" -Bibliothek zusammenarbeiten. Dann entwickeln wir hier die "update_df", die der Datenrahmen ist. Die "Pandas" -Methode "DataFrame ()" hilft bei der Erstellung des Datenrahmens. Dann platzieren wir das „Diktieren“ und fügen die Namen in den „Namen“ hinzu, die „Zane, Santiago, Silas, Roman, Milo, Samuel und Hayes“ sind. Danach haben wir die "Wächter", in denen wir "Leif, Jasper, Julian, Laken, Jude, Ezra und Briar" platzieren, die wir platzieren. Die „Markierungen“ kommen als nächstes, die „89, 23, 33, 99, 56, 90 und 66“ enthält. Dann enthält die „Fächer“ „Biologie, Zoologie, Chemie, Ethik, Botanik, GK und Forstwirtschaft“.

Wir rendern auch die "update_df" mit der Methode "print ()". Zuerst zeigen wir diesen Datenrahmen an und gehen dann voran.

Wenn Sie an der "Spyder" -App arbeiten, müssen Sie entweder die Tasten "Shift+Enter" oder das Symbol "Run" dieser App drücken. Danach wird der Ausgang am Terminal angezeigt. Hier erhalten wir nur den Datenrahmen, den wir zuvor generiert haben. Der Datenrahmen wird auch im Folgenden angezeigt, der nach der Ausführung der Codes am Terminal angezeigt wird.

Jetzt benutzen wir die „Str.Match () ”Methode hier. Das „Str.Match () ”-Methode hilft bei der Filterung der Zeilen im Datenrahmen„ Pandas “. Wir geben zunächst die "Regex1" -Variable und passen die „s an.*" Dort. Danach verwenden wir die „Str.passen()". Dafür fügen wir zuerst den Namen des DataFrame hinzu und setzen dann die Quadratklammer ein. In dieser quadratischen Klammer platzieren wir den Namen "Updated_DF" des DataFrame zusammen mit dem Namen "Name" der Spalte "Name". Dann setzen wir das „Str.match () ”“, in dem wir den zuvor initialisierten variablen Namen hinzufügen.

Nun überprüft es alle in der Spalte "Namen" vorhandenen Werte und filtert diese Zeilen, in denen der Name mit "S" beginnt. Danach initialisieren wir die Variable "Regex2". Diesmal initialisieren wir es mit „J.*". Wir verwenden diese Variable in „Str.Match () ”Funktion zum Extrahieren der Zeilen. Wir wenden die „str anwenden wir an.Match () ”-Methode in der Spalte„ Guardians “und extrahiert diese Zeilen, bei denen die Guardian -Namen mit„ J “beginnen. Wir fügen beide Methoden im „Druck“ hinzu, sodass beide Ergebnisse am Terminal angezeigt werden.

Die Spalte "Name", in der der Name mit "S" beginnt, wird aus dem Datenrahmen extrahiert und angezeigt. Danach werden diese Zeilen filtriert, wo die Guardian -Namen mit „J“ beginnen und auch im Ergebnis gerendert werden. Wir filtern diese Zeilen, indem wir die „str -n) nutzen.Match () ”Methode.

Beispiel 2:

Wir erstellen hier die "Frequency_DF". Dieses „Frequency_DF“ enthält "Größe, Fre_1, Fre_2, Fre_3, Fre_4 und Fre_5". In der "Größe" fügen wir "ff_1, ff_2, ff_3, ff_4, ff_5, ff_6 und ff_7 hinzu. Dann geben wir im „FRE_1“ die „21, $ 22, 23, $ 24, 25, $ 26 und 27 $“ ein. Jetzt haben wir "FRE_2", in dem wir die "31, 32 USD, 33 USD, 34 USD, 35 USD, 36 USD und 37 USD" einfügen, in denen wir einfügen, in denen wir die "31, 32 US -Dollar" einfügen. Wir fügen auch die „$ 21, $ 42, $ 43, 44 $, 45, $ 46 und $ 47“ in das „FRE_3“ hinzu. Jetzt haben wir "fre_4" und platzieren die "51, 52 US -Dollar, 23, $ 54, 55, 56 US. Danach haben wir die „21, $ 81, $ 82, 83, $ 84, $ 85 und 86 $“ in den „FRE_5“ eingerichtet.

Jetzt fügen wir den "print ()" hinzu, in dem wir die "Frequenz_DF" platzieren,. Wir verwenden hier die Methode „Ersatz ()“, um die Daten des Datenrahmens zu ersetzen. Wir geben zunächst die Variable „Frequency_df1“, die die Daten speichert, die wir nach der Anwendung der Methode „ersetzen ()“ erhalten, da wir diese Variable „Frequency_df1“ hier verwenden und mit der Methode „ersetzen ()“ initialisieren und initialisieren. Wir erwähnen die "Frequency_DF", die der Name des Datenrahmens ist, und platzieren dann die Methode "ersetzen ()" mit dem Namen dieses Datenrahmens. Wir fügen den Parameter "to_replace" dieser Funktion "ff_" im Parameter "to_replace" hinzu. Wir passen den Wert an, der im zweiten Parameter „fre_“ ist, der der Parameter „Wert“ ist.

Dann fügen wir in dieser Methode die "Regex" hinzu, die der dritte Parameter ist. Wir passen das „wahre“ an. Jetzt übergeben wir die "Frequency_df1" an "print ()" ". Die Daten, die wir nach dem Austausch erhalten, werden am Terminal angezeigt.

Dieses Ergebnis zeigt den ersten Datenrahmen mit dem Wert „ff_“, der in der Spalte „Größe“ vorhanden ist. Alle "FF_" -Werte dieses Datenrahmens werden durch "fre_" ersetzt. Es wird auch im zweiten Datenrahmen angezeigt, der der aktualisierte Datenrahmen ist, den wir nach der Anwendung der Funktion „ersetzen ()“ erhalten.

Beispiel 3:

Jetzt erstellen wir in diesem Beispiel eine Serie mit der „PD.Serie () “Methode und fügen Sie die„ Frankreich, Kolumbien, Kanada, China, Puerto Rico, Kanada und Los Angeles “hinzu. Wir speichern diese Serie in der Variablen „My_Series“ und fügen diese Variable in "print ()" hinzu. Jetzt wenden wir den „str anwenden wir an.findall () ”zu dieser Serie, um die Zeichenfolge aus der Serie zu finden und zu extrahieren. Wir platzieren das "ITM [0]". Dann verwenden wir das "für" und schreiben dann "ITM" nach dem "für". Dann platzieren Sie das Schlüsselwort "in" und den Namen der Serie zusammen mit dem „Str.findall () ”Methode. Dies funktioniert als Schleife und überprüft alle Werte der Serie.

In der “str.findAll () ”Methode, wir platzieren den„ CC “, der die Daten der Serie überprüft und diese Wert zurückgibt, die mit dem Buchstaben„ C “oder„ C “beginnt. Wir initialisieren die "Daten" -Variable mit diesem „Str.findall () ”Methode. Die Werte, die wir nach dem Anbringen des „str -angewendet haben.findAll () ”auf die" my_Series "wird in der Variablen" Daten "gespeichert. Dann haben wir die "print ()" verwendet, in der die Variable "Daten" hinzugefügt wird. Die Werte, die wir nach der Verwendung des „str nutzen.findall () ”in die Serie wird angezeigt.

Die komplette Serie wird hier angezeigt. Die Werte der Serie, die mit dem Zeichen „C“ oder „C“ beginnen, werden aus dieser Serie extrahiert und im Folgenden angezeigt:

Beispiel 4:

Wir importieren sowohl die "Pandas" als auch die "Re" in diesem Beispiel. Nachdem wir beide importiert haben, generieren wir einen Datenrahmen mit dem Namen "data_dataframe". In diesem Datenrahmen sind die von uns hinzugefügten Spalten "column_1, column_2, column_3 und column_4". Das "Column_1" enthält "15, 11, 19, 10, 18, 19, 20, 21". Das "Column_2" enthält "A, B C, D, E, F, G und H". Dann haben wir das "Column_3" und fügen auch die Daten hinzu, nämlich "A, B, C, D, E, F, G und H". Die letzte Spalte, die "Column_4", enthält "ABC (Kapital), ABB, AAA (Kapital), YHN, ABC, PLM (Kapital), Qaz und YGV (Kapital)".

Dann machen wir diesen "Data_Dataframe". Jetzt platzieren wir das Schlüsselwort "def" und definieren die Funktion "Clean_names ()", in der wir die "Column_4" hinzufügen. Anschließend verwenden wir die "If" unten, wo wir die Methode "Search ()" von "Re" verwenden und "(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("Search ()" verwendet und "(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("(" ("Search () verwenden und" ("(" ("(" (verwenden "verwendet.*”Als erster Parameter und„ Column_4 “als zweiter Parameter. Es durchsucht die "(" -Kracket in den Daten "Column_4".

Danach platzieren wir die „neue“ Variable und initialisieren sie mit der gleichen Methode, die die „Re“ ist.such () ”Methode und übergeben die gleichen Parameter. Wir fügen mit dieser Methode auch den „start ()“ hinzu. Dann haben wir das Schlüsselwort "Rückgabe", in dem wir die Werte erhalten, die in der "neuen" Variablen gespeichert sind und es hier zurückgeben. Außerdem fügen wir das "sonst" hinzu. Danach fügen wir eine neue "Column_4" hinzu und fügen die Funktion "Clean_names" mit dieser "Column_4" hinzu. Es entfernt alle Namen, die in der „(“ -Kracket in der "column_4" vorhanden sind, die vorhanden sind. Dann verwenden wir den "Druck" wieder.

Im ersten DataFrame enthält der Column_4 die Namen, die in der Klammer vorhanden sind. In den folgenden Datenfaktoren werden diese in Klammern hinzugefügten Namen entfernt und nur die Werte von „Column_4“ angezeigt:

Abschluss

Wir haben diesen Artikel geschrieben, um das Konzept „Pandas Regex“ im Detail zu erklären. Wir haben diskutiert, dass das „Regex“ es uns ermöglicht, viele Funktionen zu nutzen, um die Daten aus dem Datenrahmen oder der Serie in „Pandas“ zu filtern. Wir haben den „Str angewendet.match () “und" ersetzen () "-Methoden im" pandas "-Datenrahmen. Wir haben auch den „Str angewendet.findall () ”Methode in den Serien in unseren Codes. Wir haben das "RE" -Paket im letzten Beispiel importiert und seine Methode verwendet, die das „RE“ ist.Suche () “Methode zur Durchsuchung der Daten in diesem Tutorial.