Nachdem Sie dieses Tutorial beendet haben, werden Sie wissen:
So finden Sie, ob ein Substring oder ein Ausdruck im String -Wert in Pandas existiert?
Um festzustellen, ob eine Zeichenfolge aus einem bestimmten Substring besteht oder nicht, gibt es einige Funktionen, die wir dafür tun können.
Beispiel Nr. 1: Überprüfen Sie, ob das angegebene Substring unter Verwendung des In -Operators in String -Daten enthalten ist
In Python kann der In -Operator mit iterablen Typen wie Listen und Zeichenfolgen verwendet werden. Es wird verwendet, um festzustellen, ob ein Element im iterablen vorhanden ist oder nicht. Ein gefundenes Element wird durch den in den Betreiber zurückgegebenen Operator angezeigt. Wenn nicht, gibt es falsche zurück. Der Operator ist der schnellste und pythonischste Ansatz, um festzustellen, ob eine Saite ein Substring in Python enthält. Der Bediener macht es jedem Leser Ihres Codes klar, was Sie erreichen möchten.
Die Pandas -Serie wurde mit der PD erstellt.Serie () Funktion nach dem Importieren des Pandas -Moduls. Unsere Serie besteht aus Stringwerten "Boden", "unser", "abbrechen", "sicher", "tour", "store", "bohrung" und "böse". Jetzt werden wir den In -Operator verwenden, um zu finden. Für die Iterie über jeden Wert der PANDAS -Serie wird die „für“ -Schloop verwendet, wie im folgenden Skript zu sehen ist.
Durch die Verwendung des In -Operators haben wir die Ergebnisse in Form von True und False erhalten. "True" zeigt das Vorhandensein eines Substrings für die Stringwerte an, und "Falsch" zeigt das Fehlen eines Substrings an. Wir können den In -Operator auch mit den Spalten der PANDAS -Liste und der Datenfreame -Spalten verwenden, die Stringwerte enthalten. Versuchen wir den In -Operator in der Spalte eines Datenrahmens. Um den Datenrahmen zu erstellen, werden wir den Pandas PD verwenden.DataFrame () -Funktion.
Erstens haben wir ein Python-Wörterbuch „DIC“ erstellt, das aus Schlüsselwertpaaren besteht. Dann haben wir das "DIC" -Dictionary innerhalb der PD bestanden.DataFrame (). Wir haben unseren Datenrahmen mit drei Spalten erstellt, ich.e., ID, Name und Kurs. Wir wollen feststellen, ob Unterstrings in der String -Spalte vorhanden sind oder nicht. Wir konzentrieren uns daher nur auf String -Spalten. In unserem DataFrame "Namen" und "Spalte" befinden sich zwei String -Spalten mit den Zeichenfolgenwerten ("Davidson", "Hessery", "Henderson", "Jason", "Kim", "Jenson", "Jackson", "Carl ") Und (" Python "," Amazon "," Economics "," Business "," Sprachen "," Datenbank "," Designing "," Drawing ").
Wir haben die Spalte „Name“ angegeben, die von der Schleife iteriert wird, um zu überprüfen. Die Funktion generiert das Ergebnis, indem jeder Wert in der Spalte überprüft wird.
Beispiel Nr. 2: Filtern Sie eine Zeichenfolge, wenn das Substring vorhanden ist
Der in Operator wird verwendet, um die Liste, Serien oder Datenfream zu filtern, indem die Stringwerte extrahiert werden, wenn das Substring vorhanden ist. Um dies zu erreichen, werden wir jedes Element des Objekts mit einem für Loop -Iterator durchführen, um festzustellen, ob ein Substring vorhanden ist. Wenn die Listenelemente aus dem Substring bestehen, werden die Zeichenfolgen zu einer anderen Liste hinzugefügt. Lassen Sie sich zuerst ein Listenobjekt erstellen
Zunächst haben wir eine Liste erstellt, die die Elemente als Zeichenfolge "Banane", "Apple", "Nature", "analysieren", "Fisch", "Name", "Shirt", "Analog" enthält, "analysieren", "Fisch", "Name", "Hemd", "analysiert". Dann wird eine leere Liste „gefiltert“ erstellt, um die resultierenden Werte zu speichern. Wir haben den Operator verwendet, um das Vorhandensein der Substrings zu bestimmen. Die Anhangsfunktion wird verwendet, um die Ausgabebestnen (wo das Substring vorhanden war) in der leeren Zeichenfolge „gefiltert“ anzugreifen (gefiltert ". Wir haben vier Werte, ich.e., "Banane", "Analyze", "Name", "Analog", das das Substring "NA" enthält. Wir versuchen dies nun mit einer Datenfrequenzspalte. Wir werden den Datenrahmen verwenden, den wir in Beispiel 1 erstellt haben.
Dieses Mal werden wir nach der Kursspalte überprüfen.
Wir haben angegeben, dass die Kursspalte für Schleife iteriert werden soll, um zu überprüfen. Die Werte, in denen das Substring existiert.
Die Serie.STR ”-Funktion kann die Werte der Serie als Zeichenfolgen erhalten und verschiedene Operationen ausführen. Um zu überprüfen, ob ein Muster oder ein Regex in einem Index oder einer Serienzeichenfolge vorhanden sind, können wir die „Serie verwenden.str.enthält () ”Funktion in Pandas. Abhängig davon, ob ein bestimmtes Muster oder ein REGEX in einer Reihe oder in einem Index -Zeichenfolgenwert vorhanden sind, gibt die Methode einen Booleschen Index oder eine Reihe zurück.
Syntax: Serie.str.Enthält (pat, case = true, flags = 0, na = nan, regex = true)
Wo,
klopfen: Regelmäßiger Ausdruck oder Zeichensequenz.
Fall: Fall sensibel, wenn auf true eingestellt.
Flaggen: Flags, die zum Beispiel durch das RE -Modul weitergegeben werden sollen.FALL IGNORIEREN.
n / A: Um die fehlenden oder Nullwerte zu füllen.
Regex: Der Pat gilt als regelmäßiger Ausdruck, wenn es wahr ist.
Beispiel Nr. 4: Verwenden Sie die Serie.str.Enthält () Funktionen, um festzustellen, ob das Substring in den Daten vorhanden ist
Zunächst erstellen wir eine Liste mit Stringwerten. Zusammen mit den Pandas werden wir auch die Re-Modules importieren. Das RE-Modul bietet eine Reihe effizienter regulärer Ausdrucksfunktionen, mit denen Sie leicht feststellen können, ob eine bereitgestellte Zeichenfolge ein bestimmtes Muster unter Verwendung der Übereinstimmungsmethode bzw. die Suchmethode enthält, oder ein bestimmtes Muster enthält.
Wir haben eine Liste mit PD erstellt.Serie () Funktion mit den Stringwerten "Team_A", "Team_AB", "Team_B", "Team_Alpha", "Team_ACE", "Team_Stars" und "Team_C". Wir haben auch einen Index für unsere Serie "SR" als "Team 1", "Team 2", "Team 3", "Team 4", "Team 5", "Team 6" und "Team 7" spezifiziert. Lassen Sie uns nun die Serie verwenden.str.Enthält () Funktionen, um zu ermitteln, ob das Substring in den Zeichenfolgenwerten der Liste vorhanden ist.
In der Str.Enthält () Funktionen () haben wir den PAT -Parameter als "team_a" angegeben, um zu überprüfen. Die Ausgabe zeigt, dass ein Serienobjekt, das Boolesche Werte enthält, von der Serie zurückgegeben wird.str.enthält () Funktion. Wo das mitgelieferte Muster in der Saite gefunden wird, ist es wahr; Ansonsten wird falsch zurückgegeben.
Beispiel Nr. 5: Verwenden Sie die Serie.str.Enthält () Funktionen, um festzustellen, ob das Muster in den Daten vorhanden ist
Wir werden nun überprüfen, ob das angegebene Muster in den Zeichenfolgendaten des zugrunde liegenden Serienobjekts vorhanden ist. Erstellen wir eine Zeichenfolge, die Stringwerte enthält.
Wir haben eine Serie mit den Werten "Mickey", "Rickon", "Alex", "Nick", "Rov", "Tim" und "Danny" erstellt. Um festzustellen, ob ein Muster in den Zeichenfolgendaten des Serienobjekts enthalten ist, werden wir nun die „Serie verwenden.str.enthält () ”Funktion.
Wir haben Path = "i [a-z]" angegeben, um festzustellen, ob es in der Serie "S" einen Stringwert gibt.
Abschluss
In diesem Tutorial haben wir versucht zu lehren, wie man feststellt, ob eine Saite ein Substring in Pandas enthält. Dies kann mit verschiedenen Methoden erfolgen, aber wir haben einige davon in den Beispielen besprochen. Wir haben Beispiele implementiert, um Ihnen beizubringen, wie Sie feststellen können, ob die Zeichenfolge das angegebene Substring mit dem In -Operator enthält, eine Zeichenfolge filtern, wenn das Substring in einer Serie oder einem Datenfream vorhanden ist, und die STR verwenden.Enthält () Funktionen, um zu bestimmen, ob der Substring oder der Ausdruck in den Daten vorhanden ist.