Pandas -Filter nach Spaltenwert

Pandas -Filter nach Spaltenwert
Eine der beliebtesten Techniken zum Reinigen der Daten ist die Filterung der Daten aus einem Datenrahmen. Gemäß der Etikett und Position der Spalten und Zeilen bietet Pandas eine Vielzahl von Techniken oder Methoden für die Datenauswahl. Zusätzlich können Sie mit Pandas die Zeilen mithilfe der Booleschen Indexierung filtern und abhängig von den Spaltentypen eine Datenuntergruppe extrahieren. Die beliebtesten Methoden zum Extrahieren der Datenuntergruppen aus einem PANDAS -Datenfreame sind in diesem Artikel - Auswählen einer Spalte per Etikett, Auswahl mehrerer Spalten nach Beschriftung usw.

So ändern Sie die Pandas -Spalte in Zeichenfolge

Es gibt mehrere Methoden und Techniken, mit denen wir die Daten aus dem PANDAS -Datenframe basierend auf den Werten in Spalten filtern können. In den folgenden Beispielen werden wir einige Methoden zum Filtern der Daten aus einem Datenrahmen nachweisen:

Zunächst werden wir sehen, wie die PANDAS -Datenframezeilen abhängig von den Werten der Spalten unter Verwendung spezifischer bedingter und relationaler Operatoren filtern.

Beispiel 1: Filtern Sie die DataFrame -Zeilen mit []

Um dieses Beispiel zu demonstrieren, benötigen wir zuerst einen Datenrahmen. Der Datenrahmen wird mit den Pandas erstellt.DataFrame () -Funktion, importieren wir zuerst die Pandas -Bibliothek, um unseren Datenrahmen zu erstellen.


Wir haben unseren Datenrahmen mit einem Python -Wörterbuch erstellt und es dann in die PD weitergegeben.DataFrame () -Funktion. Wir haben die Namen der Spalten unseres DataFrame als "Schüler", "Alter", "Fach" und "Fee" angegeben. Wir können die Funktion print () verwenden, um unseren "DF" -Datenframe zu veranschaulichen.


Im vorherigen Datenrahmen gibt es 4 Spalten. "Student" speichert die Namen ("Anna", "Dany", "John", "Rick", "Jim", "Kenny"). "Alter" speichert das Alter von Individuen (25, 23, 22, 18, 19, 20). "Subjekt" besteht aus Fachnamen ("Rechnungswesen", "Geschäft", "Wissenschaft", "Mathematik", "Architektur", "AI"). Und „Gebühr“ besteht aus der Gebühr jedes Subjekts (900, 690, 799, 960, 970, 1080). Nehmen wir an, wir müssen die Zeilen herausfiltern, in denen der Wert in der Spalte „Gebühr“ größer als 900 ist.


Um auf die Werte der Spalte „Gebühr“ zuzugreifen, setzen wir den Namen der Spalte, i.e. "Gebühr", innerhalb der Klammern. Nach dem Zugriff auf die Werte haben wir einen DF ['Fee']> 900 Bedingung angewendet. Um die Werte zu speichern, die die Bedingung erfüllen, haben wir die Variable "Ausgabe" erstellt.


Wir haben drei Zeilen, die den vorherigen Zustand erfüllen. Wir können die verschiedenen Spalten in den Klammern verwenden [].

Beispiel 2: Filtern Sie die Datenframezeilen mit der LOC [] -Methode

In diesem Beispiel wird die LOC []. Anschließend verwenden wir die relationalen oder bedingten Operatoren, um die Zeilen des Datenrahmens zu filtern. Die Funktion loc () macht es einfach, die Werte von einem Datenrahmen schnell zu erhalten. Durch Übergeben eines Spaltennamens, eines Zeilennamens oder eines Indexwerts an die Funktion loc () können wir die Datenwerte abrufen, die in der spezifischen Zeile oder Spalte gespeichert sind.


Um die Werte aus den Altersspalten abzurufen, haben wir das DF ['Alter'] innerhalb der DF bestanden.loc [] Funktion. Wir haben auch eine Erkrankung innerhalb der Funktion verwendet, um nur die Zeilen abzurufen, bei denen der Alter des Alters größer als 19 ist. Um zu überprüfen, ob die richtigen Zeilen abgerufen werden oder nicht, veranschaulichen wir unseren Datenrahmen mit der Funktion print ().


In den zuvor angegebenen Beispielen haben wir gesehen. Jetzt werden wir sehen, wie die Daten mit der Funktion isin () gefiltert werden können.

Beispiel 3: Filtern Sie die DataFrame -Zeilen mit Werten in der Liste mit der Methode isin ()

Die Elemente des DataFrame werden überprüft, um festzustellen, ob sie in Werten mit der Funktion isin () enthalten sind. Nur wenn alle Etiketten an einem bestimmten Ort übereinstimmen, ist das Ergebnis wahr. Erstellen wir unseren Datenrahmen, nachdem wir das PANDAS -Modul importiert haben. Wieder die PD.DataFrame () wird verwendet, um unseren neuen DataFrame zu erstellen.


Wir haben einen Datenrahmen mit drei Spalten erstellt - "Name", "Bezeichnung" und "Gehalt", die die Daten speichern ("Richard", "Will", "Steve", "Larry", "Lana", "Tony"). ("Buchhalter", "Buchhalter", "Manager", "Angestellter", "Angestellter", "Manager") und (1200, 1250, 2100, 1000, 990, 2200). Jetzt erstellen wir ein Listenobjekt, das in der Funktion isin () als Eingabe übergeben wird, um den Werten der Liste aus den angegebenen Spaltenwerten unseres Datenrahmens zu entsprechen.


Wir haben zuerst eine Liste erstellt, in der wir die Werte „Buchhalter“ und „Manager“ einfügen und diese Liste einer "Desig" -Variable zugewiesen haben. Der Wert der Spalte „Bezeichnung“ wird mit dem Spaltennamen zugegriffen, i.e. "Bezeichnung", im Inneren []. Wir haben die Funktion isin () in den bewerteten Werten der Spalte verwendet, um den Werten in der Liste mit den Werten in der Spalte „Bezeichnung“ in unserem Datenrahmen übereinzustimmen.


Wir haben die Werte "Buchhalter" und "Manager" in der Liste verwendet. Die Funktion gab also die Zeilen zurück.

Beispiel 4: Filtern Sie die Daten basierend auf Werten in DataFrame -Spalten mit der Methode loc [] und isin () filen

Jetzt verwenden wir die LOC []. Nach dem Zugriff auf die Daten verwenden wir die Funktion isin (), um die Daten in unserem Datenrahmen zu filtern.


Im vorherigen Skript haben wir eine "Sal" -Liste mit [1200, 2100, 2200] Werten. Dann wird die Liste "SAL" in der Funktion isin () als Argument übergeben, um den Werten der Liste mit der Spalte "Gehalt" zu entsprechen. Nach der Übereinstimmung der Werte werden die aus der Funktion erhaltenen Zeilen in einer neuen Variablen "DF_Filter" gespeichert. Jetzt sehen wir das Ergebnis mit der Funktion print () an.


Es ist ersichtlich, dass die erforderlichen Zeilen mit den Werten 1200, 2100 und 2200 aus dem Datenrahmen „DF“ extrahiert werden.

Jetzt, im nächsten Beispiel, filtern wir die Daten unter Verwendung mehrerer Bedingungen.

Beispiel 5: Filtern Sie die DataFrame -Zeilen anhand mehrerer Bedingungen für Datenfream -Spalten

Erstellen wir zunächst einen DataFrame, bei dem wir die mehrfachen Bedingungen anwenden, um die Zeilen des Datenrahmens zu filtern.


Es gibt insgesamt 4 Spalten im vorherigen DataFrame - "Student", "Age", "Kurse" und "Fee". In der Spalte "Student" speichert der Name der Schüler ("Mike", "Rob", "Arya", "Tom", "Jack", "Luca", "Mark", "Max" und "Alex"). Die Spalte „Alter“ enthält das Alter jedes Schülers (21, 21, 23, 22, 19, 20, 25, 23, 22). Während die Kolumns „Kurse“ und „Fee“ den Namen der Kurse („Rechnungswesen“, „Geschäft“, „Naturwissenschaften“, „Mathematik“, „Architektur“, „AI“, „Accountings“, „Business“, „AI ”) Und Gebühr jedes Kurses für einen Studenten (1000, 1190, 1250, 1320, 1245, 1580, 1420, 1600, 1600). Wenden wir die Bedingungen an, um die erforderlichen Zeilen zu extrahieren.


Wir haben eine "Sub" -Liste mit "Buchhaltungen" und "AI" -Elemente erstellt. Die Liste wird in der Funktion isin () übergeben, um den Elementen der Liste mit den Werten der Spalte „Kurse“ zu entsprechen. Wir haben eine andere Bedingung verwendet, dass der Wert in der Spalte „Gebühr“ größer als 1250 betragen muss. Das vorherige Skript ruft die Zeilen ab, was beide Bedingungen erfüllt.


Diese Zeilen erfüllen beide Bedingungen.

Abschluss

In diesem Tutorial haben wir die verschiedenen Methoden und Techniken erörtert, mit denen die Daten aus dem Pandas -Datenfreame basierend auf Werten in Spalten filtern können. Wir haben versucht, Sie in der Lage zu machen, die Daten basierend auf Spaltenwerten selbst zu filtern. Wir haben die verschiedenen Beispiele in diesem Artikel implementiert, um Ihnen beizubringen, wie Sie die Funktionen von LOC [] und isin () sowie relationale oder bedingte Operatoren verwenden, um die Daten aus dem angegebenen Datenrahmen abhängig von den Spaltenwerten zu extrahieren.