Pandas wählen Zeile für Wert

Pandas wählen Zeile für Wert
Zeilen aus einem PANDAS -Datenframe können basierend auf mehreren Kriterien oder Spaltenwerten ausgewählt werden. Dieser Artikel enthält Erklärungen und Beispiele für die zahlreichen Ansätze, um dies zu erreichen
Schauen Sie sich die angehängten Methoden zu diesem Zweck an:
  • Boolesche Indexierung
  • loc [] Eigenschaft
  • Query () Methode
  • ISIN () Methode

Erforschen wir die praktische Implementierung dieser Techniken.

Erstellen eines Datenrahmens

Für die Implementierung der Beispiele verwenden wir das Spyder -Tool. Nach dem Start des Tools haben wir die erforderliche Bibliothek importiert, die „Pandas“ ist, und es „PD“ mit dem Alias ​​veranlasste. Mit der PANDAS -Funktion erstellen wir zunächst einen Beispieldatenrahmen, der in allen Abbildungen in diesem Handbuch verwendet wird.

Wir haben die Pandas -Methode „PD“ angerufen.DataFrame () ”, der den Datenframeerstellungsprozess startet. Wir haben es mit 4 Spalten "Marks", "ST_NAME", "ST_ID" und "Punkte" initialisiert. Jede Spalte speichert eine Liste definierter Werte. In der Spalte "Markierungen" verfügt die Werte "100", "92", "79", "92", "73", "82" und "90". Für die Spalte "ST_NAME" haben wir Stringwerte "Adam", "Albert", "Elsa", "Ronald", "Maya", "George" und "Jessica". Die Spalte "st_id" hält Werte, die wir als "10", "11", "12", "13", "14", "15" und "16" definiert haben. Die Werte "14", "13", "14", "12", "11", "10" und "9" wurden in der Spalte "Punkte" gespeichert.

Die Wertelänge für die Spalten beträgt in diesem Fall 7. Der „PD.DataFrame () ”-Methode generiert einen Datenrahmen mit diesen angegebenen Spalten und Werten. Um diesen Datenrahmen zu speichern, haben wir nun ein DataFrame -Objekt „Test“ erstellt und das Ergebnis zugewiesen, das aus dem Aufrufen der Pandas DataFrame Constructor -Methode erzeugt wurde. Von nun an können wir auf diesen Datenrahmen zugreifen, indem wir das Objekt „Test“ als Datenrahmenname für alle Abbildungen verwenden. Am Ende wird der Datenrahmen auf dem Bildschirm angezeigt, indem die Methode von Python „print ()“ verwendet wird.

Mit dem Befehl „Datei ausführen“ werden wir den resultierenden Datenrahmen in der Python -Konsole erhalten.

Beispiel 1: Auswählen von Zeilen in einem Datenrahmen basierend auf den Spaltenwerten

Die erste Methode, um Zeilen in einem Datenrahmen auszuwählen, ist die boolesche Indexierungstechnik. In dieser Methode haben wir jede Zeile im Datenrahmen für eine bestimmte Spaltenbedingung als „wahr oder falsch“ überprüft. Welche Zeile auch immer mit der Bedingung übereinstimmt, die sie ergibt, „wahr“ und als Ausgabe ausgewählt wird.

Die Syntax für diese Methode zum Ausführen des Programms lautet:

Um seine praktische Demonstration zu lernen, schauen wir uns diese einfachen Schritte an. Wir müssen es als Name des DataFrame -Namens kripten. Einweisbetreiber; und schreiben Sie in den Quadratklammern den Spaltennamen und den Zustand des Spaltens. Unser DataFrame ist, wie oben erwähnt, „Test“ und die Spalte, auf die wir den Zustand anwenden, ist „Marks“, auf die die Bedingung angewendet wird. Wir haben eine Bedingung angewendet, um Zeilen auszuwählen, bei denen der Spaltenname „Markierungen“ ist und ihr Wert gleich „92“ ist. Daher müssen wir einfach Zeilen basierend auf der Spalte "Markierungen" des Werts "92" extrahieren. Um das Ergebnis zu speichern, wurde eine Variable generiert und "Dummy" genannt und genannt "Dummy". Wir werden diese Variable „Dummy“ an die Methode „Print ()“ übergeben, um ihren Inhalt auf dem Terminal anzuzeigen, wenn sie aufgerufen wird.

Die Ausgabe zeigt uns 2 Zeilen, die nach Überprüfung der Bedingung aus dem Datenrahmen ausgewählt wurden. Sie können sehen, dass die von uns angegebene Bedingung ausgewählte Zeilen war, bei denen Markierungen „92“ sind. Hier haben wir 2 Datensätze mit allen angezeigten Daten, deren Markierungen „92“ sind. Der erste ist "Albert" und der zweite ist "Ronald".

Beispiel 2: Auswählen von Zeilen in einem Datenrahmen basierend auf den Spaltenwerten unter Verwendung der Eigenschaft loc []

Die zweite Methode, mit der wir die Zeilen mithilfe der Spaltenwerte abrufen.loc [] “mit dem„ df.Werte ”Eigenschaft.

Wir haben das „DF) verwendet.Werte ”Eigenschaft, um eine Bedingung zu überprüfen. Die Spalte, die wir ausgewählt haben, um die Werte zu überprüfen. Die Bedingung, die wir hier festgelegt haben, besteht darin, die Zeile auszuwählen, in der der Wert der Spalte "st_name" gleich "Ronald" ist. Um das Ergebnis zu speichern, haben wir eine Variable „Kopie“ erstellt. Diese Eigenschaft überprüft also den Zustand und erkennt die Zeilen, die die erforderlichen Daten enthalten.

Anschließend haben wir die „loc []“ -Fotie des DataFrame verwendet. Der Name des Datenframes als "Test" mit der Eigenschaft "loc []" wird geliefert. Zwischen den Quadratklammern dieses Attribut. Das „df.Die Eigenschaft loc [] ”wird einfach die Zeilen abrufen, die die Variable„ Kopie “abhält. Um das Ergebnis zu erhalten, haben wir eine Variable „Daten“. Um die endgültige Ausgabe zu sehen, die "drucken()" Die Methode wird mit der Variablen „Daten“ als Parameter zur Anzeige des Inhalts aufgerufen.

Wir erhalten eine Reihe als Ausgabe, die dem definierten Zustand entspricht. Da es nur einen Eintrag mit dem Wert "Ronald" in der Spalte "ST_NAME" im Datenrahmen gibt.

Beispiel 3: Auswählen von Zeilen in einem Datenrahmen unter Verwendung der Spaltenwerte unter Verwendung des DF.Query () Funktion

Eine andere Technik zum Filtern von Zeilen in einem Datenrahmen basierend auf Spaltenwerten ist die Verwendung des "Anfrage()" Methode. Diese Methode nimmt den Ausdruck auf.

Wir haben den „DF angerufen.query () ”Funktion. Hier ist "DF" der Datenrahmen, der als "Test" bezeichnet wird. Zwischen den Klammern der Methode haben wir die Bedingung angegeben. Der Ausdruck, den wir definiert haben, stammt aus "ST_ID", wobei die ID gleich "10" ist. Die Funktion "query ()" extrahiert alle Zeilen im Datenrahmen "Test", der dieser Bedingung entspricht. Das Ergebnis wird in der Variablen „Extrakt“ gespeichert. Schließlich werden die in der Variablen „Extrahieren“ gespeicherten Daten angezeigt, indem die Methode „Print ()“ aufgerufen wird.

Der Ausgangsbildschirm zeigt eine einzelne Zeile, da nur ein Datensatz mit „ST_ID“ als „10“ zugeordnet ist. Sie können sehen, dass der Datensatz im Index „0“ gefunden wird, der die erste Zeile im DataFrame ist.

Beispiel 4: Auswählen von Zeilen in einem Datenrahmen unter Verwendung der Spaltenwerte unter Verwendung der ISIN () -Methode

Die letzte Strategie, die wir hier diskutieren, um Zeilen auszuwählen. Es wird eine Serie oder Liste von Werten und extrahiert Zeilen basierend auf den Werten der Liste.

Wir haben eine Liste von Werten als "Iteration" definiert, die folgende Werte hat: "Adam", "Elsa" und "George". Das „df.ISIN () ”-Funktion wird aufgerufen. Der Name des DataFrame und der Spaltenname werden mit der Methode "ISIN ()" geliefert. Zwischen den Zahnspangen wird die Liste „Iteration“ bereitgestellt. Daher werden die Spalte "ST_NAME" von "Test" DataFrame auf die in der Liste gespeicherten Werte überprüft. Wenn es die Werte findet, gibt es einfach die ausgewählte Zeile zurück. Wir haben das Ergebnis in der Variablen „Speichern“ erhalten und es mit der Methode "print ()" angezeigt.

Dies ergibt uns drei Zeilen, die den Werten in der Liste übereinstimmten.

Abschluss

Die Auswahl bestimmter Zeilen nach Werten in einem Datenrahmen ist eine hilfreiche Technik. Wir haben eine Vielzahl von Methoden demonstriert, um die Zeilen basierend auf den Spaltenwerten abzurufen. Wir haben Sie zuerst die Konstruktion eines Datenrahmens kennengelernt, dann haben wir an 4 Beispielen ausgearbeitet, bei denen verschiedene Strategien zum Extrahieren von Zeilen verwendet wurden. Alle Abbildungen wurden auf dem Spyder zusammengestellt und ausgeführt.