Pandas zählen Zeilen mit Zustand

Pandas zählen Zeilen mit Zustand
Pandas gehören zu den am weitesten verbreiteten Tools für Datenwissenschaft und maschinelles Lernen für die Datenreinigung und -verarbeitung. Möglicherweise müssen Sie mehrere Zeilen erwerben, die im DataFrame vorhanden sind, während Sie den PANDAS -Datenframe zum Speichern und Analyse Ihrer Daten verwenden. Für den Daten zur Handhabung von Daten müssen Sie möglicherweise die Vorkommen derselben oder unterschiedlichen Einträge in Ihrem gesamten Datensatz oder in bestimmten Zeilen schnell zählen, die eine bestimmte Bedingung erfüllen.

Mit Pandas können wir die Form eines Datenrahmens bestimmen, indem wir die Anzahl der Zeilen sowie die Spalten im DataFrame zählen. Sie können eine Vielzahl von Methoden anwenden, um das Konzept zu verstehen, um die Anzahl der Zeilen und Spalten in Pandas zu zählen. Dazu gehören „len ()“, „df.Form [0] "," df [df.Spalten [0]].count () ”,„ df.count () “und„ df.size () ”Methoden. Die schnellste dieser Methoden ist Len (), den wir uns in diesem Tutorial ansehen werden.

Lassen Sie uns damit lernen, indem wir die Beispielcodes praktisch implementieren.

Verwendung der Pandas len () -Methode

Die Technik, die wir in dieser Abbildung implementieren werden, ist die Methode „Len ()“. Lassen Sie uns untersuchen, wie es funktioniert.

Alle Beispielcodes, die wir in diesem Tutorial verwenden werden. Die erste Aufgabe ist die Installation und Ausführung des Spyder -Tools auf Ihrem Desktop- oder Laptop -Computer. Sobald wir mit dem Installationsprozess fertig sind, öffnen wir das Tool und öffnen eine neue Datei mit einer "".Py ”-Erdition. Hier repräsentiert "Py" "Python". Bevor wir unseren Code schreiben, müssen wir einige Voraussetzungen hinzufügen. Wie der Titel unseres Artikels kurz zeigt, dass alle Techniken, die wir verwenden werden, von der „Pandas“ -Bibliothek unterstützt werden müssen.

Daher müssen wir eine Pandas -Bibliothek hinzufügen, indem wir das Skript „Pandas als PD importieren“ schreiben. Wir haben jetzt die Pandas -Bibliothek importiert und erklärt, dass auf Pandas jetzt auf "PD" anstelle der vollständigen Form „Pandas“ im gesamten Programm geschrieben werden kann. In Zukunft erstellen wir einen PANDAS -Datenfreen, in dem wir die ausgewählte Pandas -Technik ausüben. Für die Konstruktion eines Datenrahmens bieten Pandas uns eine sehr einfache und nützliche Methode „PD“.DataFrame () ", wobei" PD "auf" Pandas "und" DataFrame "bezieht.

Wir haben diese Methode in unserem Skript angewendet. Zwischen seinen Klammern haben wir drei Spalten initialisiert. Der Titel unserer ersten Spalte lautet "Gruppe", die acht Stringwerte speichert, die "x", "x", "x", "x", "y", "y", "y" und "y" sind. Die zweite Spalte im DataFrame ist "POS", in dem auch 8 Stringwerte gespeichert sind. Diese Werte sind "au", "bo", "bo", "bo", "au", "au" und "bu". Die letzte Spalte hier ist "Scores" und enthält acht Ganzzahlwerte, ich.e. "19", "23", "18", "15", "15", "12", "21" und "28". Wenn wir einen Datenrahmen generieren, müssen wir auch eine Variable oder ein DataFrame -Objekt erstellen, um diesen Datenrahmen zu speichern.

Hier ist die Variable, die wir für diesen Zweck erstellt haben, „res“,. Dann weisen wir diese Funktion der Ausgabe zu, die aus dem Aufrufen der „PD“ generiert wurde.DataFrame () ”Methode. Um diesen Datenrahmen anzuzeigen, haben wir nun auf dem Terminal erstellt, dass wir die Funktion „print ()“ verwendet haben, die die Ausgabe anzeigt. Lassen Sie uns dieses Python -Skript ausführen:

Klicken Sie auf die Schaltfläche "Datei ausführen" im Terminal im Terminal im Tat "Spyder" auf die Tool "Datei ausführen". Hier ist unser ursprünglicher Datenrahmen:

Verwendung der Len () -Methode mit einem Zustand

Jetzt müssen wir die Zeilen der angegebenen Spalte im Datenrahmen zählen, die dem bereitgestellten Zustand entsprechen. Wir werden zuerst die Bedingung in einer einzelnen Spalte anwenden, um die Anzahl der Zeilen abzurufen, die dem Zustand entspricht. Anschließend wenden wir es auf die mehreren Spalten des Datenrahmens an. Für beide Techniken verwendeten wir die „Len ()“ -Methode von Pandas. Die Syntax für diese Methode zur Anwendung der Bedingungen in einer einzelnen Spalte ist im Folgenden bereitgestellt:

Nach der Syntax haben wir die Methode „Len ()“ aufgerufen, die die Anzahl der Zeilen zählt. In seinen Zahnspangen haben wir eine Bedingung mit dem Namen des DataFrame und des Spaltennamens DataFrame angegeben. Wir haben die Spalte "Gruppen" aus unserem Datenrahmen ausgewählt und eine Bedingung dafür angegeben. Die Bedingung besagt, ob ein Wert der Spalte „Gruppen“ gleich „x“ ist. Wenn die Bedingung übereinstimmt, zählt die Methode „Len ()“ die Zeile, die sie enthält.

Um diesen gezählten Wert von Zeilen zu speichern, die die Bedingung erfüllten, haben wir eine Variable „Count“ erstellt,. Wir haben die Methode „Print ()“ verwendet, um vor den gezählten Zeilen einen Text auf dem Terminal anzuzeigen. Für den Zweck, die Ausgabe der angezeigten gezählten Zeilen anzuzeigen.

Wir haben sowohl unseren Datenrahmen als auch die gezählten Zeilen, die mit der auf dem Terminal angezeigten Bedingung übereinstimmten. Wir können beachten, dass der DataFrame "4" Zeilen enthält, die der Bedingung entsprechen. Sie können es auch überprüfen, indem Sie es mit dem vorherigen Datenrahmen vergleichen. Die Spalte "Gruppen" hat 4 "x" -Werte, sodass sie nach der Pandas "len ()" -Methode berechnet wird.

Verwendung der Len () -Methode mit mehreren Bedingungen

Wir haben die Anzahl der Zeilen mit der Bedingung für eine einzelne Spalte im vorherigen Beispiel gezählt. Jetzt werden wir lernen, wie man die Zeilen für zwei Spalten zählt. Die folgende Syntax ist:

Die Erklärung dieser Syntax wird die Funktion „len ()“ aufgerufen, um die Anzahl der Zeilen zu zählen, die den Bedingungen erfüllen. Dann haben wir den Namen des Datenrahmens erwähnt, dessen Zeilen wir zählen möchten. Nun, der Name der ersten Spalte mit der bestimmten Bedingung, dann der Name der zweiten Spalte des Datenframe mit der angegebenen Bedingung. Zwischen beiden Bedingungen befindet sich der „&“ -Operator. Dieser Bediener wird als "und" Operator bezeichnet. Wenn es zwischen zwei bedingten Aussagen geht, bedeutet dies, dass die Zeilen nur dann gezählt werden, wenn beide Bedingungen erfüllt sind.

In unserer Abbildung haben wir die Spalte "Gruppen" und die Spalte "POS" ausgewählt. Wir haben die Bedingungen auf beide Spalten angewendet. Die Bedingung in der Spalte "Gruppen" überprüft die Werte in dieser speziellen Spalte, die „y“ entsprechen. Während die Bedingung auf "POS" die Werte "bo" überprüft, überprüft die Werte "bo". Der „&“ -Preiber überprüft die Werte aus der Ausgabe beider Werte und überprüft die Bedingung. Wir brauchen also die Anzahl der Zeilen, die den "Gruppen" -Wwert "X" und die "POS" entsprechen, die "bo" entspricht.

Wir haben eine andere Variable "Cal" erstellt. Wenn die Bedingungen überprüft werden, zählt die Funktion „len ()“ die Anzahl der Zeilen und speichert sie in der Variablen „Ergebnis“. Zuletzt haben wir zwei "print ()" -Methoden verwendet, um einen Text anzuzeigen, während der andere die gezählten Zeilen durch die in der Variable "Cal" gespeicherte "len ()" -Funktion druckt.

Das folgende beigefügte Ausgabebild zeigt, dass nur 3 Zeilen im Datenrahmen enthalten sind, die die angegebene Bedingung erfüllen. Aus der Spalte "Gruppe" und "POS" werden nur drei Zeilen abgerufen, die "x" "Gruppe" haben, und das "POS" ist "bo". Geben Sie es ein paar Sekunden an, um selbst zu überprüfen, ob die generierte Ausgabe korrekt ist, indem Sie den Datenrahmen im folgenden Snapshot untersuchen:

Sie haben gelernt, wie man die Bedingungen auf zwei Spalten anwendet. Wenn Sie sie auf mehrere Spalten anwenden, werden Sie nicht in Schwierigkeiten geraten. Wir wenden nun die Bedingungen für alle drei Spalten im Datenrahmen an und erhalten nur die Anzahl der Zeilen, die alle drei Bedingungen erfüllen.

Die erste Bedingung wird in der Spalte „Gruppe“ angewendet, um die Werte zu überprüfen, die gleich „y“ sind. Dann ist die "Gruppen" -Werte, die "y" und die "pos" sind "bo". Und die letzte Bedingung, die die vollständigen Bedingungen enthält, besagt, dass die „Gruppe“ gleich „y“ und die „POS“ ist „BO“ und die „Punktzahlen“ sind größer als „15“, die größer als „15“ sind. Rufen Sie diese Datensätze aus dem DataFrame ab. Das "len ()" zählt die Zeilen und speichert sie in der Variablen "Ergebnis". Verwenden Sie die Methode "print ()", um die Ausgabe anzuzeigen.

Die Ausgabe zeigt uns, dass der Datenrahmen 2 Zeilen enthält, die alle drei Bedingungen erfüllen.

Abschluss

Pandas bietet uns eine Vielzahl sehr nützlicher und wichtiger Funktionen. Dieses Tutorial basiert auf der von Pandas bereitgestellten Methode. Dies ist die Funktion „len ()“, um die Anzahl der Zeilen in einem bestimmten Datenrahmen zu zählen. In diesem Lernen ist es unser Ziel und unser Ziel, Sie zu verstehen, wie Sie die Anzahl der Zeilen zählen können, die eine definierte Bedingung erfüllen. Wir haben jeden Schritt dieser Technik explizit verbal sowie mit Hilfe von Beispielcodes erklärt, die im Tool „Spyder“ implementiert wurden. Wir machen einen aufrichtigen Versuch, dieses Stück Schreiben so einfach und praktisch wie möglich zu gestalten, damit Sie das Konzept verstehen können.