Pandas Drop na

Pandas Drop na
Pandas, eine Open-Source-Bibliothek für Python, ist ohne Zweifel das beliebteste Toolkit für die Datenforschung und -bewertung. Es ist auch eine gute Wahl für Ad-hoc-Datenumwandlungsaufgaben. Aufgrund seiner außergewöhnlich flexiblen Datendarstellung unter Verwendung von Datenrahmen und der Fülle der verfügbaren Methoden zum Ändern von Daten, die in diesen Datenrahmen gespeichert sind. Alle Datenprobleme in realer Welt können zu fehlenden Daten führen, und diese Datensätze müssen korrekt behandelt werden. Die Daten könnten aus vielen Gründen fehlen. Es ist nicht ungewöhnlich, wenn es um stark durcheinandergebrachte Daten zu tun hat. Das Verständnis, wie man mit fehlenden Werten umgeht, ist eine wesentliche Kompetenz für jeden Datenprofi. In diesem Tutorial lernen Sie, wie Sie mit Nullwerten umgehen, die den Pandas „DataFrame" verwenden.Dropna () ”Methode.

Pandas Dropna () Methode

In einem Pandas -Datenfreame müssen Sie möglicherweise Zeilen mit NAN -Werten entfernen. Zum Glück wäre dies mit der Pandas „Dropna ()“ -Methode einfach zu erreichen. Die Syntax für die Verwendung der Methode „Dropna ()“ lautet wie folgt:

Der erste Parameter ist die "Achse". Für Spalten und Zeilen akzeptiert die „Achse“ int- oder Zeichenfolgewerte. Ganzzahleingänge können 1 oder 0 sein und String -Eingänge können "Spalten" oder "Index" sein. Der Parameter "Wie" Akzeptiert nur Stringwerte von zwei Typen (entweder 'irgendein' oder 'alles')). Das 'Any' entfernt die Zeile/Spalte, wenn ein Wert null ist und "alle" die Zeile/Spalte entfernt, wenn alle Einträge null sind. Der "dreschen" Akzeptiert einen Ganzzahlwert, der die minimale Anzahl von NA -Einträgen angibt,. Der "Teilmenge" ist ein Array, das den Ablaufvorgang auf die Zeilen/Spalten beschränkt, die über die Liste gegeben wurden. Der letzte Parameter "an Ort und Stelle" ist ein Booleschen, der den Datenrahmen selbst modifiziert, wenn sie wahr ist.

Beispiel Nr. 1: Verwendung von Pandas Dropna () -Methode zum Absetzen von Zeilen mit Nullwerten

In dieser Abbildung werden wir sehen, wie Sie alle Nullwerte in den Zeilen eines Datenrahmens fallen lassen können, indem Sie die Pandas "Dropna ()" -Methode verwenden.

Wir haben das "Spyder" -Tool gestartet und das Programm beginnen. In der Python -Datei importieren wir die beiden erforderlichen Bibliotheken. Das erste Toolkit, das wir in die Datei laden, ist die Pandas als "PD" und das zweite Paket ist die Numpy -Bibliothek als "NP". Wir haben jetzt beide Bibliotheken aliasischen und können auf sie zugreifen, indem wir diese Abkürzungen verwenden. Die Pandas -Bibliothek wird importiert, um PANDAS -Methoden anzuwenden, während die Numpy -Bibliothek dazu beiträgt, NAN -Werte im DataFrame zu behandeln.

Wir müssen einen Datenrahmen mit einigen Nullwerten erstellen. Dafür bietet Pandas uns eine Methode „PD.DataFrame () ”. Wir rufen diese Methode auf, um einen Datenrahmen mit vier Spalten "First", "Second", "Third" und "Fourth" zu erstellen. Die Spalte "First" hat diese Werte "NP".Nan “,„ 98 “,„ 66 “,„ NP.Nan ”,„ 14 “,„ 30 “,“ 26 “,„ 79 “und„ 11 “. Die Spalte "Sekunde" speichert Werte "NP".Nan ”,„ 29 “,„ 14 “,„ 16 “,„ 27 “,„ 10 “,„ 32 “,„ 19 “und„ 21 “. Die Spalte "Dritter" enthält Werte "10", "45", "7", "13", "5", "7", "8", "9" und "18". Die letzte Spalte "Vierter" hat Einträge "16", "7", "10", "NP".Nan “,„ 6 “,„ 7 “,„ 9 “,„ 20 “und„ 30 “. Alle Spalten halten neun Einträge auf.

Wir konstruieren ein DataFrame -Objekt "Zähler" und weisen das Ergebnis des Aufrufens des „PD“ zu.DataFrame () ”-Funktion. Der Datenrahmen wird also in der Variablen „Zähler“ gespeichert. Wir zeigen den Datenrahmen auf der Python -Konsole an, indem wir die Python -Methode „Print ()“ verwenden.

Um das Programm auszuführen, haben wir die Option "Datei ausführen" im Spyder -Tool getroffen. Der im Terminal angezeigte resultierende Datenrahmen zeigt uns, dass die Spalte „First“ zwei NaN -Werte hat, die Spalte „zweiten“ und „viertes“ haben jeweils einen NAN -Wert, während die Spalte „dritte“ keine NAN -Werte hat.

Wir lernen nun die Technik, um die Zeilen mit den NAN -Werten in einem Datenrahmen mit Pandas „DataFrame abzugeben.Dropna () ”Methode.

Wir nennen die PANDAS "Dropna ()" -Methode mit dem Namen des DataFrame "Zähler". Hier übergeben wir zwei Parameter an diese Funktion "Achse" und "Wie". Die Werte für den Parameter „Achsen“ werden auf "0" gesetzt, was die Zeilen anzeigt, während das "Wie" in den Werten "beliebt" angegeben ist. Eine Variable „fehlt“ wird erstellt, um die Ausgabe der „Dropna ()“ -Methode zu speichern. Zuletzt rufen wir die Methode „Print ()“ auf, um den Inhalt der „fehlenden“ Variablen zu erstellen.

Hier haben wir resultierende Datenframe. In diesem Datenrahmen können wir feststellen, dass die Zeilen, die Nullwerte enthalten. Die Zeilen mit den Indizes 0 und 3 werden fallen gelassen, da diese NAN -Werte haben.

Wir können auch die Größe des Datenrahmens unter Verwendung der Methode „Len ()“ überprüfen. Wir rufen die Methode „print ()“ auf und geben die Funktion „len ()“ als Parameter an. In der ersten Funktion „len ()“ haben wir die Größe des Datenrahmens "Zähler" und die in der nächsten "len ()" -Funktion gefunden, die Länge des "fehlenden" Datenrahmens wird berechnet. Schließlich subtrahierten wir beide Längen, um die Anzahl der Zeilen mit Nullwerten zu finden.

Hier können wir sehen, dass der alte Datenrahmen „Zähler“ 9 Zeilen hatte, während der neue Datenrahmen „Fehlende“ über 7 Zeilen enthält. Und die Anzahl der Zeilen, die Nullwerte haben, sind 2.

Beispiel Nr. 2: Verwendung von Pandas Dropna () -Methode zum Abnehmen von Zeilen mit Nullwerten unter einem angegebenen Schwellenwert

In diesem Fall haben wir den im vorherigen Beispiel erstellten Datenrahmen verwendet. Wir verwenden eine andere Eigenschaft, die von der Funktion „Dropna ()“ bereitgestellt wird.

Wir berufen den „DataFrame.Dropna () ”Methode. Wie die Syntax sagt, wird der Name des Datenframe -Namens mit der Funktion „Dropna ()“ als „Zähler“ geliefert.Dropna () ”. Die Parameter, die wir hier verwenden, sind "Achse" und "Thresh". Wir setzen die "Achse" für zeilenweise Tropfen auf "0" und die "Drise" ist auf "4" gesetzt, was bedeutet, dass die Funktion "Dropna ()" nach Zeilen prüft Weniger als 4. Welche Zeile auch immer die Anzahl der Nicht-Null-Werte unter vier Jahren hat, wird sie fallen lassen. Wir speichern die Ausgabe in der Variablen „Fehlende“ und zeigen sie einfach mit der Methode „print ()“ an.

Im Ausgabebild wird ein Datenrahmen ausgestellt. Hier werden Zeile 0 und Zeile 3 verworfen, weil diese eine Anzahl der Nichtnullwerte unter 4 hatten.

Beispiel Nr. 3: Verwendung von Pandas Dropna () -Methode zum Abnehmen von Zeilen mit Nullwerten für eine bestimmte Spalte

Unter Verwendung des Datenrahmens aus der ersten Abbildung rufen wir die Methode „Dropna ()“ auf. Diesmal verwenden wir es, um Zeilen in einer bestimmten Spalte fallen zu lassen. Um Zeilen mit Nullwerten in einer angegebenen Spalte zu eliminieren, haben wir einen Parameter „Teilmenken“ der Funktion „Dropna ()“. Die Eigenschaft "Teilmenge" übergibt die angegebene Spalte oder Zeile als Liste an die Methode "Dropna ()". Hier haben wir die Spalte "Sekunde" für diesen Parameter ausgewählt. Dann stellen wir einfach den neuen Datenrahmen auf der Konsole aus.

Die Spalte "Sekunde" hat die erste Zeile, die den NAN -Wert enthält, sodass sie im neuen Datenrahmen verworfen wird.

Abschluss

Das Arbeiten an Datenrahmen und die Begegnung mit dem Problem, fehlende Werte zu finden. Der Umgang mit diesen fehlenden Werten ist eine zentrale Lernfähigkeit. Wann immer wir in einer solchen Herausforderung stecken, kommen Pandas ins Spiel. Pandas liefern uns die Funktion „DataFrame.Dropna () “, um mit diesen Nulleinträgen umzugehen. Dieses Tutorial hat die Syntax dieser Funktion mit allen Parametern gezeigt. Wir haben die praktische Implementierung der Python -Beispielcodes durchgeführt, um Nullwerte unter Verwendung der Methode „Dropna ()“ mit unterschiedlichen Argumenten zu fallen.