Fehlende Werte können unter bestimmten Umständen problematisch sein. Daher müssen wir gelegentlich Objekte mit nicht-missingigen Werten angeben. Eine Methode zum Auffinden von Spalten mit vielen fehlenden Daten ist die Verwendung der Pandas -Grafmethode.
Die pandas count () -Funktion ist eine Methode zur Berechnung der Anzahl der Nicht-NA-Zellen in jedem Segment oder einer Spalte. Darüber hinaus ist es auch relevant, mit nicht skimmigen Daten zu arbeiten. Im Umgang mit Datensätzen ist eine enorme Fähigkeit die Fähigkeit, die Ergebnisse verständlicherweise vorzustellen. Die Verwendung eines Axis-basierten Diagramms ist eine häufige Möglichkeit, Daten anzuzeigen. Die Python -Funktion count () gibt die Häufigkeit zurück, mit der das Substring in der Zeichenfolge angezeigt wird, und die Anzahl der Werte in Spalten oder Zeilen eines Datenrahmens. Wir werden somit übergehen, wie die Zählfunktion für Datenrahmen in diesem Teil verwendet wird.
Syntax für die Funktion pandas count ()
Die Zählmethode hat eine relativ einfache Syntax; Es gibt jedoch einige verschiedene Ansätze, um es zu nutzen, und einige Optionen, die die Funktionsweise des Funktionierens ändern können. Sie müssen nur den Namen des DataFrame angeben, gefolgt von “.count () “, um die Zählfunktion für einen Datenrahmen aufzurufen. Unter der Annahme, dass Ihr Datenrahmen als "DataFrame" bezeichnet wird, können Sie das Skript "DataFrame" verwenden.count () ”, um die Menge an nicht-missigen Einträgen für alle Spalten zu bestimmen. In den Klammern können Sie auch einige optionale Argumente verwenden, die wir ein wenig erklären werden.
Hier bezeichnet die „Ebene“ die verschiedene Indizierung der Achse, und wenn die Achse hierarchisch ist, stürzt die DataFrame -Methode des DataFrame letztendlich ab und stellt nicht mehr auf Programmanrufe ab, sodass das Programm hängen bleibt. Der Begriff „numerisch“ bezieht sich auf die Kompatibilität des Programms mit numerischen Daten, einschließlich Integer-, Float- und Logikwerten. Da es immer wieder zum Datenrahmen zurückkehren muss, wenn die Ebene bereitgestellt wird, nimmt der falsche Wert als Standardwert ein. Die Bewertung der Zeilen und Spalten durch das Programm wird auf der „Achse“ bereitgestellt. Die Methode count () verwendet das Achsenargument, um bestimmte Spalten und Zeilen anzugeben, um zu berücksichtigen, wenn das Ergebnis von der Anwendung mit Pandas erstellt werden soll.
Schauen wir uns nach der Untersuchung der Syntax einige Demonstrationen des Pandas Count -Ansatzes in der Praxis an. Wir werden einige Fälle von Möglichkeiten untersuchen, um die Werte innerhalb eines Datenrahmens zu zählen, die Einträge in einer bestimmten Spalte und einige weitere Anwendungen zu zählen.
Beispiel 1: Zählen Sie die Anzahl der Datensätze in allen Spalten eines Datenrahmens mit der Methode pandas count ()
Sie müssen einige Vorbereitungscode ausführen, bevor Sie alle Instanzen kompilieren können. Wir müssen die entsprechenden Bibliotheken importieren und dann speziell einen Datenrahmen laden/erstellen.
Zunächst importieren wir die Numpy -Bibliothek als NP- und Pandas -Bibliothek und geben ihr den Namen PD im vorherigen Programm. Wir können nun unseren grundlegenden Datenrahmen konstruieren, da wir die Pandas -Bibliothek zugänglich machen.
Beginnend mit dem Hauptcode können Sie sehen, dass wir ein NP verwendet haben.Nan -Eigentum und machte es gleich Nan. Das Akronym NAN, das sich auf "nicht eine Zahl" bezieht, bezeichnet Zahlen, die nicht angegeben werden. Zusätzlich werden fehlende Einträge in einem Datensatz mit dieser dargestellt.
Jetzt werden wir einen Datenrahmen mit einigen Nullwerten unter Verwendung der Pandas DataFrame -Funktion erstellen. Der Code hier erstellte eine Variable mit dem Namen "DF" und das Ergebnis des Aufrufens des PD.DataFrame () -Funktion wird dann dieser erstellten Variablen zugeordnet. Innerhalb der Klammern der PD.DataFrame () -Funktion, wir haben die lockigen Klammern verwendet und die Namen der Spalten geschrieben, die wir im DataFrame haben möchten. Wir haben vier Spalten erstellt: Name, Chemie, Englisch und Wissenschaft. Dann haben wir alle Spalten mit unterschiedlichen Werten zugewiesen. Wir müssen alle Spalten gleicher Größe behalten. Die Druckfunktion wird aufgerufen, um den Datenrahmen zu drucken.
Die Ausgabe zeigt den folgenden Datenrahmen:
Für jede Spalte in unserem Datenrahmen berechnen wir nun die Menge der Nicht-Null-Datensätze. Die Funktion count () für einen Datenrahmen wird auf diese Weise auf diese Weise angewendet.
In diesem Fall wenden wir COUNT () hier im gesamten Datenfrequenz "DF" an. Um dies zu erreichen, haben wir den Namen des DataFrame "DF" eingegeben, gefolgt von der .count () Funktion.
Wenn wir den vorherigen Code ausführen, werden wir das im folgende Bild angegebene Ergebnis ergeben:
Sie können die Gesamtmenge an nicht-missigen Einträgen für jede Spalte im Ergebnis erhalten.
Unser DataFrame umfasst insgesamt sechs Zeilen. Sie können feststellen, dass der Variable „Name“ in dieser Instanz sechs Werte enthält. In dieser Variablen gibt es keine leeren Räume. Spezifische Werte enthalten jedoch weniger als sechs. Zum Beispiel hat die Wissenschaft vier nicht-missingige Einträge, während die Chemie fünf hat. In diesem Fall wendet es seine Standardeinstellungen auf den Parameter an.
Dieses Wissen kann hilfreich sein, wenn Sie die Daten reinigen. Die Entwicklung eines Algorithmus für maschinelles Lernen könnte ebenfalls vorteilhaft sein, da bestimmte Modellkategorien keine fehlenden Daten akzeptieren.
Beispiel 2: Zählen Sie die Anzahl der Datensätze in allen Zeilen eines Datenrahmens mit der Methode pandas count ()
Lassen Sie uns nun bestimmen, wie viele nicht-missingige Einträge in den Zeilen des angegebenen Datenframees enthalten sind.
Die Methode count () wird im Allgemeinen verwendet. Es kann jedoch Situationen geben, in denen Sie stattdessen die Zeilen betrachten sollten. Wir werden die Eigenschaft der Achsen nutzen, um dies zu erreichen.
Nach Datenframekonstruktion die DF.Count () -Methode berechnet die Anzahl der Werte in jeder Zeile, während Null- oder NAN -Einträge ignoriert werden. Zeilen werden durch Achse = 1 dargestellt. Daher weisen wir den Code an, nur die Einträge in den Zeilen des DataFrame zu zählen.
Infolgedessen berücksichtigt dieses Programm die Methode count (), gibt die DataFrame -Zeile aus, die im folgenden Screenshot angezeigt wird, und kehrt dann zur Pandas -Funktion zurück.
Wir haben die Daten überprüft, sodass wir wissen, dass vier Spalten in unserem Datenrahmen sind. Eine vollständig besiedelte Zeile sollte also vier nicht-missibierende Werte haben. Sie können jedoch feststellen. Es gibt vier Einträge in der ersten, zweiten und letzten Reihe. Dies zeigt an, dass in einigen Zeilen Daten fehlen. Das mag in Ordnung sein, aber vielleicht auch nicht, abhängig von Ihren Handlungen.
Einstellen von Achse = "Spalten" erzielt stattdessen das gleiche Ergebnis. Da die Achse = 1 und Achse = „Spalten“ äquivalent sind, wird die Menge der nicht-missigen Daten für die Zeilen bereitgestellt, wenn Sie Axis = „Spalten auswählen.”
Dies führt zum gleichen Ergebnis wie das zuvor gezeigte.
Wir raten jedoch sehr davon, diese alternative Syntax zu verwenden und stattdessen Axis = 1 zu verwenden.
Abschluss
In diesem Artikel haben wir gelernt, wie man Werte in einem Pandas -Datenframe zählt. Der Pandas DataFrame.count () Methode hilft bei unserer Analyse der Zahlen im Python -Datenframe. Wir haben zuerst einen Datenrahmen unter Verwendung der PANDAS -Datenfunktion erstellt und dann die DataFrames Count -Methode darauf angewendet. Anschließend erklärten wir, dass Sie die Daten in Spalten und Zeilen zählten. Wir hoffen, dass dieser Artikel Ihr Wissen verstärkt.