Pandas Varianz

Pandas Varianz
"The" Pandas "ist eine Softwarebibliothek, die in der Python -Sprache für die Ausführung der Analyse und Manipulation von Daten geschrieben ist. Was ist, wenn wir den Grad der Ausbreitung in Ihrem Datenrahmen wissen möchten?? Die Varianz wird verwendet, um diese Aufgabe auszuführen. Es wird verwendet, um eine Messung zwischen Zahlen in den Daten der Spread darzustellen. Die Pandas haben die Funktion der Varianz entwickelt, die den Grad des Datensatzes ergibt. Die Funktion für die Panda -Varianz lautet "var ()". Je mehr Daten verbreitet sind, desto mehr ist die Varianz in Bezug auf den Mittelwert. Später werden wir alle Varianz der Pandas -Varianz durchführen. Für die Code-Implementierung im Beispiel werden wir die Software „Spyder“ verwenden, eine sprachfreundliche Python-Software.”

Syntax

# “DF.var () ”

Die obige Syntax wird verwendet, um die Varianz im Datenrahmen zu berechnen. Die "DF" in der Syntax repräsentiert den "DataFrame".

Wir werden die folgende Methode ausführen, um die Funktion der PANDAS -Varianz zu erläutern:

  • Pandas -Varianzberechnung für eine einzelne Spalte im Datenrahmen.
  • Pandas -Varianzberechnung einer einzelnen Spalte im Datenrahmen durch Ändern des Arguments.
  • PANDAS Varianzberechnung für mehrere Spalten im Datenrahmen.
  • PANDAS -Varianz für die Berechnung der gesamten Datenrahmenspalten.

Erstellen des Datenrahmens für die Beispielimplementierung der Pandas -Varianz

Öffnen Sie das Tool „Spyder“ auf Ihrem Desktop/Laptop. Importieren Sie nun zunächst die Pandas -Bibliothek als „PD“, während wir in der Umgebung des Pandas laufen. Lassen Sie uns einen Datenrahmen erstellen. Das "DF" besteht aus den Namen "Tom", "Eddie", "Sam", "Leo" und "Nick" mit ihren Altersgruppen als "25", "44", "66", "55" und "78" ”. Wir haben die fehlenden Daten des Alters als "20", "30", "40", "50" und "Fehlender Wert". Außerdem haben wir ihre Einkommen im DataFrame als "78000", "70000", "66000" , "33000" und "68000". Und dann drucken wir den „DF“.

Der DataFrame wird erstellt, sobald die Anzeige die Spalten und den im Code zugewiesenen Wert angezeigt wird. Wir sehen.

Beispiel Nr. 01: PANDAS -Varianzberechnung für eine einzelne Spalte im Datenrahmen

In diesem Fall werden wir die Varianz einer einzelnen Spalte aus dem DataFrame bestimmen. Das "DF" besteht aus den vier Spalten "Namen", "Alter", "fehlende Daten" und dem "Einkommen". Die Namen sind "Will", "Tina", "Lily", "Sea" und "Swany", ihre Altersgruppen sind "33", "45", "35", "85" und "78". Die fehlenden Zeiten haben die Werte als "30", "40", "60", "80" und den fehlenden Begriff "Keine". Ihre Einkommen sind "99000", "88000", "77000", "55000" und "68000". Da wir eine einzelne Spaltenvarianz berechnen, müssen wir einen Spaltennamen mit der Varianz angeben, z. B. "Income_Varience". Hier wird die Spalte „Einkommen“ für die Berechnung der Varianz ausgewählt. Die Funktion var () mit der angegebenen "DF" und der Einkommensspalte.

Die Ausgabe zeigt die berechnete Varianz der Spalte „Einkommen“ an, indem die Funktion pandas var () verwendet wird.

Beispiel # 02: PANDAS -Varianzberechnung der einzelnen Spalte im Datenrahmen mit DDOF

Hier werden wir das DDOF -Argument für die Berechnung der Varianz in einer einzelnen Spalte verwenden. Im DataFrame besteht der DataFrame aus den Namen "Shein", "Rose", "Allen", "Wilson" und "Dom" The Ewles als "44", "23", "55", "36" und "Dom" "41". Das Einkommen als "39000", "8400", "57000", "54000" und "55000" und die Datenspalte für fehlende Altersdaten als "20", "22", "23", "25" und "None ”. Die Frage beginnt mit der Verwendung des Arguments, das sich zu „0“ ändert. Die Antwort ist, dass die PANDAS-Standardeinstellung als N-1 als "Nenner" eingerichtet ist. Wenn wir das „N“ als Nenner verwenden wollen, müssen wir das „DDOF“ -Argument verwenden und seinen Wert auf “ändern“ ändern “auf“ ändern “. 0 "statt" 1 ".

Das „von“ ist die Abkürzung von „Delta -Freiheitsgrad“, es wirkt als der in der Berechnung verwendete Divisor als „n“, wo es die Anzahl der Elemente darstellt. Hier kann auch die Spalte nach der Wahl Ihrer Arbeit ausgewählt werden. Nach den erforderlichen Arbeiten können wir die Varianz aller Spalten berechnen, die aus numerischen Werten bestehen. Die Spalte „Einkommen“ wird auch hier ausgewählt, um die Varianz zu berechnen.

Die Anzeige zeigt die berechnete Varianz des Spalteneinkommens als „212560000“ an, indem das Argument DDOF auf „0“ eingestellt ist:

Beispiel Nr. 03: PANDAS -Varianz für die Berechnung der mehreren Spalten im Datenrahmen

Im ersten Beispiel haben wir das Beispiel für die Berechnung der Varianz in Pandas der einzelnen Spalte im DataFrame getan. Jetzt werden wir die Varianz in mehreren Spalten berechnen, indem wir die Funktion pandas var () verwenden. Der DataFrame besteht aus Namen als "Nina", "Ruby", "Ali", "Peter" und "Lisa" mit den Altersgruppen "55", "85", "45", "31" und "51". Die fehlenden Wertdaten des Alters haben die Werte als "21", "32", "20", "36" und den fehlenden Begriff. Wir haben das Einkommen dieser Personen als "70000", "47000", "62000", "45000" und "56000".

Wir haben die Spalten "Alter" und die Spalte "Einkommen" für die Varianzberechnung in Pandas ausgewählt. Wir können die Spalten entscheiden und sie eingeben, um die Varianz gemäß weiterer Analyseleistung zu berechnen.

Die Ausgabe besteht aus der berechneten Varianz der Spalte „Alter“ bzw. der Spalte „Einkommen“. Wir können sehen, dass die Varianz verschiedener Spalten getrennt mit ihren Spaltennamen angezeigt wird.

Beispiel Nr. 04: PANDAS -Varianz für die Berechnung der gesamten Datenrahmenspalten

In diesem Beispiel werden wir die Funktion pandas var () zur Berechnung der Varianz im gesamten Datenrahmen implementieren. Die Daten hier enthält die Namen "Fiona", "Zayn", "Steeve", "Henry" und "Olive", die ihre Altersgruppen "18", "25", "35", "36" und "56" sind. In der Spalte fehlende Altersfehlern enthält die Werte "14", "12", "30", "16" und "None". Ihr Einkommen beträgt "80000", "38000", "33000", "95000" und "78000".

Die grundlegende Syntax wird für jede Spalte der DataFrame -Varianzberechnung verwendet. Der DataFrame hat die gesamte Spalte mit der Funktion „var ()“ ausgewählt. In der Anweisung für Druckvarianz werden alle berechneten Abweichungen gedruckt.

Die Ausgabe zeigt die Varianzberechnungen der Spalten des Datenrahmens an, die sich in numerischen Werten befanden. Wie "Alter", "fehlende Altersgruppen" und die Spalte "Einkommen". Die Spalte des Namens hat die Zeichen, sodass ihre Varianz nicht berechnet werden kann.

Abschluss

Die Pandas -Varianz ist eine sehr hilfreiche, aber sehr technische Funktion. Es hilft, die Varianz sehr einfach zu berechnen, indem die Funktion var () von Pandas verwendet wird. In diesem Artikel haben wir alle Methoden mit einer Beispielausführung von jedem für ein besseres Verständnis gelernt. Wir haben die Einspaltberechnung der Varianz in Pandas, Multiple-Säulen-Varianzberechnungen in PANDAS, die mit der Änderung des Arguments aus der Standardeinstellung und auch der Varianzberechnungserwartung im vollständigen Datenfeld durchgeführt. Jeder von ihnen ist für sich selbst sehr nützlich, je nach Verwendung und Bedingung durch die Notwendigkeit der Zeit.