Pandas Summary Statistics

Pandas Summary Statistics
„Pandas“ ist eine großartige Sprache für die Ausführung der Datenanalyse aufgrund seines großen Ökosystems datenzentrierter Pythonpakete. Das erleichtert die Analyse und Import beider Faktoren. Der PANDAS -Datenfreame bietet auch Möglichkeiten, die im DataFrame vorhandenen numerischen Werte zusammenzufassen. Beachten Sie, dass es wichtig ist, die Statistikzusammenfassung in jedem Bereich für weitere Datenleistungsanalyse gemäß den Statistiken zu erhalten. Die Statistikberechnungen umfassen den arithmetischen Mittelwert wie die Standorte oder die Wiederbelebung der Tendenzen, die Standardabweichung, die mittlere Abweichung gemäß der Datenform und misst die Bewertung gemäß dem Datenframe. Wir werden alle Methoden der Berechnung der Zusammenfassungsstatistik in Pandas diskutieren. Wir werden das "Spyder" -Tool für die Code-Implementierung verwenden, bei dem es sich um eine sprachfreundliche „Python“ handelt.

Syntax:

„Statistik = df.Beschreiben (Wert) ”

Die vorherige Syntax wird verwendet, um die zusammenfassenden Statistiken in Pandas zu berechnen. Die "DF" in der Syntax repräsentiert den "DataFrame". Während die "Beschreibung" in der spezifischen Zeile oder in der Spalte verwendet wird, die den "DF" definiert. Der „Wert“ ist der Wert der Zeile oder der Spalte, in der die Funktion ausgeführt werden muss, die der Statistik zugewiesen wurde. Die Funktion ".beschreiben () ”gibt die Ausgabeergebnisse wie das im Datenrahmen angezeigte große Format an. Die Methode führt die Zusammenfassungsstatistiken im Datenrahmen der enthaltenen numerischen Spalten aus. Zu den Methoden gehören „Mittelwert“, „eindeutige Werte“, „min“, „max“ und „zählen“.

Hier werden die folgenden Möglichkeiten gezeigt, auf denen die Zusammenfassungsstatistiken zu Pandas durchgeführt werden können. Wir werden jeden von ihnen im Beispiel für ein besseres Verständnis der Methode implementieren:

  • Zusammenfassungsstatistikberechnungen in Pandas für alle numerischen Variablen
  • Zusammenfassungsstatistikberechnung in Pandas, gruppiert nach einer Variablen
  • Zusammenfassungsstatistikberechnungen in Pandas für alle Stringvariablen

Erstellen eines Datenrahmens für die Beispielausführung der Berechnungen in Pandas Summary Statistics

Öffnen Sie zunächst das Tool „Spyder“, um den Code zu implementieren. Importieren Sie dann die Panadas -Bibliothek als "PD" und die Numpy -Bibliothek als "NP". Der Numpy wird für die numerische Berechnung verwendet. Erstellen Sie den DataFrame, der aus dem Team als „N“ und „W“ besteht, mit ihren Punktzahlen als „44“, „41“, „42“, „43“, „45“, „47“, „48“,. und "50". Die Vorlagen sind "2", "NP. Nan ”,„ 4 “,„ 5 “,„ 6 “,„ 7 “,„ 8 “und„ 9 “. Der Wert der Rebounds wird als "18", "20", "17", "16", "11", "12", "29", "NP" sein.Nan “und„ 25 “. Das „NP.nan ”ist die np für den„ numpy “und nan steht für„ nicht ein Wert “, was bedeutet, dass dort kein Wert zugewiesen ist. Geben Sie dann der Bedingung "Drucken" des Datenrahmens an. Die Funktion „print ()“ eignet sich zum Drucken der Ergebnisse des Codes und des Schreibens der Ergebnisse gemäß der Nachricht.

Die Ausgabe zeigt den erstellten DataFrame entsprechend den im Code zugewiesenen Werten an. Es gibt die "vier" Spalten: das Team, die Punktzahlen, die Vorlagen und die Rebounds.

Beispiel # 01: Zusammenfassung Statistikberechnungen in Pandas für alle numerischen Variablen

In diesem Beispiel lernen wir, wie die Zusammenfassungsstatistiken in Pandas für alle numerischen Variablen berechnet werden können. Der DataFrame besteht aus dem Team als „O“ und „V“; Sie erzielten "45", "88", "25", "55", "24", "78", "87", "40" und "20". Die Vorlagen sind "2", "11", "1", "3", "6", "4", "2", "10" und "NP".Nan ”. Die Rebounds sind "31", "32", "33", "34", "35", "37", "38", "Null" und "39". Die Datenfunktion „Beschreiben“ berechnet die numerische Variable im Datenrahmen der PANDAS -Zusammenfassungsstatistik.

Die Ausgabe zeigt die Spalten numerischer Spalten an, die "Bewertungen", "Assists" und "Rebounds" sind. Die Anzahl leistet die Arbeit, die Werte „nicht null“ zu zählen. Der Mittelwert ist für die "Mittelwert" -Werte, STD für die Berechnung der Standardabweichungswerte, der min für den min -Wert, was die Berechnung der Mindestwerte bedeutet, und die max. Für die Maximalwertberechnung, 25 Prozent, 50 Prozent, und 75 Prozent betragen die Werteüberlegungen.

Beispiel Nr. 02: Berechnung der Zusammenfassungsstatistik in Pandas für die Gruppierung durch eine Variable:

Wir werden die Gruppenberechnung durch eine Variable im Datenrahmen der Zusammenfassungsstatistik in Pandas in diesem Beispiel ausführen. Der DataFrame besteht aus den beiden Teams als "M" und "Q" mit ihren Punktzahlen als "59", "58", "56", "50", "51", "53", "54" und "55" ”. Die Assists schätzen als "Null", "7", "17", "18", "5", "3", "6", "21" und "15". Die Rebounds schätzen "81", "82", "60", "30", "24", "97", "56", "Null" und "71". Die Gruppe von GroupBy mit Teameinnahmen ist die Bedingung, die mit der Berechnung „Punkt“ „Mean ()“ übergeben wird, die uns zu den Ergebnissen der Pandas -Zusammenfassungsstatistik bringt. Hier wird der Mittelwert mit dem „Numpy“ zur Berechnung des laufenden Numpy -Arrays berechnet.

Der Ausgang zeigt die Berechnung der Zusammenfassungsstatistiken in Pandas an. Die „M'- und„ Q “-Teams, die mit den Berechnungen als Oberseite die Werte aufweisen, die am häufigsten im„ DF “auftreten "Einzigartig" wird für die eindeutigsten Werte im DataFrame verwendet. Das sind die Hintergrundvorgänge für die Berechnung des Groupby für alle Variablen in zusammenfassenden Statistiken von Pandas.

Beispiel # 03: Zusammenfassung Statistikberechnungen in Pandas für alle Zeichenfolgevariablen

In diesem Beispiel werden wir die Berechnung aller String -Variablen in den Pandas für die Zusammenfassungsstatistik implementieren. Der DataFrame hat die Teams als "S" und "D". Die Punktzahlen der Teams sind "59", "53", "96", "80", "85", "62", "27", "22" und "21". Die Assistswerte werden als "null", "8", "27", "50", "15", "31", "61", "11" und "17" und die Rebounds bestehen aus den Werten "70" "," 84 "," 30 "," 20 "," 94 "," 95 "," 90 "," Null "bzw." 91 ". Die Bedingung wird für die Berechnung, die im DataFrame durchgeführt wird, ohnmächtig, in dem die Funktion „Beschreibung“ und in der Klammer „inklusive“ gleich dem „Objekt“ entspricht. Dies liefert uns den berechneten Datenrahmen aller String -Variablen in zusammenfassenden Statistiken von Pandas.

Die Produkte kamen als medianer Wert für die Spalten von „Punkten“, „Rebounds“ und den String -Variablen „Assists“, die von der Variablen „Team“ zusammengefasst wurden, auf String -Variablen zusammengefasst. Die Ausgabe ist so "zählen, einzigartig, ober, freq" ihre Werte sind "9", "2", "D" und "5".

Abschluss

Pandas sind in der Bibliothek schnell und einfach zu bedienen. Die Pandas -Zusammenfassungsstatistik ist eine so hilfreiche und nützliche Funktion, die wir in den Pandas verwendet haben. Es hat verschiedene Methoden für verschiedene Situationen entwickelt. Wir haben alle Möglichkeiten ausgeführt, wie die Pandas -Zusammenfassungsstatistiken im Datenrahmen berechnet werden können. Das vorherige Beispiel lieferte eine große Erklärung, wie jeder von ihnen auszuführen ist. Wir haben die Berechnung der Statistikzusammenfassung in Pandas für die im DataFrame enthalten die numerischen Werte im Datenrahmen. Zusammenfassende Statistikberechnungen spielen eine große Rolle in Branchen und Unternehmen.