Pandas Groupby Durchschnitt

Pandas Groupby Durchschnitt

Wenn wir zwei oder mehr Werte zusammen hinzufügen und ihre Summe durch die Gesamtzahl der addierten Werte geteilt wird, ist das Ergebnis durchschnittlich. Pandas bedeutet, dass der Durchschnitt des Daten oder des Wertes entlang einer bestimmten Achse zurückgibt. Eine Serie mit dem Durchschnitt über eine Achse wird von Pandas zurückgegeben, wenn die Methode von Mean () auf einen Datenrahmen angewendet wird. Pandas gibt einen numerischen Wert (Einzelzahl) zurück, wenn „Mean ()“ in einer Serie verwendet wird. Die Funktionen können nach dem Erstellen der Kategoriengruppen auf die Kategorien angewendet werden. Es ist eine einfache Idee, aber eine hochwirksame Technik, die häufig in der Data Science angewendet wird. Es ermöglicht uns, eine Zusammenfassung der Daten für jede Gruppe zu erstellen, Gruppenspezifische Änderungen anzuwenden und Datenfiltration durchzuführen. Mit der Funktion "GroupBy () kann das Objekt geteilt werden, eine Funktion kann angewendet werden und die Produkte können dann kombiniert werden. Damit können große Datensätze gruppiert werden, und Operationen können in den Gruppen durchgeführt werden.

Wie man den Groupby benutzt.Mean () Methode in Pandas?

Um den Durchschnitt eines Datenrahmens oder des Durchschnitts bestimmter Spalten eines Datenrahmens zu berechnen, können wir den GroupBy verwenden.Mean () Funktion. Wir werden zeigen, wie man es in den folgenden Beispielen verwendet.

Beispiel Nr. 01: Bestimmen Sie den Durchschnitt einer einzelnen Ganzzahlspalte, indem Sie die Daten einer einzelnen Spalte gruppieren

Verwenden der PD.DataFrame () -Funktion, wir erstellen zunächst einen Datenrahmen, damit wir die Daten der Spalte oder der Spalten des Datenrahmens in Gruppen unterteilen und dann ihren Mittelwert finden können. Vor dem Erstellen des Datenrahmens müssen wir das Pandas -Modul zusammen mit der Numpy -Bibliothek importieren.

Wie zu sehen ist, haben wir unseren Datenrahmen mit dem Pandas Dictionary erstellt. Wir haben 3 Spalten in unserem DF -Datenframe, ich.e., "Artikel", "Hersteller" und "Menge". In der Spalte "Gegenstände" haben wir die Werte ("Hemd", "Krawatte", "Hosen", "Hemd", "Krawatte", "Hose", "Hemd", "Hosen", "Hosen", "" gespeichert. Krawatte '), während die Säulen' Hersteller 'und' Menge 'die Werte (' Italien ',' Frankreich ',' China ',' Frankreich ',' China ',' Italy ',' China ',' Italy ', enthält, während die Werte (' Italien ', Frankreich', 'Italien' enthalten. 'Frankreich', 'China') und (13, 16, 21, 32, 26, 41, 24, 42, 12, 15). Gruppieren wir die Werte in der Herstellerspalte und bestimmen den mittleren Mengenwert für jeden bestimmten Hersteller.

Der Herstellerwert 'China' hat einen mittleren Mengenwert von 21.5, der mittlere Mengenwert für 'Frankreich' beträgt 20.0, und der mittlere Mengenwert für 'Italien' beträgt 32.0. Wir können auch einen Index für die Ausgabe angeben, indem wir die Funktion reset_index mit dem GroupBy verwenden.Mean () Funktion.

Beispiel Nr. 02: Ermitteln Sie den Mittelwert einer einzelnen Float -Spalte, indem Sie die Daten einer einzelnen Spalte gruppieren

Wir haben gesehen, wie wir nach dem Gruppen der Daten den Mittelwert der Ganzzahlspalte finden können. Versuchen wir nun eine andere Datentypenspalte wie Float. Ein Datenrahmen mit mindestens einer Spalte mit Float -Werten wird mit der PD erstellt.DataFrame () -Funktion.

Indem Sie ein Wörterbuch in die PD legen.DataFrame () haben wir einen Datenrahmen mit drei Spalten erstellt. Die Spalte "Name" speichert die Namen einiger zufälliger Spieler ("Sam", "Jay", "Leo", "Mike", "Will", "Billy", "Jhonny", "Lara", "Hanna", 'Tony'), das Kolumnen -Team, das das Team repräsentiert, von dem jeder Spieler gehört ('a', 'a', 'B', 'A', 'B', 'A', 'C', B ',' C ',' c ') und die Spalte' Höhe 'speichert die Höhen jedes Spielers als Schwimmerwert (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Gruppieren wir die Daten in der Spalte "Team" und bestimmen den mittleren Höhenwert für jeden einzelnen "Team" -Wertwert.

Sie können sehen, dass der durchschnittliche Höhenwert des Teams A -Spieler 5 beträgt.65, während die durchschnittlichen Höhen der Spieler in den Teams B und C 5 sind.866 und 5.6.

Beispiel Nr. 03: Bestimmen Sie den Mittelwert mehrerer Spalten mit dem GroupBy.Mean () Funktion

In den vorherigen Beispielen haben wir den Durchschnitt einer einzelnen Spalte bestimmt. Der Mittelwert zahlreicher Spalten für jede Gruppe kann jedoch auch bestimmt werden. Erstellen wir einen Datenrahmen mit mehr als einer numerischen Spalte, nachdem Sie die Pandas- und Numpy -Module importiert haben.

Im neu erstellten DataFrame gibt es drei Spalten mit den Bezeichnungen "Name", "Score" und "Übereinstimmungen". Die Spaltennamen mit den Datenwerten als String ('ron', 'jim', 'dany', 'jim', 'jim', 'dany', 'ron', 'ron', 'dany', 'jim' ), während die "Punktzahl" und "Übereinstimmungen" aus numerischen Daten als (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) und (2, 3, 1, 2, 1, 3, 3 bestehen , 4, 1, 2, 1). Lassen Sie uns nun den Mittelwert der Spalte "Score" und "Übereinstimmungen" finden, nachdem die Daten des Spaltennamens gruppiert wurden. Der Groupby.dafür wird die Mittelwert () -Funktion verwendet.

Es ist zu bemerken, dass die Gruppe 'Dany' eine durchschnittliche Punktzahl von 2 hat.66 in 2.00 Übereinstimmungen. Die Gruppe Jim hat eine durchschnittliche Punktzahl von 2.75 und der Durchschnittswert der gespielten Spiele beträgt 1.75. Während die Gruppe 'Ron' einen mittleren Punktzahl von 2 hat.66 und der Mittelwert der gespielten Spiele beträgt 2.33.

Der Durchschnitt einer Gruppe von Kategorien durch das Objekt kann auch mit der Agg () -Methode berechnet werden. Wir werden den Mittelwert als Argument für die Agg () -Funktion liefern. Um mit einzelnen oder mehreren Operationen über die angegebene Achse zu aggregieren, können wir die AGG () -Funktion verwenden.

Die Ausgabe ist der gleiche wie zuvor.

Beispiel Nr. 04: Bestimmen Sie den Mittelwert spezifischer Spalten, indem Sie die mehreren Spalten gruppieren

In Beispielen 1, 2 und 3 haben wir die Werte oder Daten einer einzelnen Spalte gruppiert. Jetzt werden wir mehrere Spalten gruppieren, indem wir die Liste der Spaltenbezeichnungen in der Funktion GroupBy () verwenden, und dann finden wir den Durchschnittswert für jede Gruppe. Ein Wörterbuch 'D' wird in der PD weitergeleitet.DataFrame () -Funktion als Eingabe zum Erstellen des DataFrame.

Wir haben den erforderlichen Datenrahmen erstellt. Die Kolumne "Sport" speichert den Namen einiger Sportarten ("Badminton", "Fußball", "Tennis", "Basketball", "Fußball", "Tennis", "Basketball", "Fußball", "Badminton", " Basketball "," Basketball "," Tennis "), die Namen der Länder (" China "," Russland "," Italien "," Spanien "," Russland "," Italien "," China "," Italien ",", " Spanien "," China "," Russland "," Italien ") werden in der Kolumne" Land "gespeichert. Während wir in der Spalte 'Win' die Anzahl der von jedem Land in jedem Sport gewonnenen Spielen gespeichert haben (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). Lassen Sie uns den Groupby verwenden.Mean () Funktion, um den Mittelwert der Spaltenwerte "Gewinn" zu finden, indem die Spalten "Sport" und "Land" gruppiert werden.

Die Funktion hat erfolgreich die Durchschnittswerte der "Win" -Stäulenwerte für jeden Sport im Land bestimmt. Der gruppy-by-Datenframe kann mithilfe der Funktion reset_index () zurückgesetzt werden, die ebenfalls einen neuen Index generiert, wodurch eine geeignete Datenframestruktur angezeigt wird.

Für die Zeile jedes Datenrahmens wird ein Index hinzugefügt. Um die Ergebnisse in einer attraktiven Tabelle zu ordnen, können wir auch die Pivot () -Funktion verwenden.

Abschluss

In diesem Tutorial haben wir diskutiert, was der Mittelwert oder der Durchschnitt der Zahlen ist und wie wir den Mittelwert einer bestimmten Spalte (eine oder mehrere) nach Gruppierung der Spalte oder Spalten eines Datenrahmens finden können. In diesem Artikel haben wir einige Beispiele implementiert, um Ihnen beizubringen, wie Sie den Durchschnitt einer einzelnen Ganzzahl- oder Float -Spalte bestimmen, indem Sie die Daten einer einzelnen Spalte gruppiert. So bestimmen Sie den Mittelwert mehrerer Spalten mit dem GroupBy.Mean () Funktion; und auch, wie Sie den Mittelwert spezifischer Spalten bestimmen, indem Sie die mehreren Spalten gruppieren.