Pandas -Durchschnitt

„In diesem Tutorial werden wir demonstrieren, wie die Pandas -Mean -Technik angewendet wird. Der Mittelwert der numerischen Werte in einer PANDAS -Reihe oder Pandas -Datenframe wird unter Verwendung der Funktion von Mean () bestimmt. Eines der Tools, die den Import- und Bewertungsvorgang von Daten Pandas erheblich vereinfachen, ist eines davon. Der Mittelwert für die ausgewählte Achse wird von Pandas 'DataFrame zurückgegeben.Mean () Funktion. Wenn die Methode für ein Pandas -Serienobjekt verwendet wird, erzeugt sie eine Skalarzahl, die den Durchschnitt aller Daten oder Vorkommen im Datenrahmen darstellt. Es ist üblich, dieses Tool für einen einzelnen Spaltendatenrahmen zu verwenden. Die Funktion von Mean () in Pandas kann jedoch auf den gesamten Pandas -Datenfunktionen, Serienobjekten und einzelnen Datenrahmenspalten funktionieren.”

So verwenden Sie die durchschnittliche Funktion von Pandas?

Wir müssen zuerst die Syntax verstehen, bevor wir uns mit der Verwendung der Mittelwert () -Methode befassen, um den Durchschnitt zu berechnen. Abhängig von der Art der von Ihnen verwendeten Objekt. Mean () kann auf die Datenframe-, Serien- und einzelne Spalten des Datenrahmens angewendet werden.

Syntax, um die Funktion von Mean () für Datenfunktionen zu verwenden

Im Folgenden finden Sie die Syntax, um die Funktion von Mean () auf einem Datenrahmen zu verwenden.

Syntax: df.bedeuten( )

Sie müssen Ihren Datenrahmennamen befolgt eingeben.Mean () auf die Methode aufzurufen, wenn Mean () auf einem gesamten Datenrahmen verwendet wird. Der Mittelwert () versucht standardmäßig, in jeder Spalte zu arbeiten, wenn er auf einen ganzen Datenrahmen angewendet wird. In Wirklichkeit besteht die Ausgabe jedoch normalerweise nur aus den Mitteln numerischer Variablen. Sie können auch einige zusätzliche optionale Parameter verwenden, um das Ergebnis, das wir mit der Funktion von Mean () zu erhalten, geringfügig zu verändern.

Syntax, um die Funktion von Mean () für die PANDAS -Serie zu verwenden

Bei der Anwendung der Mean () -Technik auf eine Serie ist die Syntax der eines Datenrahmens ziemlich ähnlich.

Syntax: Serie.bedeuten( )

Es gibt einige Argumente, mit denen Sie die Ergebnisse bei der Verwendung von Mean () in einer Serie ändern können, genau wie bei DataFrames.

Syntax, um die Funktion von Mean () für einzelne Spalten im Datenrahmen zu verwenden

Da DataFrame -Spalten PANDAS -Serienobjekte sind, erfordert das Anwenden von Pandas -Mittel in einer Spalte zwei Schritte: Verwenden der DOT -Syntax, um die angegebene Spalte abzurufen und dann die Funktion von Mean () aufzurufen.

Syntax: df.Spalte.bedeuten( )

Zum Beispiel würden Sie den Code „DF verwenden.Spalte.Mean () ”Wenn Ihr Datenrahmen DF genannt wird und die Spalte, in der Sie arbeiten möchten, als" Spalte "bezeichnet wird. Anschließend berechnet es den Mittelwert für genau diese eine Spalte.

Parameter

Achse: Dies ist ein Verweis auf die Achse für die Funktion, die verwendet wird.

Skippa: Es enthält keine Nullwerte in die Berechnung des Ergebnisses.

eben: Wenn die Achse ein Multiindex ist, zählt sie zusammen mit diesem Level und bricht in eine Serie zusammen.

Nur numerisch:

Es sind nur Int-, Float- und Boolesche Säulen vorhanden. Wenn keine, wird versucht, alles zu verwenden, bevor Sie einfach numerische Informationen verwenden. Nicht für die Serie verwendet.

Kehrt zurück: Wenn die Ebene angegeben ist, gibt sie den Mittelwert des Datenrahmens oder der Serie an.

Jetzt haben wir die Syntax verstanden. Lassen Sie uns also weiter in den folgenden Beispielen implementieren.

Beispiel Nr. 1: Ermitteln Sie den Durchschnittswert der DataFrame -Spalte der Spalte

Zuerst werden die Pandas und Numpy -Module importiert, dann werden wir unseren Datenrahmen erstellen. Erstellen wir einen Beispieldatenframe mit den Daten von Mitarbeitern eines Unternehmens.

Wir haben einen Datenrahmen erstellt, indem wir die PD verwenden.DataFrame () -Funktion und speicherte den Datensatz von 10 Mitarbeitern im DF -DataFrame, indem sie Parameter innerhalb der PD übergeben.DataFrame () i.e. EMP, Spalten und Index. Die Funktion print () wird verwendet, um unseren Datenrahmen zu visualisieren.

Berechnen wir den Mittelwert einer einzelnen Spalte in einem Datenrahmen. Hier finden wir den Mittelwert/Durchschnitt der Altersvariablen.

Die Altersvariable wird in diesem Fall unter Verwendung der „Punktsyntax“ abgerufen.”Wir verwenden den Code DF.Alter, um das zu erreichen. Aber kurz danach berechnen wir das Mittel mit Verwendung .bedeuten(). Dies extrahiert im Wesentlichen die Altersspalte aus dem DF -Datenframe und berechnet den Mittelwert dieser Spalte.

Beispiel Nr. 2: Finden Sie den Durchschnitt des gesamten Datenrahmens

Wenden wir als nächstes die Mean () -Methode auf einen gesamten DF -Datenrahmen an, den wir in Beispiel 1 wie folgt erstellt haben:

Das obige Skript berechnet den Mittelwert aller numerischen Spalten in unserem DF -Datenrahmen.

Das Mittelwert () -Methode berechnete den Mittelwert jeder numerischen Variablen, wenn Mean () im gesamten Datenrahmen aufgerufen wurde. Daher berechnete es das Durchschnittsalter, das Gehalt und den Bonus des DF -Datenframe. Somit beträgt die Durchschnittsalter die Durchschnittsalter 27.000000, das durchschnittliche Gehalt beträgt 17650.000000 und der durchschnittliche Bonus beträgt 2055.555556.

Beispiel Nr. 3: Ermitteln Sie den Durchschnitt des Datenrahmens, einschließlich fehlender Werte

Haben Sie festgestellt, dass in unserem DF -Datenfreame die gleichen fehlenden Werte enthalten? Die Skipna -Option von Mean () ist immer standardmäßig als Skipna = true konfiguriert. Pandas mean () ignoriert fehlende Werte, wenn die Skizzoption auf true eingestellt ist. Durch Angeben von Skipna = False können wir das deaktivieren.

Der Mittelwert der Spalten mit fehlenden Werten ist NAN.

Alters- und Bonus -Säulenmittel sind beide nan. Dies ist auf fehlende Werte in den Alters- und Bonusvariablen zurückzuführen, die jetzt in die Ausgabe aufgenommen wurden. Sie könnten diese Werte überspringen, wenn eine Variable sie hat, indem Sie Skipna = true einstellen. Alternativ möchten Sie die Pandas Fillna -Methode verwenden, um die fehlenden Werte auszufüllen.

Beispiel Nr. 4: Finden Sie den Durchschnitt, der nach einer kategorialen Variablen gruppiert ist

Hier wird das mittlere Gehalt durch Bonus berechnet. Dies beinhaltete einige Schritte:

1. Gruppieren Sie die Daten nach Bonus mit GroupBy ()
2. Die Gehaltsvariable abrufen
3. Rufen Sie die Funktion von Mean () auf

Wie Sie sehen können, verwenden Sie .GroupBy ([Bonus]) hat die Werte des Bonus als Gruppe konvertiert, bei denen der Datenwert mehr als einmal auftrat (2000 trat dreimal auf). Der Code df.GroupBy (['Bonus']).Gehalt.Mean () berechnete den Durchschnitt der Gehaltswerte gegen die gruppierten Werte der Bonusvariablen.

Beispiel 5: Berechnen Sie den bedingten Mittelwert für die kategoriale Variable

Der gleiche DF -Datenrahmen wird auch in diesem Beispiel verwendet. Der folgende Code zeigt, wie der Durchschnitt für die Spalte „Gehalt“ nur für die Zeilen des Datenrahmens ermittelt wird, wenn die Spalte „Bonus“ einen Wert von mehr als 1800 hat.

Auf eine Reihe von Zeilen und Spalten kann mit dem DF zugegriffen werden. loc [] Eigenschaft nach Etiketten. Im obigen Cod. Dies bedeutet das durchschnittliche Gehalt dieser Personen/Mitarbeiter, deren Bonus größer als 1800 liegt.0.

Abschluss

Um den Durchschnittswert einer PANDAS -Reihe oder eines Datenrahmens zu bestimmen, verwenden wir die Methode Mean (). Sie sollten jetzt ein besseres Verständnis für die Arbeit der Pandas -Meaning -Methode haben, nachdem Sie diesen Artikel durchlaufen haben. Um den Durchschnittswert eines PANDAS -Datenframe oder der Serie zu bestimmen, wird die Methode Mean () verwendet. Mit den Beispielen haben wir versucht, Ihnen beizubringen, wie Sie den Durchschnitt einer Spalte in einem Datenrahmen finden, den durchschnittlichen durch eine kategoriale Variablen gruppierte Fundierung und den Bedingungsmittel unter Verwendung der Funktion von Mean () zusammenfassen.

Golang

Einführung in die Golang -Programmiersprache

Golang ist eine von Google entwickelte Open-Source-Programmiersprache. Befolgen Sie diesen Artikel, ...

Prof. Dr. Julien Plank

Linux -Befehle

So lassen Sie die Version von CUDA unter Linux installiert

Umfassendes Tutorial, wie Sie die Versionen von CUDA herausfinden, die von den derzeit installierten...

Fr. Chris Frisch

Linux -Befehle

So installieren und aktivieren Sie die SSH-Multi-Faktor-Authentifizierung für Linux-Systeme

Tutorial zum Installieren und Aktivieren von MFA für SSH -Zugriff auf Linux -Systemen, indem eine un...

Gian Eisenlauer