PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von PANDAS -Datenframe
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren. Nach der Gruppierung können wir statistische Operationen wie Mean (), sum (), min () und max () ausführen. Wir werden nacheinander mit GroupBy () sehen.
PYSPARK.Pandas.Datenrahmen.GroupBy () mit Mean ()
GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und die Durchschnittswerte für jede gruppierte Zeile zurückzugeben.
Syntax
pyspark_pandas.GroupBy ([Spalte/s]).bedeuten()Wo,
Beispiel
In diesem Beispiel werden wir den Gesamtdurchschnitt der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.
Ausgang
Wir können sehen, dass es zwei ähnliche Reihen gibt.
Danach wurde der Gesamtdurchschnitt für alle drei Spalten zurückgegeben.
PYSPARK.Pandas.Datenrahmen.GroupBy () mit sum ()
GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und die Gesamtsumme für jede gruppierte Zeile zurückzugeben.
Syntax
pyspark_pandas.GroupBy ([Spalte/s]).Summe()Wo,
Beispiel
In diesem Beispiel werden wir die Gesamtsumme der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.
Ausgang
Wir können sehen, dass es zwei ähnliche Reihen gibt.
Danach wurde die Gesamtsumme für alle drei Spalten zurückgegeben.
PYSPARK.Pandas.Datenrahmen.GroupBy () mit min ()
GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und den Mindestwert für jede gruppierte Zeile zurückzugeben.
Syntax
pyspark_pandas.GroupBy ([Spalte/s]).Mindest()Wo,
Beispiel
In diesem Beispiel werden wir das Minimum der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.
Ausgang
Wir können sehen, dass es zwei ähnliche Reihen gibt.
Danach wird der Mindestwert für alle drei Spalten zurückgegeben.
PYSPARK.Pandas.Datenrahmen.GroupBy () mit max ()
GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und den Maximalwert für jede gruppierte Zeile zurückzugeben.
Syntax
pyspark_pandas.GroupBy ([Spalte/s]).max ()Wo,
Beispiel
In diesem Beispiel werden wir das Maximum der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.
Ausgang
Wir können sehen, dass es zwei ähnliche Reihen gibt.
Danach wird der Höchstwert für alle drei Spalten zurückgegeben.
Abschluss
In diesem PYSPARK Pandas DataFrame GroupBy () Tutorial sehen wir, was GroupBy ist und wie GroupBy () mit statistischen Funktionen wie Mean (), Min (), Max () und Sum () angewendet werden soll.