PYSPARK PANDAS DataFrame Groupby

PYSPARK PANDAS DataFrame Groupby
„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark unter Verwendung von DataFrame bereitgestellt wird, mit dem die angegebenen Daten im Zeilen- und Spaltenformat gespeichert werden können.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Datenframe

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren. Nach der Gruppierung können wir statistische Operationen wie Mean (), sum (), min () und max () ausführen. Wir werden nacheinander mit GroupBy () sehen.

PYSPARK.Pandas.Datenrahmen.GroupBy () mit Mean ()

GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und die Durchschnittswerte für jede gruppierte Zeile zurückzugeben.

Syntax

pyspark_pandas.GroupBy ([Spalte/s]).bedeuten()

Wo,

  1. pyspark_pandas ist der pyspark pandas DataFrame
  2. Die Spalte ist der Spaltenname, in dem ähnliche Werte in dieser Spalte gruppiert werden

Beispiel
In diesem Beispiel werden wir den Gesamtdurchschnitt der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group von s_name und return durchschnittliche Markierungen gruppierter Zeilen
print (pyspark_pandas.GroupBy (['s_name']).bedeuten())

Ausgang

Wir können sehen, dass es zwei ähnliche Reihen gibt.

  1. RAM - 2 Werte werden gruppiert
  2. Sumita - 2 Werte werden gruppiert
  3. Sukanya - 1 Wert ist gruppiert

Danach wurde der Gesamtdurchschnitt für alle drei Spalten zurückgegeben.

PYSPARK.Pandas.Datenrahmen.GroupBy () mit sum ()

GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und die Gesamtsumme für jede gruppierte Zeile zurückzugeben.

Syntax

pyspark_pandas.GroupBy ([Spalte/s]).Summe()

Wo,

  1. pyspark_pandas ist der pyspark pandas DataFrame
  2. Die Spalte ist der Spaltenname, in dem ähnliche Werte in dieser Spalte gruppiert werden

Beispiel
In diesem Beispiel werden wir die Gesamtsumme der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group von S_NAME und Rückgabe der Summe von Noten gruppierter Zeilen
print (pyspark_pandas.GroupBy (['s_name']).Summe())

Ausgang

Wir können sehen, dass es zwei ähnliche Reihen gibt.

  1. RAM - 2 Werte werden gruppiert
  2. Sumita - 2 Werte werden gruppiert
  3. Sukanya - 1 Wert ist gruppiert

Danach wurde die Gesamtsumme für alle drei Spalten zurückgegeben.

PYSPARK.Pandas.Datenrahmen.GroupBy () mit min ()

GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und den Mindestwert für jede gruppierte Zeile zurückzugeben.

Syntax

pyspark_pandas.GroupBy ([Spalte/s]).Mindest()

Wo,

  1. pyspark_pandas ist der pyspark pandas DataFrame
  2. Die Spalte ist der Spaltenname, in dem ähnliche Werte in dieser Spalte gruppiert werden

Beispiel
In diesem Beispiel werden wir das Minimum der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group von S_NAME und Mindestnoten gruppierter Zeilen zurückgeben
print (pyspark_pandas.GroupBy (['s_name']).Mindest())

Ausgang

Wir können sehen, dass es zwei ähnliche Reihen gibt.

  1. RAM - 2 Werte werden gruppiert
  2. Sumita - 2 Werte werden gruppiert
  3. Sukanya - 1 Wert ist gruppiert

Danach wird der Mindestwert für alle drei Spalten zurückgegeben.

PYSPARK.Pandas.Datenrahmen.GroupBy () mit max ()

GroupBy () wird verwendet, um die ähnlichen Zeilen im PYSpark Pandas DataFrame zu gruppieren und den Maximalwert für jede gruppierte Zeile zurückzugeben.

Syntax

pyspark_pandas.GroupBy ([Spalte/s]).max ()

Wo,

  1. pyspark_pandas ist der pyspark pandas DataFrame
  2. Die Spalte ist der Spaltenname, in dem ähnliche Werte in dieser Spalte gruppiert werden

Beispiel
In diesem Beispiel werden wir das Maximum der aus einer Gruppe gebildeten Daten zurückgeben - S_Name -Spalte.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group von s_name und maximal maximal markierungen grupped zeilen zurückgeben
print (pyspark_pandas.GroupBy (['s_name']).max ())

Ausgang

Wir können sehen, dass es zwei ähnliche Reihen gibt.

  1. RAM - 2 Werte werden gruppiert
  2. Sumita - 2 Werte werden gruppiert
  3. Sukanya - 1 Wert ist gruppiert

Danach wird der Höchstwert für alle drei Spalten zurückgegeben.

Abschluss

In diesem PYSPARK Pandas DataFrame GroupBy () Tutorial sehen wir, was GroupBy ist und wie GroupBy () mit statistischen Funktionen wie Mean (), Min (), Max () und Sum () angewendet werden soll.