PYSPARK - Pandas DataFrame -Aggregat -Funktionen

PYSPARK - Pandas DataFrame -Aggregat -Funktionen
„In Python ist PySpark ein Spark -Modul, das eine ähnliche Art von Verarbeitung wie Spark unter Verwendung von DataFrame bietet, mit dem die angegebenen Daten im Zeilen- und Spaltenformat gespeichert sind.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Datenframe

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir mit vier Spalten und fünf Zeilen einen Pandas -Datenframe über pyspark.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Anzeige
print (pyspark_pandas)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

Aggregatfunktionen werden verwendet, um Aggregationsvorgänge wie Summe (), min (), Mean () und max () auszuführen.Diese Operationen funktionieren nur auf numerischen Daten wie Ganzzahl, Doppel usw.

Lassen Sie uns sie einzeln sehen.

PYSPARK.Pandas.Datenrahmen.Summe()

sum () im pyspark pandas dataframe wird verwendet, um die Gesamtsumme über die Zeilen und Spalten zurückzugeben.

Wenn Sie die Summe in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie die Summe über jede Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.

Syntax

pyspark_pandas.sum (axis = 0/axis = 1)

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es dauert nur einen Parameter.

AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.

Beispiel 1
In diesem Beispiel werden wir die Gesamtsumme in jeder Reihe zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform
print (pyspark_pandas.sum (axis = 1))

Ausgang

0 281
1 237
2 284
3 240
4 231
DTYPE: INT64

Wir können sehen, dass die Summenoperation in jeder Reihe durchgeführt wird.

Wie erste Zeile - 90+100+91 = 281.

Beispiel 2
In diesem Beispiel werden wir die Gesamtsumme in jeder Spalte zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform SUM () Aggregationsbetriebsäule weise

Ausgang

Mark1 379
Mark2 429
Mark3 465
DTYPE: INT64

Wir können sehen, dass die Summenoperation in jeder Spalte durchgeführt wird.

Wie für die Mark1 -Spalte - 90+78+90+54+67 = 379.

PYSPARK.Pandas.Datenrahmen.bedeuten()

Mean () im PYSPARK Pandas DataFrame wird verwendet, um den Gesamtdurchschnitt über die Zeilen und Spalten zurückzugeben.

Wenn Sie den Durchschnitt in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie den Durchschnitt in jeder Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.

Syntax

pyspark_pandas.Mittelwert (Achse = 0/Achse = 1)

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter

Es dauert nur einen Parameter.

AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.

Beispiel 1
In diesem Beispiel werden wir den Gesamtdurchschnitt in jeder Reihe zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform Mean () Aggregation Operation Row weise
print (pyspark_pandas.Mittelwert (Achse = 1))

Ausgang

0 93.666667
1 79.000000
2 94.666667
3 80.000000
4 77.000000
DTYPE: Float64

Wir können sehen, dass der durchschnittliche Betrieb in jeder Reihe durchgeführt wird.

Wie erste Reihe - (90+100+91)/3 = 93.666667

Beispiel 2
In diesem Beispiel werden wir den Gesamtdurchschnitt in jeder Spalte zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#performiform Mean () Aggregationsoperation Säule weise
print (pyspark_pandas.Mittelwert (Achse = 0))

Ausgang

Mark1 75.8
Mark2 85.8
Mark3 93.0
DTYPE: Float64

Wir können sehen, dass der durchschnittliche Betrieb in jeder Spalte durchgeführt wird.

Wie für die Mark1 -Spalte - (90+78+90+54+67)/5 = 75.8.

PYSPARK.Pandas.Datenrahmen.Mindest()

min () im pyspark pandas dataframe wird verwendet, um den minimalen Wert über die Zeilen und Spalten.

Wenn Sie den Mindestwert in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie das Minimum in jeder Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.

Syntax

pyspark_pandas.min (axis = 0/axis = 1)

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es dauert nur einen Parameter.

AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.

Beispiel 1
In diesem Beispiel geben wir den Mindestwert in jeder Zeile zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform
print (pyspark_pandas.min (axis = 1))

Ausgang

0 90
1 67
2 90
3 54
4 67
DTYPE: INT64

Wir können sehen, dass die min () Aggregation in jeder Reihe durchgeführt wird.

Wie erste Reihe - Minimum (90.100.91) = 90

Beispiel 2
In diesem Beispiel geben wir den Mindestwert für jede Spalte zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform min () Aggregationsbetriebsäule weise
print (pyspark_pandas.min (axis = 0))

Ausgang

Mark1 54
Mark2 67
Mark3 87
DTYPE: INT64

Wir können sehen, dass die min () Aggregation in jeder Säule durchgeführt wird.

Wie für die Mark1 -Spalte - min (90,78,90,54,67) = 54.

PYSPARK.Pandas.Datenrahmen.max ()

max () im pyspark pandas dataframe wird verwendet, um den maximalen Wert über die Zeilen und Spalten zu maximieren.

Wenn Sie den Maximalwert in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie das Maximum in jeder Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.

Syntax

pyspark_pandas.max (axis = 0/axis = 1)

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es dauert nur einen Parameter.

AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.

Beispiel 1
In diesem Beispiel geben wir den Maximalwert in jeder Zeile zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform
print (pyspark_pandas.max (axis = 1))

Ausgang

0 100
1 92
2 98
3 97
4 87
DTYPE: INT64

Wir können sehen, dass die Max () -Aggregation in jeder Reihe durchgeführt wird.

Wie erste Reihe - Maximum (90.100.91) = 100

Beispiel 2
In diesem Beispiel geben wir den Maximalwert in jeder Spalte zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform
print (pyspark_pandas.max (axis = 0))

Ausgang

Mark1 90
Mark2 100
Mark3 98
DTYPE: INT64

Wir können sehen, dass die Max () -Aggregation in jeder Säule durchgeführt wird.

Wie für die Mark1 -Spalte - max (90,78,90,54,67) = 90.

Abschluss

In diesem PYSPARK Pandas DataFrame -Tutorial haben wir vier verschiedene Aggregationsfunktionen im DataFrame gesehen. Es ist möglich, über Zeile und Spalten mit den Achsenparametern zu berechnen. sum () wird die Gesamtsumme zurückgeben, AVG () wird verwendet, um den Gesamtdurchschnitt zurückzugeben. Min () wird verwendet, um den Mindestwert zurückzugeben, und max () gibt den Maximalwert zurück.