PYSPARK - PANDAS -Serie Aggregat -Funktionen

PYSPARK - PANDAS -Serie Aggregat -Funktionen
„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark verwendet wird, die die angegebenen Daten in einem Array speichert (Spalte in PySpark intern).

PYSPARK - PANDAS -Serie repräsentiert die PANDAS.

Pandas unterstützt die Datenstruktur der Serie und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir die Serie aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Serien

PYSPARK.Pandas.Serie()

Wir können eine Liste oder Liste der Listen mit Werten übergeben.

Erstellen wir eine Pandas -Serie über PYSPARK mit fünf numerischen Werten.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
print (pyspark_series)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

Aggregatfunktionen werden verwendet, um Aggregationsvorgänge wie Summe (), min (), Mean () und max () auszuführen.Diese Operationen funktionieren nur auf numerischen Daten wie Ganzzahl, Doppel usw

Lassen Sie uns sie einzeln sehen.

PYSPARK.Pandas.Serie.Summe()

sum () in der PYSpark Pandas -Serie wird verwendet, um die Gesamtsumme zurückzugeben.

Syntax

PYSPARK_SERIES.Summe()

Wo pyspark_series die pyspark pandas -Serie ist.

Beispiel
Return Sum.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#RETUMN SUM
print (pyspark_series.Summe())

Ausgang:

278
Arbeiten:
90+56+78+54+0 = 278.

PYSPARK.Pandas.Serie.bedeuten()

Mean () in der PYSpark Pandas -Serie wird verwendet, um den Gesamtdurchschnitt zurückzugeben.

Syntax

PYSPARK_SERIES.bedeuten()

Wo pyspark_series die pyspark pandas -Serie ist.

Beispiel
Return -Durchschnitt der oben genannten PYSPARK PANDAS -Serie.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Durchschnitt
print (pyspark_series.bedeuten())

Ausgang

55.6
Arbeiten:
(90+56+78+54+0)/5 = 55.6.

PYSPARK.Pandas.Serie.Mindest()

min () in der PYSpark Pandas -Serie wird verwendet, um den Mindestwert zurückzugeben.

Syntax

PYSPARK_SERIES.Mindest()

Wo pyspark_series die pyspark pandas -Serie ist.

Beispiel
Return Mindestwert aus der obigen PYSPARK PANDAS -Serie.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Minimum
print (pyspark_series.Mindest())

Ausgang

0
Arbeiten:
Minimum (90+56+78+54+0) = 0

PYSPARK.Pandas.Serie.max ()

max () in der pyspark pandas -Serie wird verwendet, um den Maximalwert zurückzugeben.

Syntax

PYSPARK_SERIES.max ()

Wo pyspark_series die pyspark pandas -Serie ist.

Beispiel
Return Maximal Value aus der obigen PYSPARK PANDAS -Serie.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#maximal
print (pyspark_series.max ())

Ausgang

90
Arbeiten:
Maximum (90+56+78+54+0) = 90

Abschluss

In diesem Tutorial für PYSPARK PANDAS -Serie haben wir vier verschiedene Aggregationsfunktionen in der Serie gesehen. sum () gibt die Gesamtsumme zurück, AVG () wird verwendet, um den Gesamtdurchschnitt zurückzugeben, Min (), um den Mindestwert zurückzugeben, und max () gibt den Maximalwert zurück.