PYSPARK - PANDAS -Serie Kumulative Operationen

PYSPARK - PANDAS -Serie Kumulative Operationen
„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark verwendet wird, die die angegebenen Daten in einem Array speichert (Spalte in PySpark intern).

PYSPARK - PANDAS -Serie repräsentiert die PANDAS.

Pandas unterstützt die Datenstruktur der Serie und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir die Serie aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Serien

PYSPARK.Pandas.Serie()

Wir können eine Liste oder Liste der Listen mit Werten übergeben.

Erstellen wir eine Pandas -Serie über PYSPARK mit fünf numerischen Werten.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
print (pyspark_series)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

Kumulative Operationen werden verwendet, um kumulative Ergebnisse über die Werte in der PYSPARK PANDAS -Reihe zurückzugeben.

Lassen Sie uns sie einzeln sehen.

PYSPARK.Pandas.Serie.Cumsum ()

cumsum () gibt die kumulative Summe der Serie für jedes Element zurück. Es kann auf die gesamte PYSPARK PANDAS -Serie angewendet werden.

Syntax

PYSPARK_SERIES.Cumsum ()

Wo pyspark_series die pyspark pandas -Serie ist

Beispiel
In diesem Beispiel werden wir eine kumulative Summenoperation in der Serie durchführen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Kumulative Summe
print (pyspark_series.Cumsum ())

Ausgang

Arbeiten:
90
90+56 = 146
90+56+78 = 224
90+56+78+54 = 278
90+56+78+54+0 = 278

PYSPARK.Pandas.Serie.cumprod ()

Cumprod () gibt das kumulative Produkt der Serie für jedes Element zurück. Es kann auf die gesamte PYSPARK PANDAS -Serie angewendet werden.

Syntax

PYSPARK_SERIES.cumprod ()

Wo pyspark_series die pyspark pandas -Serie ist

Beispiel
In diesem Beispiel werden wir einen kumulativen Produktbetrieb in der Serie durchführen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return Cumulative Produkt
print (pyspark_series.cumprod ())

Ausgang

Arbeiten:
90
90*56 = 5040
90*56*78 = 393120
90*56*78*54 = 21228480
90*56*78*54*0 = 0

PYSPARK.Pandas.Serie.Cummin ()

Cummin () gibt den kumulativen Mindestwert der Serie für jedes Element zurück. Es kann auf die gesamte PYSPARK PANDAS -Serie angewendet werden.

Syntax

PYSPARK_SERIES.Cummin ()

Wo pyspark_series die pyspark pandas -Serie ist

Beispiel
In diesem Beispiel werden wir einen kumulativen Min -Operation in der Serie durchführen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Kumulatives Minimum
print (pyspark_series.Cummin ())

Ausgang

Arbeiten:
90
Minimum (90,56) = 56
Minimum (90,56,78) = 56
Minimum (90,56,78,54) = 54
Minimum (90,56,78,54,0) = 0

PYSPARK.Pandas.Serie.Cummin ()

Cummin () gibt den kumulativen Mindestwert der Serie für jedes Element zurück. Es kann auf die gesamte PYSPARK PANDAS -Serie angewendet werden.

Syntax

PYSPARK_SERIES.Cummax ()

Wo pyspark_series die pyspark pandas -Serie ist

Beispiel
In diesem Beispiel werden wir in der Serie eine kumulative maximale Operation durchführen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#RETUMN CUMULATIVE MAXIMUM
print (pyspark_series.Cummax ())

Ausgang

Arbeiten:
90
Maximum (90,56) = 90
Maximum (90,56,78) = 90
Maximum (90,56,78,54) = 90
Maximum (90,56,78,54,0) = 90

Abschluss

In diesem PYSPARK PANDAS -Tutorial diskutierten wir kumulative Operationen, die in der PYSPARK PANDAS -Serie durchgeführt wurden. Cumsum () wird verwendet, um die kumulative Summe zurückzugeben, Cumprod () wird verwendet, um das kumulative Produkt in, Cummin () zurückzugeben.