PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von PANDAS -Datenframe
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir mit drei Spalten und fünf Zeilen einen Pandas -Datenframe über PYSPARK.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
Kumulative Operationen werden verwendet, um kumulative Ergebnisse über die Säulen im PYSPARK Pandas -Datenframe hinweg zurückzugeben.
Lassen Sie uns sie einzeln sehen.
PYSPARK.Pandas.Datenrahmen.Cumsum ()
cumsum () gibt die kumulative Summe in jeder Spalte zurück. Es kann auf den gesamten pyspark pandas DataFrame oder auf eine einzelne Spalte angewendet werden.
Syntax
Auf dem gesamten Datenrahmen
pyspark_pandas.Cumsum ()Auf bestimmte Spalte
pyspark_pandas.Spalte.Cumsum ()Wobei pyspark_pandas der pyspark pandas, DataFrame und Spalte ist, siehe den Spaltennamen.
Beispiel 1
In diesem Beispiel werden wir Cumsum () in der Mark2 -Spalte durchführen.
Ausgang
Kumulative Summenoperation in Mark2 -Spalte
100 = 100Beispiel 2
In diesem Beispiel werden wir Cumsum () auf dem gesamten PYSPARK PANDAS -Datenframe durchführen.
Ausgang
Wir können sehen, dass die kumulative Summe in jeder Spalte zurückgegeben wird.
PYSPARK.Pandas.Datenrahmen.cumprod ()
cumprod () gibt das kumulative Produkt in jeder Spalte zurück. Es kann auf den gesamten PySpark Pandas DataFrame oder in einer einzelnen Spalte angewendet werden.
Syntax
Auf dem gesamten Datenrahmen
pyspark_pandas.cumprod ()Auf bestimmte Spalte
pyspark_pandas.Spalte.cumprod ()Wobei pyspark_pandas der pyspark pandas, DataFrame und Spalte ist, siehe den Spaltennamen.
Beispiel 1
In diesem Beispiel werden wir Cumprod () in der Spalte Mark2 durchführen.
Ausgang
Kumulativer Produktbetrieb in Mark2 -Spalte arbeitet
100 = 100Beispiel 2
In diesem Beispiel werden wir Cumprod () im gesamten PySpark Pandas DataFrame durchführen.
Ausgang
Wir können sehen, dass das kumulative Produkt in jeder Spalte zurückgegeben wird.
PYSPARK.Pandas.Datenrahmen.Cummin ()
Cummin () gibt den kumulativen Mindestwert in jeder Spalte zurück. Es kann auf den gesamten PySpark Pandas DataFrame oder in einer einzelnen Spalte angewendet werden.
Syntax
Auf dem gesamten Datenrahmen
pyspark_pandas.Cummin ()Auf bestimmte Spalte
pyspark_pandas.Spalte.Cummin ()Wobei pyspark_pandas der pyspark pandas, DataFrame und Spalte ist, siehe den Spaltennamen.
Beispiel 1
In diesem Beispiel werden wir Cummin () in der Mark2 -Spalte durchführen.
Ausgang
Kumulativer Mindestbetrieb in Mark2 -Spalte
100 = 100Beispiel 2
In diesem Beispiel werden wir Cummin () im gesamten PYSPARK PANDAS -Datenfreame durchführen.
Ausgang
Wir können sehen, dass der kumulative Mindestwert in jeder Spalte zurückgegeben wird.
PYSPARK.Pandas.Datenrahmen.Cummax ()
Cummax () gibt den kumulativen Maximalwert in jeder Spalte zurück. Es kann auf den gesamten PySpark Pandas DataFrame oder in einer einzelnen Spalte angewendet werden.
Syntax
Auf dem gesamten Datenrahmen
pyspark_pandas.Cummax ()Auf bestimmte Spalte
pyspark_pandas.Spalte.Cummax ()Wobei pyspark_pandas der pyspark pandas, DataFrame und Spalte ist, siehe den Spaltennamen.
Beispiel 1
In diesem Beispiel werden wir Cummax () in der Spalte Mark2 durchführen.
Ausgang
Kumulativer maximaler Betrieb in Mark2 -Spalte funktioniert
100 = 100Beispiel 2
In diesem Beispiel werden wir Cummax () im gesamten PYSPARK PANDAS -Datenfreame durchführen.
Ausgang
Wir können sehen, dass der kumulative Maximalwert in jeder Spalte zurückgegeben wird.
Abschluss
In diesem PYSPARK PANDAS -Tutorial diskutierten wir kumulative Operationen, die auf dem PYSPARK PANDAS -Datenframe ausgeführt wurden. Cumsum () wird verwendet, um die kumulative Summe in jeder Säule zurückzugeben, Cumprod (), um das kumulative Produkt in jeder Spalte zurückzugeben, Cummin () wird verwendet, um den kumulativen Mindestwert in jeder Spalte zurückzugeben, und Cummax () wird verwendet, um zu verwendet zu werden Rückgabe des kumulativen Maximalwerts in jeder Spalte.