PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von PANDAS -Datenframe
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir mit vier Spalten und fünf Zeilen einen Pandas -Datenframe über pyspark.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
Aggregatfunktionen werden verwendet, um Aggregationsvorgänge wie Summe (), min (), Mean () und max () auszuführen.Diese Operationen funktionieren nur auf numerischen Daten wie Ganzzahl, Doppel usw.
Lassen Sie uns sie einzeln sehen.
PYSPARK.Pandas.Datenrahmen.Summe()
sum () im pyspark pandas dataframe wird verwendet, um die Gesamtsumme über die Zeilen und Spalten zurückzugeben.
Wenn Sie die Summe in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie die Summe über jede Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.
Syntax
pyspark_pandas.sum (axis = 0/axis = 1)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es dauert nur einen Parameter.
AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.
Beispiel 1
In diesem Beispiel werden wir die Gesamtsumme in jeder Reihe zurückgeben.
Ausgang
0 281Wir können sehen, dass die Summenoperation in jeder Reihe durchgeführt wird.
Wie erste Zeile - 90+100+91 = 281.
Beispiel 2
In diesem Beispiel werden wir die Gesamtsumme in jeder Spalte zurückgeben.
Ausgang
Mark1 379Wir können sehen, dass die Summenoperation in jeder Spalte durchgeführt wird.
Wie für die Mark1 -Spalte - 90+78+90+54+67 = 379.
PYSPARK.Pandas.Datenrahmen.bedeuten()
Mean () im PYSPARK Pandas DataFrame wird verwendet, um den Gesamtdurchschnitt über die Zeilen und Spalten zurückzugeben.
Wenn Sie den Durchschnitt in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie den Durchschnitt in jeder Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.
Syntax
pyspark_pandas.Mittelwert (Achse = 0/Achse = 1)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es dauert nur einen Parameter.
AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.
Beispiel 1
In diesem Beispiel werden wir den Gesamtdurchschnitt in jeder Reihe zurückgeben.
Ausgang
0 93.666667Wir können sehen, dass der durchschnittliche Betrieb in jeder Reihe durchgeführt wird.
Wie erste Reihe - (90+100+91)/3 = 93.666667
Beispiel 2
In diesem Beispiel werden wir den Gesamtdurchschnitt in jeder Spalte zurückgeben.
Ausgang
Mark1 75.8Wir können sehen, dass der durchschnittliche Betrieb in jeder Spalte durchgeführt wird.
Wie für die Mark1 -Spalte - (90+78+90+54+67)/5 = 75.8.
PYSPARK.Pandas.Datenrahmen.Mindest()
min () im pyspark pandas dataframe wird verwendet, um den minimalen Wert über die Zeilen und Spalten.
Wenn Sie den Mindestwert in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie das Minimum in jeder Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.
Syntax
pyspark_pandas.min (axis = 0/axis = 1)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es dauert nur einen Parameter.
AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.
Beispiel 1
In diesem Beispiel geben wir den Mindestwert in jeder Zeile zurück.
Ausgang
0 90Wir können sehen, dass die min () Aggregation in jeder Reihe durchgeführt wird.
Wie erste Reihe - Minimum (90.100.91) = 90
Beispiel 2
In diesem Beispiel geben wir den Mindestwert für jede Spalte zurück.
Ausgang
Mark1 54Wir können sehen, dass die min () Aggregation in jeder Säule durchgeführt wird.
Wie für die Mark1 -Spalte - min (90,78,90,54,67) = 54.
PYSPARK.Pandas.Datenrahmen.max ()
max () im pyspark pandas dataframe wird verwendet, um den maximalen Wert über die Zeilen und Spalten zu maximieren.
Wenn Sie den Maximalwert in jeder Zeile zurückgeben möchten, müssen Sie die Achse = 1 angeben. Wenn Sie das Maximum in jeder Spalte zurückgeben möchten, müssen Sie die Achse = 0 angeben. Standardmäßig wird die spalte Weise durchgeführt.
Syntax
pyspark_pandas.max (axis = 0/axis = 1)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es dauert nur einen Parameter.
AXIS-0 gibt die spaltenweise Berechnung an und Axis = 1 Gibt die Zeilenbewertung an.
Beispiel 1
In diesem Beispiel geben wir den Maximalwert in jeder Zeile zurück.
Ausgang
0 100Wir können sehen, dass die Max () -Aggregation in jeder Reihe durchgeführt wird.
Wie erste Reihe - Maximum (90.100.91) = 100
Beispiel 2
In diesem Beispiel geben wir den Maximalwert in jeder Spalte zurück.
Ausgang
Mark1 90Wir können sehen, dass die Max () -Aggregation in jeder Säule durchgeführt wird.
Wie für die Mark1 -Spalte - max (90,78,90,54,67) = 90.
Abschluss
In diesem PYSPARK Pandas DataFrame -Tutorial haben wir vier verschiedene Aggregationsfunktionen im DataFrame gesehen. Es ist möglich, über Zeile und Spalten mit den Achsenparametern zu berechnen. sum () wird die Gesamtsumme zurückgeben, AVG () wird verwendet, um den Gesamtdurchschnitt zurückzugeben. Min () wird verwendet, um den Mindestwert zurückzugeben, und max () gibt den Maximalwert zurück.