PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas werden aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import:
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von Pandas -Datenframe:
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.
#import pandas aus dem pysparkmodulAusgang:
Jetzt werden wir in unser Tutorial gehen.
Es gibt verschiedene Möglichkeiten, die oberen und letzten Zeilen aus dem PySpark Pandas DataFrame zurückzugeben.
Lassen Sie uns sie einzeln sehen.
PYSPARK.Pandas.Datenrahmen.Kopf
head () kehrt Top -Zeilen von der Spitze des PySpark Pandas DataFrame zurück. Es dauert N als Parameter, der die Anzahl der von oben angezeigten Zeilen angibt. Standardmäßig werden die Top 5 Zeilen zurückgegeben.
Syntax:
pyspark_pandas.Kopf (n)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter:
n gibt einen Ganzzahlwert an, der die Anzahl der Zeilen von oben auf dem PYSPARK PANDAS -Datenfreame anzeigt.
Wir können auch die Funktion Head () verwenden, um eine bestimmte Spalte anzuzeigen.
Syntax:
pyspark_pandas.Spalte.Kopf (n)Beispiel 1
In diesem Beispiel geben wir die Top 2 und 4 Zeilen in der Spalte Mark1 zurück.
#import pandas aus dem pysparkmodulAusgang:
0 90Wir können sehen, dass die oberen 2 und 4 Zeilen aus der Spalte marks1 ausgewählt wurden.
Beispiel 2
In diesem Beispiel werden wir die Top 2 und 4 Zeilen in der Spalte student_lastname zurückgeben.
#import pandas aus dem pysparkmodulAusgang:
0 ManasaWir können sehen, dass die oberen 2 und 4 Zeilen aus dem ausgewählt wurden Student_LastName Spalte.
Beispiel 3
In diesem Beispiel werden wir die Top 2 Zeilen aus dem gesamten Datenrahmen zurückgeben.
#import pandas aus dem pysparkmodulAusgang:
student_lastname mark1 mark2 mark3Wir können sehen, dass der gesamte Datenrahmen mit den Top 2 und 4 Zeilen zurückgegeben wird.
PYSPARK.Pandas.Datenrahmen.Schwanz
Tail () wird Zeilen aus dem letzten im PYSpark Pandas DataFrame zurückgeben. Es dauert N als Parameter, der die Anzahl der Zeilen angibt, die von den letzten angezeigt werden.
Syntax:
pyspark_pandas.Schwanz (n)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter:
n gibt einen Ganzzahlwert an, der die Anzahl der Zeilen aus dem letzten PYSPARK PANDAS -Datenfreame anzeigt. Standardmäßig werden die letzten 5 Zeilen zurückgegeben.
Wir können auch die Funktion Tail () verwenden, um bestimmte Spalten anzuzeigen.
Syntax:
pyspark_pandas.Spalte.Schwanz (n)Beispiel 1
In diesem Beispiel werden wir die letzten 2 und 4 Zeilen in der Spalte Mark1 zurückgeben.
#import pandas aus dem pysparkmodulAusgang:
3 54Wir können sehen, dass die letzten 2 und 4 Zeilen aus der Spalte Marks1 ausgewählt wurden.
Beispiel 2
In diesem Beispiel werden wir die letzten 2 und 4 Zeilen in der Spalte student_lastname zurückgeben.
#import pandas aus dem pysparkmodulAusgang:
3 KapilaWir können sehen, dass die letzten 2 und 4 Zeilen aus dem ausgewählt wurden Student_LastName Spalte.
Beispiel 3
In diesem Beispiel werden wir die letzten 2 Zeilen aus dem gesamten Datenrahmen zurückgeben.
#import pandas aus dem pysparkmodulAusgang:
student_lastname mark1 mark2 mark3Wir können sehen, dass der gesamte Datenrahmen mit den letzten 2 und 4 Zeilen zurückgegeben wird.
Abschluss
Wir haben gesehen. Standardmäßig geben sie 5 Zeilen zurück.Head () und Tail () -Funktionen werden auch verwendet, um die oberen und letzten Zeilen mit bestimmten Spalten zu erhalten.