Ret Gent Top & Last Zeilen von PySpark Pandas DataFrame zurück

Ret Gent Top & Last Zeilen von PySpark Pandas DataFrame zurück
„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark unter Verwendung von DataFrame bereitgestellt wird, mit dem die angegebenen Daten im Zeilen- und Spaltenformat gespeichert werden können.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas werden aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import:

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von Pandas -Datenframe:

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'],
'Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Ausgang:

Jetzt werden wir in unser Tutorial gehen.

Es gibt verschiedene Möglichkeiten, die oberen und letzten Zeilen aus dem PySpark Pandas DataFrame zurückzugeben.

Lassen Sie uns sie einzeln sehen.

PYSPARK.Pandas.Datenrahmen.Kopf

head () kehrt Top -Zeilen von der Spitze des PySpark Pandas DataFrame zurück. Es dauert N als Parameter, der die Anzahl der von oben angezeigten Zeilen angibt. Standardmäßig werden die Top 5 Zeilen zurückgegeben.

Syntax:

pyspark_pandas.Kopf (n)

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter:

n gibt einen Ganzzahlwert an, der die Anzahl der Zeilen von oben auf dem PYSPARK PANDAS -Datenfreame anzeigt.

Wir können auch die Funktion Head () verwenden, um eine bestimmte Spalte anzuzeigen.

Syntax:

pyspark_pandas.Spalte.Kopf (n)

Beispiel 1

In diesem Beispiel geben wir die Top 2 und 4 Zeilen in der Spalte Mark1 zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 Zeilen in der Mark1 -Spalte
print (pyspark_pandas.Mark1.Kopf (2))
drucken()
#Display Top 4 Zeilen in der Mark1 -Spalte
print (pyspark_pandas.Mark1.Kopf (4))

Ausgang:

0 90
1 56
Name: Mark1, DTYPE: INT64
0 90
1 56
2 78
3 54
Name: Mark1, DTYPE: INT64

Wir können sehen, dass die oberen 2 und 4 Zeilen aus der Spalte marks1 ausgewählt wurden.

Beispiel 2

In diesem Beispiel werden wir die Top 2 und 4 Zeilen in der Spalte student_lastname zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 Zeilen in der Spalte student_lastname
print (pyspark_pandas.Student_LastName.Kopf (2))
drucken()
#Display Top 4 Zeilen in der Spalte student_lastname
print (pyspark_pandas.Student_LastName.Kopf (4))

Ausgang:

0 Manasa
1 Trisha
Name: Student_LastName, DTYPE: Objekt
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Name: Student_LastName, DTYPE: Objekt

Wir können sehen, dass die oberen 2 und 4 Zeilen aus dem ausgewählt wurden Student_LastName Spalte.

Beispiel 3

In diesem Beispiel werden wir die Top 2 Zeilen aus dem gesamten Datenrahmen zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 Zeilen
print (pyspark_pandas.Kopf (2))
drucken()
#Display Top 4 Zeilen
print (pyspark_pandas.Kopf (4))

Ausgang:

student_lastname mark1 mark2 mark3
0 MANASA 90 100 91
1 Trisha 56 67 92
student_lastname mark1 mark2 mark3
0 MANASA 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97

Wir können sehen, dass der gesamte Datenrahmen mit den Top 2 und 4 Zeilen zurückgegeben wird.

PYSPARK.Pandas.Datenrahmen.Schwanz

Tail () wird Zeilen aus dem letzten im PYSpark Pandas DataFrame zurückgeben. Es dauert N als Parameter, der die Anzahl der Zeilen angibt, die von den letzten angezeigt werden.

Syntax:

pyspark_pandas.Schwanz (n)

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter:

n gibt einen Ganzzahlwert an, der die Anzahl der Zeilen aus dem letzten PYSPARK PANDAS -Datenfreame anzeigt. Standardmäßig werden die letzten 5 Zeilen zurückgegeben.

Wir können auch die Funktion Tail () verwenden, um bestimmte Spalten anzuzeigen.

Syntax:

pyspark_pandas.Spalte.Schwanz (n)

Beispiel 1

In diesem Beispiel werden wir die letzten 2 und 4 Zeilen in der Spalte Mark1 zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 Zeilen in der Mark1 -Spalte
print (pyspark_pandas.Mark1.Schwanz (2))
drucken()
#Display Last 4 Zeilen in der Mark1 -Spalte
print (pyspark_pandas.Mark1.Schwanz (4))

Ausgang:

3 54
4 67
Name: Mark1, DTYPE: INT64
1 56
2 78
3 54
4 67
Name: Mark1, DTYPE: INT64

Wir können sehen, dass die letzten 2 und 4 Zeilen aus der Spalte Marks1 ausgewählt wurden.

Beispiel 2

In diesem Beispiel werden wir die letzten 2 und 4 Zeilen in der Spalte student_lastname zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 Zeilen in der Spalte student_lastname
print (pyspark_pandas.Student_LastName.Schwanz (2))
drucken()
#Display Last 4 Zeilen in der Spalte student_lastname
print (pyspark_pandas.Student_LastName.Schwanz (4))

Ausgang:

3 Kapila
4 Hyna
Name: Student_LastName, DTYPE: Objekt
1 Trisha
2 Lehara
3 Kapila
4 Hyna
Name: Student_LastName, DTYPE: Objekt

Wir können sehen, dass die letzten 2 und 4 Zeilen aus dem ausgewählt wurden Student_LastName Spalte.

Beispiel 3

In diesem Beispiel werden wir die letzten 2 Zeilen aus dem gesamten Datenrahmen zurückgeben.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display die letzten 2 Zeilen
print (pyspark_pandas.Schwanz (2))
drucken()
#Display Last 4 Zeilen
print (pyspark_pandas.Schwanz (4))

Ausgang:

student_lastname mark1 mark2 mark3
3 Kapila 54 89 97
4 HYNA 67 32 87
student_lastname mark1 mark2 mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 HYNA 67 32 87

Wir können sehen, dass der gesamte Datenrahmen mit den letzten 2 und 4 Zeilen zurückgegeben wird.

Abschluss

Wir haben gesehen. Standardmäßig geben sie 5 Zeilen zurück.Head () und Tail () -Funktionen werden auch verwendet, um die oberen und letzten Zeilen mit bestimmten Spalten zu erhalten.