Zeigen Sie Top -Zeilen aus dem PYSPARK -Datenframe an

Lars Daub

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Es bietet die verschiedenen Methoden, um die Top -Zeilen aus dem PYSPARK -Datenframe zurückzugeben. Wir werden Beispiele für die 5 Möglichkeiten zur Anzeige der oberen Zeilen in PYSPARK geben:

Pyspark - show ()
Pyspark - sammeln ()
Pyspark - take ()
Pyspark - zuerst ()
Pyspark - head ()

Pyspark - show ()

Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen in einem tabellarischen Format anzuzeigen.

Syntax:

Datenrahmen.Show (N, vertikal, verkürzt)

Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.

Parameter:

n ist der erste optionale Parameter, der den Ganzzahlwert darstellt, um die oberen Zeilen im Datenrahmen zu erhalten, und n repräsentiert die Anzahl der zu angezeigten Top -Zeilen, die angezeigt werden sollen. Standardmäßig werden alle Zeilen aus dem DataFrame angezeigt
Der vertikale Parameter nimmt boolesche Werte an, die zum Anzeigen des Datenrahmens im vertikalen Parameter verwendet werden. und Zeigen Sie den DataFrame im horizontalen Format an, wenn er auf false eingestellt ist. Standardmäßig wird es im horizontalen Format angezeigt
TRUNCATE wird verwendet, um die Anzahl der Zeichen aus jedem Wert im DataFrame zu erhalten. Es dauert eine Ganzzahl, wie einige Zeichen angezeigt werden müssen. Standardmäßig werden alle Zeichen angezeigt.

Beispiel 1:

In diesem Beispiel erstellen wir einen PYSPark -Datenframe mit 5 Zeilen und 6 Spalten und werden den DataFrame mithilfe der modal () -Methode ohne Parameter angezeigt. Dies führt also zu tabellarischen Datenrahmen, indem alle Werte im DataFrame angezeigt werden

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame
df.zeigen()

Ausgang:

Beispiel 2:

In diesem Beispiel erstellen wir einen PYSPARK -Datenframe mit 5 Zeilen und 6 Spalten und werden den DataFrame mithilfe der modal () -Methode mit N -Parameter angezeigt. Wir setzen den N -Wert auf 4, um die Top 4 Zeilen aus dem DataFrame anzuzeigen. Dies führt also zu einem tabellarischen Datenrahmen, indem 4 Werte im DataFrame angezeigt werden.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Erhalten Sie die Top 4 Zeilen im DataFrame
df.Show (4)

Ausgang:

Pyspark - sammeln ()

Collect () -Methode in PYSPark wird verwendet.

Syntax:

Datenrahmen.sammeln()

Beispiel:

Zeigen wir den gesamten Datenfreame mit Collect () -Methode an

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54)]

Pyspark - take ()

Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen anzuzeigen.

Syntax:

Datenrahmen.vergriffen)

Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.

Parameter:

n ist der erforderliche Parameter, der den Ganzzahlwert darstellt, um die oberen Zeilen im DataFrame zu erhalten.

Beispiel 1:

In diesem Beispiel erstellen wir einen PYSPARK -Datenframe mit 5 Zeilen und 6 Spalten und werden mithilfe der Methode take () 3 Zeilen aus dem DataFrame angezeigt. Dies resultiert also aus den Top 3 Zeilen aus dem Datenrahmen.

Ausgang:

Beispiel 2:

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]

Pyspark - zuerst ()

Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen anzuzeigen.

Syntax:

Datenrahmen.Erste()

Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.

Parameter:

Es dauert keine Parameter.

Beispiel:

In diesem Beispiel erstellen wir einen PYSPark -Datenframe mit 5 Zeilen und 6 Spalten und werden mithilfe der First () -Methode 1 Zeile aus dem DataFrame angezeigt. Diese entsteht also nur die erste Zeile.

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]

Pyspark - head ()

Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen anzuzeigen.

Syntax:

Datenrahmen.Kopf (n)

Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.

Parameter:

n ist der optionale Parameter, der den Ganzzahlwert darstellt, um die oberen Zeilen im DataFrame zu erhalten, und n repräsentiert die Anzahl der zu angezeigten Top -Zeilen, die angezeigt werden sollen. Standardmäßig werden die erste Zeile aus dem DataFrame angezeigt, wenn n nicht angegeben ist.

Beispiel 1:

In diesem Beispiel erstellen wir einen PYSPARK -Datenframe mit 5 Zeilen und 6 Spalten und werden 3 Zeilen aus dem DataFrame mithilfe der Head () -Methode anzeigen. Dies führt also zu den Top -3 -Zeilen aus dem DataFrame.

Ausgang:

Beispiel 2:

In diesem Beispiel erstellen wir einen PYSPark -Datenframe mit 5 Zeilen und 6 Spalten und werden mit der Methode von Head () 1 Zeile aus dem DataFrame angezeigt. Dies führt also zu der Top 1 -Zeile aus dem DataFrame.

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]

Abschluss

In diesem Tutorial haben wir besprochen, wie man die Top -Zeilen aus dem PYSPARK -Datenframe mit show (), collect () bekommt. Take (), Head () und First () Methoden. Wir haben festgestellt, dass die Show () -Methode die oberen Zeilen in einem tabellarischen Format zurückgibt und die verbleibenden Methoden Zeile nach Zeile zurückgeben.

Windows

Programme zum Erstellen von Präsentationen

Überprüfen Sie die besten Präsentationsprogramme sowie wie Sie PowerPoint kostenlos von der offiziel...

Thalea Steidl

Windows

So erhalten Sie kostenlos eine Windows 10 -Lizenz

Jeder kann ein lizenziertes Windows 10 kostenlos (Pro und Home) erhalten, Teilnehmer am Windows Insi...

Jesper Ehrig

Sicherheit

Wie kann Ihr Passwort hacken

Welche Methoden verwenden Hacker, um Passwörter zu hacken und welche Schwachstellen und Schwächen kö...

Nathanael Koha