In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Es bietet die verschiedenen Methoden, um die Top -Zeilen aus dem PYSPARK -Datenframe zurückzugeben. Wir werden Beispiele für die 5 Möglichkeiten zur Anzeige der oberen Zeilen in PYSPARK geben:
- Pyspark - show ()
- Pyspark - sammeln ()
- Pyspark - take ()
- Pyspark - zuerst ()
- Pyspark - head ()
Pyspark - show ()
Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen in einem tabellarischen Format anzuzeigen.
Syntax:
Datenrahmen.Show (N, vertikal, verkürzt)
Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.
Parameter:
- n ist der erste optionale Parameter, der den Ganzzahlwert darstellt, um die oberen Zeilen im Datenrahmen zu erhalten, und n repräsentiert die Anzahl der zu angezeigten Top -Zeilen, die angezeigt werden sollen. Standardmäßig werden alle Zeilen aus dem DataFrame angezeigt
- Der vertikale Parameter nimmt boolesche Werte an, die zum Anzeigen des Datenrahmens im vertikalen Parameter verwendet werden. und Zeigen Sie den DataFrame im horizontalen Format an, wenn er auf false eingestellt ist. Standardmäßig wird es im horizontalen Format angezeigt
- TRUNCATE wird verwendet, um die Anzahl der Zeichen aus jedem Wert im DataFrame zu erhalten. Es dauert eine Ganzzahl, wie einige Zeichen angezeigt werden müssen. Standardmäßig werden alle Zeichen angezeigt.
Beispiel 1:
In diesem Beispiel erstellen wir einen PYSPark -Datenframe mit 5 Zeilen und 6 Spalten und werden den DataFrame mithilfe der modal () -Methode ohne Parameter angezeigt. Dies führt also zu tabellarischen Datenrahmen, indem alle Werte im DataFrame angezeigt werden
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame
df.zeigen()
Ausgang:
Beispiel 2:
In diesem Beispiel erstellen wir einen PYSPARK -Datenframe mit 5 Zeilen und 6 Spalten und werden den DataFrame mithilfe der modal () -Methode mit N -Parameter angezeigt. Wir setzen den N -Wert auf 4, um die Top 4 Zeilen aus dem DataFrame anzuzeigen. Dies führt also zu einem tabellarischen Datenrahmen, indem 4 Werte im DataFrame angezeigt werden.
#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Erhalten Sie die Top 4 Zeilen im DataFrame
df.Show (4)
Ausgang:
Pyspark - sammeln ()
Collect () -Methode in PYSPark wird verwendet.
Syntax:
Datenrahmen.sammeln()
Beispiel:
Zeigen wir den gesamten Datenfreame mit Collect () -Methode an
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Anzeige
df.sammeln()
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54)]
Pyspark - take ()
Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen anzuzeigen.
Syntax:
Datenrahmen.vergriffen)
Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.
Parameter:
n ist der erforderliche Parameter, der den Ganzzahlwert darstellt, um die oberen Zeilen im DataFrame zu erhalten.
Beispiel 1:
In diesem Beispiel erstellen wir einen PYSPARK -Datenframe mit 5 Zeilen und 6 Spalten und werden mithilfe der Methode take () 3 Zeilen aus dem DataFrame angezeigt. Dies resultiert also aus den Top 3 Zeilen aus dem Datenrahmen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Top 3 Zeilen aus dem DataFrame anzeigen
df.nehmen (3)
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
Beispiel 2:
In diesem Beispiel erstellen wir einen PYSPARK -Datenframe mit 5 Zeilen und 6 Spalten und werden mithilfe der Methode take () 3 Zeilen aus dem DataFrame angezeigt. Dies resultiert also aus der Top 1 -Zeile aus dem DataFrame.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Die Top 1 -Zeile aus dem DataFrame anzeigen
df.Nimm 1)
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]
Pyspark - zuerst ()
Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen anzuzeigen.
Syntax:
Datenrahmen.Erste()
Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.
Parameter:
- Es dauert keine Parameter.
Beispiel:
In diesem Beispiel erstellen wir einen PYSPark -Datenframe mit 5 Zeilen und 6 Spalten und werden mithilfe der First () -Methode 1 Zeile aus dem DataFrame angezeigt. Diese entsteht also nur die erste Zeile.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Die Top 1 -Zeile aus dem DataFrame anzeigen
df.zuerst (1)
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]
Pyspark - head ()
Es wird verwendet, um die oberen Zeilen oder den gesamten Datenrahmen anzuzeigen.
Syntax:
Datenrahmen.Kopf (n)
Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.
Parameter:
n ist der optionale Parameter, der den Ganzzahlwert darstellt, um die oberen Zeilen im DataFrame zu erhalten, und n repräsentiert die Anzahl der zu angezeigten Top -Zeilen, die angezeigt werden sollen. Standardmäßig werden die erste Zeile aus dem DataFrame angezeigt, wenn n nicht angegeben ist.
Beispiel 1:
In diesem Beispiel erstellen wir einen PYSPARK -Datenframe mit 5 Zeilen und 6 Spalten und werden 3 Zeilen aus dem DataFrame mithilfe der Head () -Methode anzeigen. Dies führt also zu den Top -3 -Zeilen aus dem DataFrame.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Top 3 Zeilen aus dem DataFrame anzeigen
df.Kopf (3)
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
Beispiel 2:
In diesem Beispiel erstellen wir einen PYSPark -Datenframe mit 5 Zeilen und 6 Spalten und werden mit der Methode von Head () 1 Zeile aus dem DataFrame angezeigt. Dies führt also zu der Top 1 -Zeile aus dem DataFrame.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Die Top 1 -Zeile aus dem DataFrame anzeigen
df.Kopf (1)
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]
Abschluss
In diesem Tutorial haben wir besprochen, wie man die Top -Zeilen aus dem PYSPARK -Datenframe mit show (), collect () bekommt. Take (), Head () und First () Methoden. Wir haben festgestellt, dass die Show () -Methode die oberen Zeilen in einem tabellarischen Format zurückgibt und die verbleibenden Methoden Zeile nach Zeile zurückgeben.