Pysspark - sortieren

Pysspark - sortieren

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. In PYSPARK wird Sort () verwendet, um die Zeilen in Sortier- oder Aufstiegsreihenfolge im DataFrame zu ordnen. Es wird den neuen Datenrahmen zurückgeben, indem die Zeilen im vorhandenen Datenrahmen angeordnet werden. Erstellen wir einen PYSPARK -Datenframe.

Beispiel:

In diesem Beispiel erstellen wir den PYSpark -Datenfreame mit 5 Zeilen und 6 Spalten und Anzeigen mithilfe von show ().

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode - 1: Verwenden von Sort ()

Hier verwenden wir die Funktion "sort (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Es dauert eine oder mehrere Spalten.

Syntax:

Datenrahmen.sort ("column_name", ..., "column_name")

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Column_Name ist die Spalte, in der die Sortierung angewendet wird.

Beispiel:

In diesem Beispiel werden wir den DataFrame basierend auf Adress- und Altersspalten mit der Funktion "sort () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.sortieren ("Adresse", "Alter").sammeln()

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Methode - 2: Verwenden Sie Sort () mit Col -Funktion

Hier verwenden wir die Funktion "sort (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Wir müssen die Spaltennamen/s in der Funktion "sort () über die Col -Funktion angeben. Wir müssen diese Funktion aus pyspark importieren.sql.Funktionsmodul. Dies wird verwendet, um eine Spalte aus dem PySpark -Datenfreame zu lesen.

Syntax:

Datenrahmen.sort (col ("column_name"), ..., col ("column_name"))

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Column_Name ist die Spalte, in der die Sortierung durch die Col -Funktion angewendet wird.

Beispiel:

In diesem Beispiel werden wir den DataFrame basierend auf Adress- und Altersspalten mit der Funktion "sort () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.sortieren (col ("Adresse"), col ("Alter")).sammeln()

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Methode - 3: Verwenden Sie Sort () mit DataFrame -Etikett

Hier verwenden wir die Funktion "sort (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Wir müssen die Spaltennamen/Bezeichnungen in der Funktion "sort () über den Spaltennamen/Beschriftung von DataFrame angeben.

Syntax:

Datenrahmen.sortieren (DataFrame.column_name,…, DataFrame.Spaltenname)

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Column_Name ist die Spalte, in der die Sortierung angewendet wird.

Beispiel:

In diesem Beispiel werden wir den DataFrame basierend auf Adress- und Altersspalten mit der Funktion "sort () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.sortieren (df.Adresse, df.Alter).sammeln()

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Methode - 4: Verwenden Sie Sort () mit DataFrame Index

Hier verwenden wir die Funktion "sort (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Wir müssen den Spaltenindex/Indizes in der Funktion "sort () über den DataFrame -Spaltenindex/-position angeben. In DataFrame beginnt die Indexierung mit '0'.

Syntax:

Datenrahmen.sort (DataFrame [column_index],…, DataFrame [column_index])

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. column_index ist die Spaltenposition, in der die Sortierung angewendet wird.

Beispiel:

In diesem Beispiel werden wir den DataFrame basierend auf Adress- und Altersspalten mit der Funktion "sort () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.sortieren (df [0], df [1]).sammeln()

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Abschluss

In diesem Artikel diskutieren wir, wie Sie eine Sort () -Funktion verwenden, die vier Szenarien auf dem PYSPARK -Datenframe in Python verwendet. Schließlich kamen wir zu einem Punkt, an dem wir die Daten im PYSPARK -Datenrahmen basierend auf den im DataFrame vorhandenen Spalten sortieren können.