Pyspark - ASC & Desc

Pyspark - ASC & Desc

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Erstellen wir einen PYSPARK -Datenframe.

Beispiel:

In diesem Beispiel erstellen wir den PYSpark -Datenfreame mit 5 Zeilen und 6 Spalten und Anzeigen mithilfe von show ().

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Pysspark - ASC ()

In PYSPARK wird ASC () verwendet, um die Zeilen in der Aufstiegsreihenfolge im DataFrame zu ordnen.

Es wird den neuen Datenrahmen zurückgeben, indem die Zeilen im vorhandenen Datenrahmen angeordnet werden. Es wird mit Sort () oder OrderBy () -Funktionen verwendet.

Methode - 1: Verwenden Sie ASC () mit Col -Funktion

Hier verwenden wir den orderBy () oder sort () -Funktionen, um den PYSPark -Datenrahmen basierend auf den Spalten in aufsteigender Reihenfolge zu sortieren. Wir müssen die Spaltennamen/s in der Funktion OrderBy ()/sort () über die Col -Funktion angeben. Wir müssen diese Funktion aus pyspark importieren.sql.Funktionsmodul. Dies wird verwendet, um eine Spalte aus dem PySpark -Datenfreame zu lesen.

Syntax:

Datenrahmen.orderBy (col ("column_name").ASC (),…, col ("column_name").ASC ())
Datenrahmen.sort (col ("column_name").ASC (),…, col ("column_name").ASC ())

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Column_Name ist die Spalte, in der die Sortierung durch die Col -Funktion angewendet wird.

Beispiel:

In diesem Beispiel werden wir den Datenrahmen in aufsteigender Reihenfolge basierend auf den Funktionen von Adress- und Altersspalten mit der Funktion OrderBy () und Sort () sortieren und den sortierten Datenfreame mithilfe der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
drucken (df.OrderBy (col ("Adresse").ASC (), col ("Alter").ASC ()).sammeln())
drucken()
drucken (df.sortieren (col ("Adresse").ASC (), col ("Alter").ASC ()).sammeln())

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Methode - 2: Verwenden Sie ASC () mit DataFrame -Etikett

Hier verwenden wir den orderBy () oder sort () -Funktionen, um den PYSPark -Datenrahmen basierend auf den Spalten in aufsteigender Reihenfolge zu sortieren. Wir müssen die Spaltennamen/Bezeichnungen in der Funktion orderBy ()/sort () über den Spaltennamen/Beschriftung von DataFrame -Spalten angeben.

Syntax:

Datenrahmen.orderBy (DataFrame.Spaltenname.ASC (),…, DataFrame.Spaltenname.ASC ())
Datenrahmen.sortieren (DataFrame.Spaltenname.ASC (),…, DataFrame.Spaltenname.ASC ())

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Column_Name ist die Spalte, in der die Sortierung angewendet wird.

Beispiel:

In diesem Beispiel werden wir den Datenrahmen in aufsteigender Reihenfolge basierend auf Adress- und Altersspalten mit der Funktion OrderBy () und Sort () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
drucken (df.OrderBy (df.Adresse.ASC (), df.Alter.ASC ()).sammeln())
drucken()
drucken (df.sortieren (df.Adresse.ASC (), df.Alter.ASC ()).sammeln())

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Methode - 3: Verwenden Sie ASC () mit DataFrame Index

Hier verwenden wir den orderBy () oder sort () -Funktionen, um den PYSPark -Datenrahmen basierend auf den Spalten in aufsteigender Reihenfolge zu sortieren. Wir müssen die Spaltenindex/Indizes in der Funktion orderBy ()/sort () über den Spaltenindex/die Position des DataFrame -Spaltenindex/Position angeben. In DataFrame beginnt die Indexierung mit '0'.

Syntax:

Datenrahmen.orderBy (DataFrame [column_index].ASC (),…, DataFrame [column_index].ASC ())
Datenrahmen.sortieren (DataFrame [column_index].ASC (),…, DataFrame [column_index].ASC ())

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. column_index ist die Spaltenposition, in der die Sortierung angewendet wird.

Beispiel:

In diesem Beispiel werden wir den Datenrahmen in aufsteigender Reihenfolge basierend auf Adress- und Altersspalten mit der Funktion OrderBy () und Sort () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
drucken (df.orderBy (df [0].ASC (), DF [1].ASC ()).sammeln())
drucken()
drucken (df.sortieren (df [0].ASC (), DF [1].ASC ()).sammeln())

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Pyspark - desc ()

In PYSPARK wird Desc () verwendet, um die Zeilen in absteigender Reihenfolge im DataFrame zu ordnen.

Es wird den neuen Datenrahmen zurückgeben, indem die Zeilen im vorhandenen Datenrahmen angeordnet werden. Es wird mit Sort () oder OrderBy () -Funktionen verwendet.

Methode - 1: Verwenden von Desc () mit Col -Funktion

Hier verwenden wir die Funktionen orderBy () oder sort (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren, um den PYSPARK -Datenrahmen in absteigender Reihenfolge zu sortieren. Wir müssen die Spaltennamen/s in der Funktion OrderBy ()/sort () über die Col -Funktion angeben. Wir müssen diese Funktion aus pyspark importieren.sql.Funktionsmodul. Dies wird verwendet, um eine Spalte aus dem PySpark -Datenfreame zu lesen.

Syntax:

Datenrahmen.orderBy (col ("column_name").desc (),…, col ("Column_Name").Desc ())
Datenrahmen.sort (col ("column_name").desc (),…, col ("Column_Name").Desc ())

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Column_Name ist die Spalte, in der die Sortierung durch die Col -Funktion angewendet wird.

Beispiel:

In diesem Beispiel werden wir den Datenrahmen in absteigender Reihenfolge basierend auf den Funktionen von Adress- und Altersspalten mit der Funktion OrderBy () und Sort () sortieren und den sortierten Datenfreame mithilfe der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
drucken (df.OrderBy (col ("Adresse").desc (), col ("Alter").Desc ()).sammeln())
drucken()
drucken (df.sortieren (col ("Adresse").desc (), col ("Alter").Desc ()).sammeln())

Ausgang:

[Zeile (Adresse = 'Patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Reihe (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]
[Zeile (Adresse = 'Patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Reihe (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]

Methode - 2: Verwenden von Desc () mit DataFrame -Etikett

Hier verwenden wir die Funktionen orderBy () oder sort (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren, um den PYSPARK -Datenrahmen in absteigender Reihenfolge zu sortieren. Wir müssen die Spaltennamen/Bezeichnungen in der Funktion orderBy ()/sort () über den Spaltennamen/Beschriftung von DataFrame -Spalten angeben.

Syntax:

Datenrahmen.orderBy (DataFrame.Spaltenname.Desc (),…, DataFrame.Spaltenname.Desc ())
Datenrahmen.sortieren (DataFrame.Spaltenname.Desc (),…, DataFrame.Spaltenname.Desc ())

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Column_Name ist die Spalte, in der die Sortierung angewendet wird.

Beispiel:

In diesem Beispiel werden wir den Datenrahmen in absteigender Reihenfolge basierend auf Adress- und Altersspalten mit der Funktion OrderBy () und Sort () sortieren und den sortierten Datenrahmen mithilfe der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
drucken (df.OrderBy (df.Adresse.desc (), df.Alter.Desc ()).sammeln())
drucken()
drucken (df.sortieren (df.Adresse.desc (), df.Alter.Desc ()).sammeln())

Ausgang:

[Zeile (Adresse = 'Patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Reihe (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]
[Zeile (Adresse = 'Patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Reihe (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]

Methode - 3: Verwenden Sie ASC () mit DataFrame Index

Hier verwenden wir den Auftrag orderBy () oder sort (), den pyspark -Datenrahmen basierend auf den Spalten in absteigender Reihenfolge zu sortieren. Wir müssen die Spaltenindex/Indizes in der Funktion orderBy ()/sort () über den Spaltenindex/die Position des DataFrame -Spaltenindex/Position angeben. In DataFrame beginnt die Indexierung mit '0'.

Syntax:

Datenrahmen.orderBy (DataFrame [column_index].Desc (),…, DataFrame [column_index].Desc ())
Datenrahmen.sortieren (DataFrame [column_index].Desc (),…, DataFrame [column_index].Desc ())

Hier,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. column_index ist die Spaltenposition, in der die Sortierung angewendet wird.

Beispiel:

In diesem Beispiel werden wir den Datenrahmen in absteigender Reihenfolge basierend auf Adress- und Altersspalten mit der Funktion OrderBy () und Sort () sortieren und den sortierten Datenrahmen mithilfe der Methode Collect () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
drucken (df.orderBy (df [0].ASC (), DF [1].ASC ()).sammeln())
drucken()
drucken (df.sortieren (df [0].ASC (), DF [1].ASC ()).sammeln())

Ausgang:

[Zeile (Adresse = 'Patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Reihe (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]
[Zeile (Adresse = 'Patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Reihe (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]

Sonstig

Wir können beide Funktionen auch in verschiedenen Spalten im PySpark -Datenfreame gleichzeitig verwenden.

Beispiel:

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
drucken (df.OrderBy (col ("Adresse").desc (), col ("Alter").ASC ()).sammeln())
drucken()
drucken (df.sortieren (col ("Adresse").ASC (), col ("Alter").Desc ()).sammeln())

Ausgang:

[Zeile (Adresse = 'Patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17), Zeile (Adresse = 'Hyd', Alter = 9, Größe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28), Row (Adresse = 'Hyd', Alter = 16, Größe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34), Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54), Row (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67)]
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67), Row (Adresse = 'Hyd', Alter = 37, Größe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54), Row (Adresse = 'Hyd', Alter = 16, Größe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34), Row (Adresse = 'Hyd', Alter = 9, Größe = 3.69, name = 'Rohith', rollno = '004', Gewicht = 28), Row (Adresse = 'patna', Alter = 7, Größe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]

Abschluss

In diesem Artikel diskutieren wir, wie die Funktion ASC () mit drei Szenarien mit Sort () und OrderBy () -Funktionen auf dem PYSPARK -Datenframe in Python verwendet wird. Schließlich kamen wir zu einem Punkt, an dem wir die Daten mithilfe von ASC () und absteigende Reihenfolge mit Desc () im PYSPARK -Datenrahmen basierend auf den im DataFrame vorhandenen Spalten sortieren können.