In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. In PYSPARK wird OrderBy () verwendet, um die Zeilen im Sortieren/Aufstieg in der DataFrame zu ordnen.
Es wird den neuen Datenrahmen zurückgeben, indem die Zeilen im vorhandenen Datenrahmen angeordnet werden.
Erstellen wir einen PYSPARK -Datenframe.
Beispiel:
In diesem Beispiel erstellen wir den PYSpark -Datenfreame mit 5 Zeilen und 6 Spalten und Anzeigen mithilfe von show ().
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()
Ausgang:
Methode - 1: Verwenden von OrderBy ()
Hier verwenden wir die Funktion orderBy (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Es dauert eine oder mehrere Spalten.
Syntax:
Datenrahmen.orderBy ("column_name", ..., "column_name")
Hier,
- DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
- Column_Name ist die Spalte, in der die Sortierung angewendet wird.
Beispiel:
In diesem Beispiel werden wir den Datenrahmen basierend auf Adress- und Altersspalten mit der Funktion "OrderBy () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.OrderBy ("Adresse", "Alter").sammeln()
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
Methode - 2: Verwenden Sie orderBy () mit Col -Funktion
Hier verwenden wir die Funktion orderBy (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Wir müssen die Spaltennamen/s innerhalb der OrderBy () -Funktion über die Col -Funktion angeben. Wir müssen diese Funktion aus pyspark importieren.sql.Funktionsmodul. Dies wird verwendet, um eine Spalte aus dem PySpark -Datenfreame zu lesen.
Syntax:
Datenrahmen.orderBy (col ("column_name"), ..., col ("column_name"))
Hier,
- DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
- Column_Name ist die Spalte, in der die Sortierung durch die Col -Funktion angewendet wird.
Beispiel:
In diesem Beispiel werden wir den Datenrahmen basierend auf Adress- und Altersspalten mit der Funktion "OrderBy () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.OrderBy (col ("Adresse"), col ("Alter")).sammeln()
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
Methode - 3: Verwenden Sie orderBy () mit DataFrame -Etikett
Hier verwenden wir die Funktion orderBy (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Wir müssen die Spaltennamen/Bezeichnungen in der Funktion orderBy () über den Spaltennamen/Beschriftung von DataFrame -Spalten angeben.
Syntax:
Datenrahmen.orderBy (DataFrame.column_name,…, DataFrame.Spaltenname)
Hier,
- DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
- Column_Name ist die Spalte, in der die Sortierung angewendet wird.
Beispiel:
In diesem Beispiel werden wir den Datenrahmen basierend auf Adress- und Altersspalten mit der Funktion "OrderBy () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.OrderBy (df.Adresse, df.Alter).sammeln()
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
Methode - 4: Verwenden Sie OrderBy () mit DataFrame Index
Hier verwenden wir die Funktion orderBy (), um den PYSPARK -Datenrahmen basierend auf den Spalten zu sortieren. Wir müssen den Spaltenindex/Indizes in der Funktion OrderBy () über den Spaltenindex/die Position des DataFrame -Spaltenindex angeben. In DataFrame beginnt die Indexierung mit '0'.
Syntax:
Datenrahmen.orderBy (DataFrame [column_index],…, DataFrame [column_index])
Hier,
- DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
- column_index ist die Spaltenposition, in der die Sortierung angewendet wird.
Beispiel:
In diesem Beispiel werden wir den Datenrahmen basierend auf Adress- und Altersspalten mit der Funktion "OrderBy () sortieren und den sortierten Datenrahmen mit der Methode Collect () anzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Sortieren Sie den Datenrahmen basierend auf Adressen- und Altersspalten
# und zeigen Sie den sortierten DataFrame an
df.OrderBy (df [0], df [1]).sammeln()
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67),
Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Name = 'Rohith', Rollno = '004', Gewicht = 28),
Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34),
Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54),
Reihe (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17)]
Abschluss
In diesem Artikel diskutieren wir, wie die Funktion orderBy () mit vier Szenarien auf dem PYSPARK -Datenframe in Python verwendet wird. Schließlich kamen wir zu einem Punkt, an dem wir die Daten im PYSPARK -Datenrahmen basierend auf den im DataFrame vorhandenen Spalten sortieren können.