Ordnen Sie die Spalten im PYSPARK -Datenframe neu an

Ordnen Sie die Spalten im PYSPARK -Datenframe neu an
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

Wir werden verschiedene Szenarien diskutieren, um die Reihenfolge der Spalten in PYSPark DataFrame zu ändern.

Für alle Szenarien verwenden wir die Select () -Methode. Bevor wir zu den Szenarien wechseln.

Beispiel:
Hier erstellen wir PySpark -Datenframe mit 5 Zeilen und 6 Spalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

Szenario 1: Die Säulen neu ordnen

In diesem Szenario verwenden wir nur die Select () -Methode, um die Spalten im angegebenen PYSPark -Datenrahmen zu bestellen/neu zu ordnen, indem wir eins nach einer Spalte in der Methode bereitstellen.

Syntax:
Datenrahmen.Select ("Spalte1", ..., "Spalte")

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. Spalten sind die Spaltennamen, die neu angeordnet werden sollen.

Beispiel:
In diesem Beispiel werden wir die Spalten in dieser Reihenfolge neu ordnen - "Adresse", "Höhe", "Rollno", "Name", "Gewicht" und "Alter". Zeigen Sie dann den DataFrame mithilfe der Show () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#RearRange Die Spalten in der Reihenfolge - "Adresse", "Höhe", "Rollno", "Name", "Gewicht", "Alter"
df = df.Select ("Adresse", "Höhe", "Rollno", "Name", "Gewicht", "Alter")
#Dispay the DataFrame
df.zeigen()

Ausgang:

Szenario 2: Die Säulen in aufsteigender Reihenfolge neu ordnen

In diesem Szenario verwenden wir die Sorted () -Methode zusammen mit Select () -Methode, um die Spalten in der aufsteigenden Reihenfolge durch sortierte () -Methode neu zu ordnen.

Syntax:
Datenrahmen.Wählen Sie (sortiert (DataFrame ".Spalten, reverse = false))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. sortiert () ist die Methode, die den Datenrahmen in aufsteigender Reihenfolge sortiert. Es wird zwei Parameter benötigen. Der erste Parameter bezieht sich auf die Spaltenmethode, um alle Spalten aus dem DataFrame auszuwählen. Der zweite Parameter wird verwendet, um den Datenrahmen in aufsteigender Reihenfolge neu zu ordnen.

Beispiel:
In diesem Beispiel werden wir die Spalten in aufsteigender Reihenfolge neu ordnen, um den DataFrame mithilfe von show () -Methoden anzuzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#RearRange die Spalten in aufsteigender Reihenfolge
df = df.auswählen (sortiert (df.Spalten, reverse = false))
#Dispay the DataFrame
df.zeigen()

Ausgang:

Szenario 3: Die Säulen in absteigender Reihenfolge neu ordnen

In diesem Szenario verwenden wir die Sorted () -Methode zusammen mit Select () -Methode, um die Spalten in der absteigenden Reihenfolge durch sortierte () -Methode neu zu ordnen.

Syntax:
Datenrahmen.Wählen Sie (sortiert (DataFrame ".Spalten, reverse = true))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. sortiert () ist die Methode, die den Datenrahmen in aufsteigender Reihenfolge sortiert. Es wird zwei Parameter benötigen. Der erste Parameter bezieht sich auf die Spaltenmethode, um alle Spalten aus dem DataFrame auszuwählen. Der zweite Parameter wird verwendet, um den Datenrahmen in absteigender Reihenfolge neu zu ordnen.

Beispiel:
In diesem Beispiel werden wir die Spalten in absteigender Reihenfolge neu ordnen, um den DataFrame mithilfe von show () -Methoden anzuzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#RearRange die Spalten in absteigender Reihenfolge
df = df.auswählen (sortiert (df.Spalten, reverse = true))
#Dispay the DataFrame
df.zeigen()

Ausgang:

Abschluss

In diesem Tutorial haben wir besprochen, wie die Spalten im PYSPARK -Datenfreame mit drei Szenarien neu angeordnet werden, indem Sie die select () -Methode anwenden. Wir haben zusammen mit der Methode Select () die Sorted () -Methode verwendet, um die Spalten neu zu ordnen.