Ändern Sie die Spaltennamen des PYSPARK -Datenframe

Ändern Sie die Spaltennamen des PYSPARK -Datenframe
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir werden verschiedene Methoden diskutieren, um die Spaltennamen des PYSPARK -Datenframe zu ändern. Wir erstellen PYSPark -Datenfream, bevor wir zu den Methoden wechseln.

Beispiel:
Hier erstellen wir PySpark -Datenframe mit 5 Zeilen und 6 Spalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

Methode 1: Verwenden von WithColumnrenamed ()

Wir können den Spaltennamen im PYSPark -Datenrahmen mit dieser Methode ändern.

Syntax:
Datenrahmen.WithColumnrenaMed ("Old_Column", New_Column ")

Parameter:

  1. old_column ist die vorhandene Spalte
  2. New_Column ist die neue Spalte, die den old_column ersetzt

Beispiel:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen den gesamten Datenrahmen mithilfe von show () -Methoden an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt
df.withColumnrenaMed ("Adresse", "Stadt").zeigen()

Ausgang:

Wir können auch mehrere Spaltennamen gleichzeitig anhand dieser Methode ersetzen.

Syntax:
Datenrahmen.WithColumnrenaMed ("Old_Column", New_Column ") .WithColumnrenaMed ("Old_Column", "New_Column") .. .WithColumnrenaMed ("Old_Column", New_Column ")

Beispiel:
In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von Show () -Methode.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.withColumnrenaMed ("Adresse", "Stadt").withColumnrenaMed ("Höhe", "Höhe").WithColumnrenaMed ("Rollno", "Id").zeigen()

Ausgang:

Methode 2: Verwenden von SelectExpr ()

Dies ist eine Expressionsmethode, die den Spaltennamen durch einen Ausdruck ändert.

Syntax:
Datenrahmen.selectExpr (Ausdruck)

Parameter:

  • Es dauert nur einen Parameter, der Ausdruck ist.
  • Ausdruck wird verwendet, um die Spalte zu ändern. Der Ausdruck wird also: "Old_Column als New_Column" sein ".

Schließlich ist die Syntax:

Datenrahmen.selectExpr ("old_column als new_column"))

Wo,

  • old_column ist die vorhandene Spalte
  • New_Column ist die neue Spalte, die den old_column ersetzt

Hinweis: Wir können mehrere Ausdrücke bereitstellen, die durch Komma innerhalb dieser Methode getrennt sind.

Beispiel 1:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen diese Spalte mithilfe von show () -Methoden an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt
df.selectExpr ("Adresse als Stadt").zeigen()

Ausgang:

Beispiel 2:

In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von Show () -Methode.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.selectExpr ("Adresse als Stadt", "Höhe als Höhe", "Rollno als ID").zeigen()

Ausgang:

Methode 3: Verwenden von select ()

Wir können Spalten aus dem DataFrame auswählen, indem wir die Spaltennamen über Col mit alias () -Methode ändern.

Syntax:
Datenrahmen.select (col ("old_column").alias ("new_column"))

Parameter:

  • Es dauert nur einen Parameter, der über die Col () -Methode der Spaltenname ist.

Col () ist eine Methode, die in PYSPARK erhältlich ist.sql.Funktionen dauern Old_Column als Eingabeparameter und wechseln mit alias () zu New_Column ()

alias () nimmt New_Column als Parameter

Wo:

  1. old_column ist die vorhandene Spalte
  2. New_Column ist die neue Spalte, die den old_column ersetzt

Hinweis: Wir können mehrere Spalten bereitstellen, die durch Komma innerhalb dieser Methode getrennt sind.

Beispiel 1:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen diese Spalte mithilfe von show () -Methoden an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt
df.select (col ("Adresse").alias ("Stadt")).zeigen()

Ausgang:

Beispiel 2:

In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von show () -Methoden.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.select (col ("Adresse").alias ("Stadt"), col ("Höhe").alias ("Höhe"), col ("rollno").alias ("id")).zeigen()

Ausgang:

Abschluss

In diesem Tutorial haben wir besprochen, wie die Spaltennamen des PYSPARK -Datenframes mithilfe von WithColumnRenamed (), auswählen und ausgewählt und ausgewählt) geändert werden. Mit diesen Methoden können wir auch mehrere Spaltennamen gleichzeitig ändern.