In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir werden verschiedene Methoden diskutieren, um die Spaltennamen des PYSPARK -Datenframe zu ändern. Wir erstellen PYSPark -Datenfream, bevor wir zu den Methoden wechseln.
Beispiel:
Hier erstellen wir PySpark -Datenframe mit 5 Zeilen und 6 Spalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()
Ausgang:
Methode 1: Verwenden von WithColumnrenamed ()
Wir können den Spaltennamen im PYSPark -Datenrahmen mit dieser Methode ändern.
Syntax:
Datenrahmen.WithColumnrenaMed ("Old_Column", New_Column ")
Parameter:
- old_column ist die vorhandene Spalte
- New_Column ist die neue Spalte, die den old_column ersetzt
Beispiel:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen den gesamten Datenrahmen mithilfe von show () -Methoden an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt
df.withColumnrenaMed ("Adresse", "Stadt").zeigen()
Ausgang:
Wir können auch mehrere Spaltennamen gleichzeitig anhand dieser Methode ersetzen.
Syntax:
Datenrahmen.WithColumnrenaMed ("Old_Column", New_Column ") .WithColumnrenaMed ("Old_Column", "New_Column") .. .WithColumnrenaMed ("Old_Column", New_Column ")
Beispiel:
In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von Show () -Methode.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.withColumnrenaMed ("Adresse", "Stadt").withColumnrenaMed ("Höhe", "Höhe").WithColumnrenaMed ("Rollno", "Id").zeigen()
Ausgang:
Methode 2: Verwenden von SelectExpr ()
Dies ist eine Expressionsmethode, die den Spaltennamen durch einen Ausdruck ändert.
Syntax:
Datenrahmen.selectExpr (Ausdruck)
Parameter:
- Es dauert nur einen Parameter, der Ausdruck ist.
- Ausdruck wird verwendet, um die Spalte zu ändern. Der Ausdruck wird also: "Old_Column als New_Column" sein ".
Schließlich ist die Syntax:
Datenrahmen.selectExpr ("old_column als new_column"))
Wo,
- old_column ist die vorhandene Spalte
- New_Column ist die neue Spalte, die den old_column ersetzt
Hinweis: Wir können mehrere Ausdrücke bereitstellen, die durch Komma innerhalb dieser Methode getrennt sind.
Beispiel 1:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen diese Spalte mithilfe von show () -Methoden an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt
df.selectExpr ("Adresse als Stadt").zeigen()
Ausgang:
Beispiel 2:
In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von Show () -Methode.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.selectExpr ("Adresse als Stadt", "Höhe als Höhe", "Rollno als ID").zeigen()
Ausgang:
Methode 3: Verwenden von select ()
Wir können Spalten aus dem DataFrame auswählen, indem wir die Spaltennamen über Col mit alias () -Methode ändern.
Syntax:
Datenrahmen.select (col ("old_column").alias ("new_column"))
Parameter:
- Es dauert nur einen Parameter, der über die Col () -Methode der Spaltenname ist.
Col () ist eine Methode, die in PYSPARK erhältlich ist.sql.Funktionen dauern Old_Column als Eingabeparameter und wechseln mit alias () zu New_Column ()
alias () nimmt New_Column als Parameter
Wo:
- old_column ist die vorhandene Spalte
- New_Column ist die neue Spalte, die den old_column ersetzt
Hinweis: Wir können mehrere Spalten bereitstellen, die durch Komma innerhalb dieser Methode getrennt sind.
Beispiel 1:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen diese Spalte mithilfe von show () -Methoden an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt
df.select (col ("Adresse").alias ("Stadt")).zeigen()
Ausgang:
Beispiel 2:
In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von show () -Methoden.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.select (col ("Adresse").alias ("Stadt"), col ("Höhe").alias ("Höhe"), col ("rollno").alias ("id")).zeigen()
Ausgang:
Abschluss
In diesem Tutorial haben wir besprochen, wie die Spaltennamen des PYSPARK -Datenframes mithilfe von WithColumnRenamed (), auswählen und ausgewählt und ausgewählt) geändert werden. Mit diesen Methoden können wir auch mehrere Spaltennamen gleichzeitig ändern.