Ändern Sie die Spaltennamen des PYSPARK -Datenframe

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir werden verschiedene Methoden diskutieren, um die Spaltennamen des PYSPARK -Datenframe zu ändern. Wir erstellen PYSPark -Datenfream, bevor wir zu den Methoden wechseln.

Beispiel:
Hier erstellen wir PySpark -Datenframe mit 5 Zeilen und 6 Spalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

Methode 1: Verwenden von WithColumnrenamed ()

Wir können den Spaltennamen im PYSPark -Datenrahmen mit dieser Methode ändern.

Syntax:
Datenrahmen.WithColumnrenaMed ("Old_Column", New_Column ")

Parameter:

old_column ist die vorhandene Spalte
New_Column ist die neue Spalte, die den old_column ersetzt

Beispiel:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen den gesamten Datenrahmen mithilfe von show () -Methoden an.

Ausgang:

Wir können auch mehrere Spaltennamen gleichzeitig anhand dieser Methode ersetzen.

Syntax:
Datenrahmen.WithColumnrenaMed ("Old_Column", New_Column ") .WithColumnrenaMed ("Old_Column", "New_Column") .. .WithColumnrenaMed ("Old_Column", New_Column ")

Beispiel:
In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von Show () -Methode.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.withColumnrenaMed ("Adresse", "Stadt").withColumnrenaMed ("Höhe", "Höhe").WithColumnrenaMed ("Rollno", "Id").zeigen()

Ausgang:

Methode 2: Verwenden von SelectExpr ()

Dies ist eine Expressionsmethode, die den Spaltennamen durch einen Ausdruck ändert.

Syntax:
Datenrahmen.selectExpr (Ausdruck)

Parameter:

Es dauert nur einen Parameter, der Ausdruck ist.
Ausdruck wird verwendet, um die Spalte zu ändern. Der Ausdruck wird also: "Old_Column als New_Column" sein ".

Schließlich ist die Syntax:

Datenrahmen.selectExpr ("old_column als new_column"))

Wo,

old_column ist die vorhandene Spalte
New_Column ist die neue Spalte, die den old_column ersetzt

Hinweis: Wir können mehrere Ausdrücke bereitstellen, die durch Komma innerhalb dieser Methode getrennt sind.

Beispiel 1:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen diese Spalte mithilfe von show () -Methoden an.

Ausgang:

Beispiel 2:

In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von Show () -Methode.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Nennen Sie die Adressspalte mit Stadt, Höhe der Höhe mit Höhe, Rollno -Spalte mit ID
df.selectExpr ("Adresse als Stadt", "Höhe als Höhe", "Rollno als ID").zeigen()

Ausgang:

Methode 3: Verwenden von select ()

Wir können Spalten aus dem DataFrame auswählen, indem wir die Spaltennamen über Col mit alias () -Methode ändern.

Syntax:
Datenrahmen.select (col ("old_column").alias ("new_column"))

Parameter:

Es dauert nur einen Parameter, der über die Col () -Methode der Spaltenname ist.

Col () ist eine Methode, die in PYSPARK erhältlich ist.sql.Funktionen dauern Old_Column als Eingabeparameter und wechseln mit alias () zu New_Column ()

alias () nimmt New_Column als Parameter

Wo:

old_column ist die vorhandene Spalte
New_Column ist die neue Spalte, die den old_column ersetzt

Hinweis: Wir können mehrere Spalten bereitstellen, die durch Komma innerhalb dieser Methode getrennt sind.

Beispiel 1:
In diesem Beispiel ersetzen wir die Adressspalte durch „Stadt“ und zeigen diese Spalte mithilfe von show () -Methoden an.

Ausgang:

Beispiel 2:

In diesem Beispiel ersetzen wir die Adressspalte durch "Stadt", die Höhe der Höhe mit "Höhe", Rollno -Spalte durch "ID" und Anzeigen des gesamten Datenrahmens mithilfe von show () -Methoden.

Ausgang:

Abschluss

In diesem Tutorial haben wir besprochen, wie die Spaltennamen des PYSPARK -Datenframes mithilfe von WithColumnRenamed (), auswählen und ausgewählt und ausgewählt) geändert werden. Mit diesen Methoden können wir auch mehrere Spaltennamen gleichzeitig ändern.

Android

Kontaktübertragung vom iPhone nach Android

So übertragen Sie Kontakte von Ihrem iPhone auf das Android -Gerät. Zwei Möglichkeiten zum Exportier...

Lina Leberer

für Anfänger

So deaktivieren Sie die automatische Videowiedergabe auf Websites

Trennen Sie den automatischen Start von Videos auf Klassenkameraden, YouTube und andere Websites mit...

Mike Kuske

Windows

So öffnen Sie ein Windows -Bedienfeld

5 Möglichkeiten zum Windows 10, 8 Bedienfeld.1 und Windows 7. Öffnen Sie das Bedienfeld über eine Be...

Thalea Steidl