PYSPARK - WITH COLUMNRENAMEMAMED -Methode

Stephan Harms

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

WithColumnRenamed () -Methode in pySpark wird verwendet.

Syntax:

Datenrahmen.withColumnrenamed ('old_column', 'new_column')

Parameter:

Old_Column ist der alte Spaltenname
New_Column ist der neue Name für die alte Spalte

Erstellen Sie den PYSPark -Datenfreame mit 5 Zeilen und 6 Spalten und zeigen Sie sie mit der Methode show () an

Beispiel:

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

Wir werden den Spaltennamen "Adresse" in "Schüleradresse", "Rollno" -Spalte in "Studenten -ID" und "Name" in "Schülername" ändern.

Beispiel:

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Rename Name Spalte zum Namen der Schüler Name
df = df.WithColumnrenaMed ("Name", "Schüler Name")
#Rename Adresse Spalte zum Namen der Schüler
df = df.WithColumnrenaMed ("Adresse", "Schüleradresse")
#Rename Rollno -Spalte zur Studenten -ID
df = df.WithColumnrenaMed ("Rollno", "Studenten ID")
#lets zeigen das Schema an
df.printSchema ()

Ausgang:

Wenn wir mehrere Spaltennamen gleichzeitig wollen, müssen wir die Funktion mit Columnrenamed () mehrmals durch den Punkt (DOT (.) Operator

Syntax:

Datenrahmen.Withcolumnrenamed ('old_column1', 'new_column')… withColumnrenamed ('old_column2', 'new_column')… withColumnrenamed ('old_column3', 'new_column').
.withColumnrenamed ('old_column n', 'new_column')

Beispiel:

In diesem Beispiel ändert sich der Spaltenname "Adresse" in "Schüleradresse", "Rollno" in die Spalte "Studenten id" und "Name" in "Schülername" und zeigt schließlich das Schema an.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Rename Name Spalte zum Namen der Schüler Name,
#Address Spalte zum Namen der Schüler
#Rename Rollno -Spalte zur Studenten -ID
df = df.WithColumnrenaMed ("Name", "Schüler Name").WithColumnrenaMed ("Adresse", "Schüleradresse").WithColumnrenaMed ("Rollno", "Studenten ID")
#lets zeigen das Schema an
df.printSchema ()

Ausgang:

Abschluss

In diesem Artikel haben wir besprochen, wie die Spaltennamen mithilfe der Funktion WithColumnrenamed () umbenannt werden und wie man mehrere Spalten umbenannt wird.

Python

Pandas read_csv multiprocessing

Verbesserung der Datenbelastungsgeschwindigkeit, einschließlich ihrer Vorteile und Einschränkungen d...

Christopher Lammert

Python

Python Chmod

Das “os.CHMOD () ”Die Funktion des Betriebssystemmodul....

Lars Daub

Docker

Was ist der Zweck eines Docker-Composes?.YML -Datei in Docker?

Der Hauptzweck eines „Docker-Composes.Die YML-Datei soll den Prozess der Bereitstellung und Verwaltu...

Jessica Schimmer