Fügen Sie dem PYSpark -Datenfreame eine neue Spalte hinzu

Fügen Sie dem PYSpark -Datenfreame eine neue Spalte hinzu
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir werden diskutieren, wie Sie dem vorhandenen PYSpark -Datenfreame eine neue Spalte hinzufügen können.

Bevor wir zu den Methoden wechseln, werden wir PYSPARK -Datenframe erstellen.

Beispiel:

Hier erstellen wir PySpark -Datenfreame mit 5 Zeilen und 6 Spalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

Methode 1: Fügen Sie eine neue Spalte mit Werten mit WithColumn hinzu ()

Wir können eine neue Spalte aus einer vorhandenen Spalte mit der Methode WithColumn () hinzufügen.

Syntax:

Datenrahmen.WithColumn ("new_column", col ("column_name"))

Parameter:

  1. New_Column ist die Spalte.
  2. Col () -Funktion wird verwendet, um die Spaltenwerte zum New_Column hinzuzufügen.

Beispiel:

In diesem Beispiel werden wir eine neue Spalte erstellen - "Power" und fügen Sie dieser Spalte Werte hinzu, die jeden Wert in der Spalte Gewicht mit 10 multiplizieren.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Add Spalte mit dem Namen Power
#Aus der Gewichtsspalte multipliziert mit 2
df = df.WithColumn ("Power", col ("Gewicht")* 2)
#Display modifizierte DataFrame
drucken (df.sammeln())
#lets zeigen das Schema an
df.printSchema ()

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67, Power = 134), Row (Adresse = 'Hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34, Power = 68), Row (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17, Power = 34), Row (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, name = 'Rohith', Rollno = '004', Gewicht = 28, Power = 56), Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54, Power = 108)]
Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- Höhe: doppelt (nullable = true)
|- Name: String (nullable = true)
|- rollno: string (nullable = true)
|- Gewicht: lang (nullable = true)
|- Kraft: lang (nullable = true)

Methode 2: Fügen Sie eine neue Spalte mit keinen Werten mit withColumn hinzu ()

Wir können eine neue Spalte mit keiner Werte mit der WithColumn () -Methode über Lit () -Funktion hinzufügen.

Syntax:

Datenrahmen.WithColumn ("New_Column", beleuchtet (keine))

Parameter:

  1. New_Column ist die Spalte.
  2. Lit () ist eine Funktion, mit der Werte zur Spalte hinzugefügt werden.

Beispiel:

In diesem Beispiel werden wir eine neue Spalte erstellen - "Power" und fügen Sie dieser Spalte keine Werte hinzu.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port the col, beleuchtete Funktionen
aus pysspark.sql.Funktionen importieren col, beleuchtet
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Add Spalte mit dem Namen Power
# ohne Wertwerte
df = df.With Column ("Power", beleuchtet (keine))
#Display modifizierte DataFrame
drucken (df.sammeln())

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, name = 'sravan', rollno = '001', Gewicht = 67, power = none), row (adress = 'hyd', Alter = 16, Höhe = 3.79, name = 'ojaswi', rollno = '002', Gewicht = 34, power = keine), row (Adresse = 'patna', Alter = 7, Höhe = 2.79, name = 'gnanesh chowdary', rollno = '003', Gewicht = 17, power = keine), row (adresde = 'hyd', Alter = 9, Höhe = 3.69, name = 'Rohith', rollno = '004', Gewicht = 28, Power = None), Row (Adresse = 'Hyd', Alter = 37, Höhe = 5.59, name = 'sridevi', rollno = '005', Gewicht = 54, power = keine)]

Methode 3: Fügen Sie eine neue Spalte mit Werten hinzu, basierend auf dem Zustand mit withColumn ()

Wir können eine neue Spalte mit Bedingungen mit der Methode mit withColumn () hinzufügen und Werte über Lit () -Funktion. Wir können die Bedingungen verwenden, in denen die Funktion "WO) verwendet wird. Dies kann aus pyspark importiert werden.sql.Funktionen.

Syntax:

Datenrahmen.WithColumn ("new_column", wenn (Datenframe.Spalte < 11), lit("value1"))
.wenn ((Zustand), beleuchtet ("value2"))

. wenn ((Zustand), beleuchtet ("Wert n"))
.sonst (lit ("Wert")))

Parameter:

  1. New_Column ist die Spalte.
  2. Lit () ist eine Funktion, mit der Werte zur Spalte hinzugefügt werden.
  3. Wenn () nimmt die Bedingung als Eingabe an und fügt Werte hinzu, die auf den erfüllten Kriterien basieren.
  4. Andernfalls () ist der letzte Schritt, der eine der oben genannten Bedingungen ausführt, die die Kriterien nicht erfüllt haben.

Beispiel:

In diesem Beispiel werden wir eine neue Spalte erstellen - „Power“ und Werte aus der Altersspalte hinzufügen.

  • Fügen Sie einen niedrigen Wert hinzu, wenn das Alter kleiner als - 11 ist
  • Fügen Sie einen hohen Wert hinzu, wenn das Alter kleiner oder gleich - 12 und größer oder gleich - 20
  • Ansonsten einen hohen Wert hinzufügen
#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Port the col, beleuchtet, wenn es funktioniert
aus pysspark.sql.Funktionen importieren col, beleuchtet, wann
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Add eine Spalte - Leistung
#ADD -Spalte Vales basierend auf der Altersspalte
#By Angabe der Bedingungen
df.with column ("power", wenn ((df.Alter < 11), lit("Low"))
.wenn ((df.Alter> = 12) & (df.Alter <= 20), lit("Medium"))
.sonst (lit ("hoch"))).zeigen()

Ausgang:

Methode 4: Fügen Sie neue Spalten mit Werten mit select () hinzu

Wir können eine neue Spalte aus einer vorhandenen Spalte mit der Methode Select () hinzufügen.

Syntax:

Datenrahmen.Wählen Sie (lit (df) aus.Spalte).alias ("new_column"))

Parameter:

  1. New_Column ist die Spalte.
  2. Lit () Funktion wird verwendet, um dem New_Column Spaltenwerte hinzuzufügen.

Beispiel:

In diesem Beispiel werden wir eine neue Spalte erstellen - "Power" und fügen Sie dieser Spalte Werte hinzu, die jeden Wert in der Spalte Gewicht mit 10 multiplizieren.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port the col, beleuchtete Funktionen
aus pysspark.sql.Funktionen importieren col, beleuchtet
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#ADD -Spalte mit dem Namen - Leistung aus Gewichtsspalte
# Werte hinzufügen, indem Sie sich mit 10 multiplizieren
df.select ("rollno", lit (df.Gewicht * 10).alias ("power")).zeigen()

Ausgang:

Methode 5: Fügen Sie eine neue Spalte mit keinen Werten mit select () hinzu.)

Wir können eine neue Spalte mit Nullwerten mit der Methode Select () hinzufügen.

Syntax:

Datenrahmen.select (lit (keine).alias ("new_column"))

Parameter:

  1. New_Column ist die Spalte
  2. Lit () Funktion wird verwendet, um keine Werte hinzuzufügen

Beispiel:

In diesem Beispiel werden wir eine neue Spalte erstellen - "Power" und fügen Sie dieser Spalte keine Werte hinzu.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port the col, beleuchtete Funktionen
aus pysspark.sql.Funktionen importieren col, beleuchtet
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#add Spalte mit dem Namen - Power
# Nullwerte mit keinem hinzufügen
df.Select ("Rollno", beleuchtet (keine).alias ("power")).zeigen()

Ausgang:

Abschluss

In diesem Tutorial haben wir besprochen, wie Sie eine neue Spalte mit Select () und WithColumn () -Funktionen hinzufügen können. Wir haben beobachtet, dass Lit () die Funktion ist, mit der die neue Spalte Werte hinzufügen wird. Schließlich haben wir diskutiert, wie Sie dem PYSPARK -Datenfreame keine/Null -Werte und die Werte aus den vorhandenen Spalten hinzufügen können.