So verkettet die Spalten im PYSPARK -Datenframe

So verkettet die Spalten im PYSPARK -Datenframe
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir können zwei oder mehr Spalten in einem Datenrahmen mit zwei Methoden verkettet. Sie sind concat () und concat_ws (). Dies sind die Methoden, die in PySpark verfügbar sind.sql.Funktionsmodul. Bevor Sie diese Methoden kennen.

Beispiel
In diesem Beispiel erstellen wir den PYSPark -Datenframe mit 5 Zeilen und 6 Spalten und zeigen sie mit der modal modus () an.

# Importieren Sie das PYSPARK -Modul
pysspark importieren
# SparkSession importieren für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# Erstellen Sie eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame anzeigen
df.zeigen()

Ausgang:

Pyspark - concat ()

concat () verbindet zwei oder mehr Spalten im angegebenen pyspark -Datenrahmen und fügt diese Werte in eine neue Spalte hinzu.

Durch die Verwendung der Methode Select () können wir die verkettete Spalte anzeigen und mithilfe einer alias () -Methode können wir die verkettete Spalte benennen.

Syntax

Datenrahmen.Select (concat (Spalten,…).alias ("new_column"))

Wo,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. concat () - Es dauert mehrere Spalten, um verkettet zu werden. Die Spalte wird durch Verwendung von DataFrame dargestellt.Spalte
  3. New_Column ist der Spaltenname für die verkettete Spalte.

Beispiel 1
In diesem Beispiel werden wir Säulen zur Größe und Gewicht in eine neue Spalte verkettet und die Spalte als Körperindex benennen. Schließlich werden wir diese Spalte nur auswählen und den DataFrame mit der Methode show () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import concat -Funktion
aus pysspark.sql.Funktionen importieren concat
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Größe und Gewicht in eine neue Spalte mit dem Namen "Body Index" verkettet werden
df.Select (concat (df.Höhe, df.Gewicht).alias ("Körperindex")).zeigen()

Ausgang:

Beispiel 2
In diesem Beispiel werden wir Rollno-, Name- und Adressspalten in eine neue Spalte verkettet und die Spalte als Details benennen. Schließlich werden wir diese Spalte nur auswählen und den DataFrame mit der Methode show () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import concat -Funktion
aus pysspark.sql.Funktionen importieren concat
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Verketten, Name und Adresse in eine neue Spalte mit dem Namen "Details"
df.Select (concat (df.Rollno, df.Name, df.Adresse).alias ("Details")).zeigen()

Ausgang:

Pyspark - concat_ws ()

Concat_ws () verbindet zwei oder mehr Spalten im angegebenen pyspark -Datenrahmen und fügt diese Werte in eine neue Spalte hinzu. Es wird die Werte jeder Spalte mit einem Trennzeichen getrennt.

Durch die Verwendung der Methode Select () können wir die verkettete Spalte anzeigen und mithilfe einer alias () -Methode können wir die verkettete Spalte benennen.

Syntax

Datenrahmen.select (concat („Separator“, Spalten,…).alias ("new_column"))

Wo,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. concat () - Es dauert mehrere Spalten, um verkettet zu werden. Die Spalte wird durch Verwendung von DataFrame dargestellt.Spalte
  3. New_Column ist der Spaltenname für die verkettete Spalte.
  4. Der Separator kann so etwas wie Raum, besonderer Charakter usw. sein.

Beispiel 1
In diesem Beispiel werden wir die Spalten von Größe und Gewicht in eine neue Spalte verkettet und die Spalte als Körperindex mit „_ abgetrennt“ benennen.Schließlich werden wir diese Spalte nur auswählen und den DataFrame mithilfe der Methode show () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import concat_ws Funktion
aus pysspark.sql.Funktionen importieren concat_ws
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Größe und Gewicht in eine neue Spalte mit dem Namen "Body Index" verkettet werden
df.select (concat_ws ("_", df.Höhe, df.Gewicht).alias ("Körperindex")).zeigen()

Ausgang:

Beispiel 2
In diesem Beispiel werden wir Rollno-, Name- und Adressspalten in eine neue Spalte verkettet und die Spalte als Details benennen, die durch „*** getrennt sind.Schließlich werden wir diese Spalte nur auswählen und den DataFrame mithilfe der Methode show () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import concat_ws Funktion
aus pysspark.sql.Funktionen importieren concat_ws
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Verketten, Name und Adresse in eine neue Spalte mit dem Namen "Details"
df.select (concat_ws ("***", df.Rollno, df.Name, df.Adresse).alias ("Details")).zeigen()

Ausgang:

Abschluss

Wir können zwei oder mehr Spalten mithilfe von concat () und concat_ws () verhandeln. Der Hauptunterschied zwischen den beiden Methoden besteht darin.