Pysspark - beleuchtet

Pysspark - beleuchtet

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Lit () wird verwendet, um eine neue Spalte zu erstellen, indem diese Spalte in pyspark DataFrame zu Werten hinzugefügt wird. Bevor wir zur Syntax gehen.

Beispiel:

Hier erstellen wir PySpark -Datenfreame mit 5 Zeilen und 6 Spalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

Lit () - Syntax

beleuchtet ("Wert").alias ("column_name")

Wo,

  1. Column_Name ist die neue Spalte.
  2. Wert ist der konstante Wert, der der neuen Spalte hinzugefügt wurde.

Wir müssen diese Methode aus pyspark importieren.sql.Funktionsmodul.

Notiz: Wir können gleichzeitig mehrere Spalten hinzufügen

Mit der Methode Select () können wir die Lit () -Methode verwenden.

Select () wird verwendet, um die Spalten aus dem DataFrame anzuzeigen. Darüber hinaus können wir Spalten/s mit der Lit () -Methode hinzufügen.

Syntax:

Datenrahmen.select (col ("Spalte"), ..., beleuchtet ("Wert").alias ("new_column"))

Wo,

  1. Die Spalte ist der vorhandene Spaltenname, der angezeigt wird.
  2. new_column ist der neue Spaltenname, der hinzugefügt wird.
  3. Wert ist der konstante Wert, der der neuen Spalte hinzugefügt wurde.

Beispiel 1:

In diesem Beispiel werden wir dieser Spalte eine neue Spalte mit dem Namen - Pincode hinzufügen und einen konstanten Wert hinzufügen - 522112 zu dieser Spalte und wählen Sie zusammen mit Pincode aus dem PYSPARK -Datendatenframe Rollno -Spalte.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col, beleuchtete Funktion
aus pysspark.sql.Funktionen importieren col, beleuchtet
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Fügen Sie einen neuen Spaltenpincode mit konstantem Wert hinzu - 522112
final = df.select (col ("rollno"), lit ("522112").alias ("pincode"))
#Display der endgültige Datenrahmen
Finale.zeigen()

Ausgang:

Beispiel 2:

In diesem Beispiel werden wir diese Spalten mit dem Namen - Pincode und City hinzufügen und diesen Spalten einen konstanten Wert hinzufügen - 522112 und Guntur und wählen Sie die Rollno -Spalte zusammen mit Pincode und City aus dem PYSPark -Datenframe aus.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col, beleuchtete Funktion
aus pysspark.sql.Funktionen importieren col, beleuchtet
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Fügen Sie neue Spalten hinzu: Pincode mit konstantem Wert - 522112
# Stadt mit konstantem Wert - Guntur
final = df.select (col ("rollno"), lit ("522112").Alias ​​("Pincode"), beleuchtet ("Guntur").alias ("Stadt"))
#Display der endgültige Datenrahmen
Finale.zeigen()

Ausgang:

Wir können der neuen Spalte auch Werte aus den vorhandenen Spaltenspalten hinzufügen. Wir müssen nur den Spaltennamen im Parameter "LIT (Wert)) angeben.

Syntax:

Datenrahmen.Select (col ("Spalte"), ..., beleuchtet (DataFrame ".Spalte).alias ("new_column"))

Wo,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Die Spalte ist der vorhandene Spaltenname, der angezeigt wird.
  3. new_column ist der neue Spaltenname, der hinzugefügt wird.
  4. Wert ist der konstante Wert, der der neuen Spalte hinzugefügt wurde.

Beispiel:

In diesem Beispiel werden wir eine Spalte hinzufügen - "Pincode City" und Werte aus der Adressspalte zugewiesen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col, beleuchtete Funktion
aus pysspark.sql.Funktionen importieren col, beleuchtet
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Fügen Sie eine neue Spalte hinzu: "Pincode City aus der Adressspalte
final = df.select (col ("rollno"), lit (df.Adresse).Alias ​​("Pincode City"))
#Display der endgültige Datenrahmen
Finale.zeigen()

Ausgang:

Wir können vorhandene Spaltenwerte über Spaltenindex auch hinzufügen - Spaltenindizierung beginnt mit - 0.

Beispiel:

In diesem Beispiel werden wir eine Spalte hinzufügen - „Pincode City“ und Werte aus der Adressspalte über den Adressspaltenindex i zuweisen.e., - 4.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col, beleuchtete Funktion
aus pysspark.sql.Funktionen importieren col, beleuchtet
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Fügen Sie eine neue Spalte hinzu: "Pincode City aus der Adressspalte
final = df.select (col ("rollno"), lit (df [4]).Alias ​​("Pincode City"))
#Display der endgültige Datenrahmen
Finale.zeigen()

Ausgang:

Abschluss

In diesem Tutorial haben wir die LIT () -Methode zum Erstellen einer neuen Spalte mit konstanten Werten besprochen. Es kann möglich sein, die Werte aus der vorhandenen Spalte zuzuweisen, indem die Spalte anhand des Wertsparameters durch den Spaltennamen sowie einen Spaltenindex angegeben wird.