PYSPARK Konvertieren Sie die Spalte von String zum Ganzzahltyp

PYSPARK Konvertieren Sie die Spalte von String zum Ganzzahltyp
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir werden verschiedene Methoden diskutieren, um die Spalte von String in Integer im PYSPARK -Datenframe zu konvertieren.
  1. Methode 1: Verwenden von Int -Schlüsselwort mit WithColumn ()
  2. Methode 2: Verwenden von IntegerType () mit WithColumn ()
  3. Methode 3: Verwenden Sie das int -Schlüsselwort mit select ()
  4. Methode 4: Verwenden Sie das int -Schlüsselwort mit SelectExpr ()

Bevor wir zu den Szenarien wechseln, werden wir PYSPARK -Datenframe erstellen. Hier erstellen wir PySpark -Datenfreame mit 5 Zeilen und 6 Spalten und zeigen die Spalte mit Datentypen mithilfe von PrintSchema () -Methode an.

pysspark importieren
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': '67', 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': '34', 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': '17', 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': '28', 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': '54', 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Get das Schema
df.printSchema ()

Ausgang:

Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- Höhe: doppelt (nullable = true)
|- Name: String (nullable = true)
|- rollno: string (nullable = true)
|- Gewicht: String (nullable = true)

Methode 1: Verwenden Sie das int -Schlüsselwort mit withColumn () Methode

In dieser Methode verwenden wir die Methode mit der WithColumn (), um den Datentyp von String zu Ganzzahl zu ändern, indem wir das int () -Funktion int () übergeben.

Syntax:
Datenrahmen.WithColumn ("Spalte", df.Spalte.Cast ('int'))

WithColumn () nimmt zwei Parameter an:

  1. Die Spalte ist der Spaltenname, dessen Datentyp konvertiert wird.
  2. cast () konvertiert String in Ganzzahl, indem Sie das Keyword als Parameter int nimmt.

Beispiel:
In diesem Beispiel werden wir den Datentyp der Gewichtsspalten in Ganzzahl konvertieren und das Schema mithilfe von PrintSchema () -Methode anzeigen.

pysspark importieren
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': '67', 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': '34', 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': '17', 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': '28', 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': '54', 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Konvertieren Sie den Datenatyp der Gewichtsspalte an Ganzzahl
df.With Column ("Gewicht", df.Gewicht.Cast ('int')).printSchema ()

Ausgang:

Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- Höhe: doppelt (nullable = true)
|- Name: String (nullable = true)
|- rollno: string (nullable = true)
|- Gewicht: Ganzzahl (nullable = true)

Methode 2: Verwendung von IntegerType () mit withColumn () Methode

In dieser Methode verwenden wir die Methode mit der WithColumn (), um den Datentyp von String zu Ganzzahl durch Bestehen zu ändern IntegerType () Methode in Cast () Funktion. Wir müssen diese Methode aus pyspark importieren.sql.Type Modul.

Syntax:
Datenrahmen.WithColumn ("Spalte", df.Spalte.Cast (IntegerType ())))

WithColumn () nimmt zwei Parameter an:

  1. Die Spalte ist der Spaltenname, dessen Datentyp konvertiert wird.
  2. cast () konvertiert String in Ganzzahl, indem Sie die IntegerType () -Methode als Parameter einnehmen.

Beispiel:
In diesem Beispiel werden wir den Datentyp der Gewichtsspalten in Ganzzahl konvertieren und das Schema mithilfe von PrintSchema () -Methode anzeigen.

pysspark importieren
aus pysspark.SQL Import SparkSession
aus pysspark.sql.Typen importieren IntegerType
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': '67', 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': '34', 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': '17', 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': '28', 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': '54', 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Konvertieren Sie den Datenatyp der Gewichtsspalte an Ganzzahl
df.With Column ("Gewicht", df.Gewicht.Cast (IntegerType ()))).printSchema ()

Ausgang:

Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- Höhe: doppelt (nullable = true)
|- Name: String (nullable = true)
|- rollno: string (nullable = true)
|- Gewicht: Ganzzahl (nullable = true)

Methode 3: Verwenden Sie das int -Schlüsselwort mit Select () Methode

In dieser Methode verwenden wir die Select () -Methode, um den Datentyp von String zu Ganzzahl zu ändern, indem wir das int -Keyword in die Funktion cast () übergeben. Wir können die Spalte mit Col () -Methode auswählen. col () wird aus pyspark importiert.sql.Funktionsmodul.

Syntax:
Datenrahmen.select (col ("Spalte"), cast ('int'))

select () nimmt zwei Parameter vor:

  1. Die Spalte ist der Spaltenname, dessen Datentyp konvertiert wird.
  2. cast () konvertiert String in Ganzzahl, indem Sie das Keyword als Parameter int nimmt.

Beispiel:
In diesem Beispiel werden wir den Datentyp der Gewichtsspalten in Ganzzahl konvertieren und das Schema mithilfe von PrintSchema () -Methode anzeigen.

pysspark importieren
aus pysspark.SQL Import SparkSession
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': '67', 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': '34', 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': '17', 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': '28', 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': '54', 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Konvertieren Sie den Datenatyp der Gewichtsspalte an Ganzzahl
df.select (col ("Gewicht").Cast ('int')).printSchema ()

Ausgang:

Wurzel
|- Gewicht: Ganzzahl (nullable = true)

Methode 4: Verwenden Sie das int -Schlüsselwort mit SelectExpr () Methode

In dieser Methode verwenden wir die Methode SelectExPR (), um den Datentyp von String zu Ganzzahl zu ändern, indem wir das Int -Keyword in Cast () -Funktion übergeben. Es wird Parameter als Ausdruck dauern

Syntax:
Datenrahmen.SelectExpr ("Cast (Spalte als int)"))

select () nimmt zwei Parameter vor:

  1. Die Spalte ist der Spaltenname, dessen Datentyp konvertiert wird.
  2. cast () konvertiert String in Ganzzahl, indem Sie das Keyword als Parameter int nimmt.

Beispiel:
In diesem Beispiel werden wir den Datentyp der Gewichtsspalten in Ganzzahl konvertieren und das Schema mithilfe von PrintSchema () -Methode anzeigen.

pysspark importieren
aus pysspark.SQL Import SparkSession
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': '67', 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': '34', 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': '17', 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': '28', 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': '54', 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Konvertieren Sie den Datenatyp der Gewichtsspalte an Ganzzahl
df.selectExpr ("gießen (Gewicht als int)"))

Ausgang:

DataFrame [Gewicht: int]

Abschluss

In diesem Tutorial haben wir vier Methoden zur Konvertierung von String in Spalten vom Typ pyspark in pyspark datenfreame erörtert. WithColumn (), Select () und SelectExpr () sind die Methoden, mit denen der Datentyp konvertiert wird. Wir haben beobachtet, dass in allen Methoden der Parameter cast () verwendet wird.