In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Drop () in PySpark wird verwendet, um die Spalten aus dem Datenrahmen zu entfernen. Durch die Verwendung von Drop () können wir im PYSPARK -Datenframe mehr als eine Spalte gleichzeitig entfernen. Wir können die Spalten aus dem DataFrame auf drei Arten fallen lassen. Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.
Beispiel:
Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()
Ausgang:
Zeigen Sie nun das DataFrame -Schema mit der Methode PrintSchema () an, um die Spalten zu überprüfen, bevor Sie die Spalten entfernen.
Diese Methode gibt die Spaltennamen zusammen mit ihrem Datentyp zurück.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port der Countfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display das Schema
df.printSchema ()
Ausgang:
Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- Höhe: doppelt (nullable = true)
|- Name: String (nullable = true)
|- rollno: string (nullable = true)
|- Gewicht: lang (nullable = true)
Methode -1: Einzelspalte fallen lassen
Wir entfernen jeweils nur eine Spalte mit der Funktion Drop (), indem wir die Spalte innerhalb der Drop -Funktion übergeben.
Syntax:
df.Drop ('column_name')
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, die fallen gelassen wird.
Beispiel :
In diesem Beispiel werden wir die Spalte Name fallen lassen und den resultierenden Datenrahmen und das Schema anzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port der Countfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#drop name Spalte
df = df.Drop ('Name')
#Überprüfen Sie den Datenrahmen
drucken (df.sammeln())
#Display das Schema
#nach dem Entfernen der Namensspalte
df.printSchema ()
Ausgang:
[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, Rollno = '001', Gewicht = 67), Zeile (Adresse = 'Hyd', Alter = 16, Größe = 3.79, Rollno = '002', Gewicht = 34), Zeile (Adresse = 'patna', Alter = 7, Größe = 2.79, Rollno = '003', Gewicht = 17), Zeile (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Rollno = '004', Gewicht = 28), Zeile (Adresse = 'Hyd', Alter = 37, Größe = 5.59, Rollno = '005', Gewicht = 54)]
Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- Höhe: doppelt (nullable = true)
|- rollno: string (nullable = true)
|- Gewicht: lang (nullable = true)
Im obigen Beispiel werden wir feststellen
Methode - 2: Mutiple -Spalten fallen lassen
Wir entfernen jeweils nur eine Spalte mit der Funktion Drop (), indem wir die Spalte innerhalb der Drop -Funktion übergeben. Wenn wir mehrere Spalten entfernen müssen, müssen wir addieren *, bevor die Spaltennamen entfernt werden ().
Syntax:
df.Drop (*('column_name', 'column_name',…, 'column_name'))
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, die fallen gelassen wird.
Beispiel :
In diesem Beispiel werden wir die Spalten des Namens, der Größe und des Gewichts fallen lassen und den resultierenden Datenrahmen zusammen mit dem Schema anzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port der Countfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#-Name, Größe und Gewichtsspalte
df = df.Drop (*('Name', 'Größe', 'Gewicht'))
#Überprüfen Sie den Datenrahmen
drucken (df.sammeln())
#Display das Schema
#nach dem Entfernen der Namensspalte
df.printSchema ()
Ausgang:
[Row (Adresse = 'Guntur', Alter = 23, Rollno = '001'), Row (Adresse = 'Hyd', Alter = 16, Rollno = '002'), Row (Adresse = 'Patna', Alter = 7 , Rollno = '003'), Row (Adresse = 'Hyd', Alter = 9, Rollno = '004'), Row (Adresse = 'Hyd', Alter = 37, Rollno = '005')]
Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- rollno: string (nullable = true)
Im obigen Beispiel werden wir feststellen, dass die Spalten von Namen, Größe und Gewicht im Dataframe nicht vorhanden sind.
Methode - 3: Mutiple -Spalten aus einer Liste fallen lassen
Wir entfernen jeweils nur eine Spalte mit der Funktion Drop (), indem wir die Spalte innerhalb der Drop -Funktion übergeben. Wenn wir mehrere Spalten entfernen müssen, müssen wir addieren *, bevor die Spaltennamen in eine Liste entfernt werden - [].
Syntax:
df.Drop (*Liste)
Hier wird die Liste mehrere Spalten enthält
list = (column_name ',' column_name ',…,' column_name ')
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, die fallen gelassen wird.
Beispiel :
In diesem Beispiel werden wir die Spalten des Namens, der Größe und des Gewichts fallen lassen, die über List1 geleitet werden und den resultierenden Datenrahmen zusammen mit dem Schema angezeigt werden.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port der Countfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#liste der Spalten
list1 = ['Name', 'Größe', 'Gewicht']
#drop -Spalten aus der Liste1
df = df.Drop (*LIST1)
#Überprüfen Sie den Datenrahmen
drucken (df.sammeln())
#Display das Schema
#nach dem Entfernen der Namensspalte
df.printSchema ()
Ausgang:
[Row (Adresse = 'Guntur', Alter = 23, Rollno = '001'), Row (Adresse = 'Hyd', Alter = 16, Rollno = '002'), Row (Adresse = 'Patna', Alter = 7 , Rollno = '003'), Row (Adresse = 'Hyd', Alter = 9, Rollno = '004'), Row (Adresse = 'Hyd', Alter = 37, Rollno = '005')]
Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- rollno: string (nullable = true)
Im obigen Beispiel werden wir feststellen, dass die Spalten von Namen, Größe und Gewicht im Dataframe nicht vorhanden sind.
Abschluss:
Wir haben besprochen, wie man die Spalten mit der Funktion Drop () fallen lässt, und wir haben auch besprochen, wie Sie mehrere Spalten gleichzeitig entfernen können, indem wir eine Liste von Spalten übergeben und mehrere Spalten bestanden haben.