PYSPARK - Drop, Drop -Spalte

Stephan Harms

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Drop () in PySpark wird verwendet, um die Spalten aus dem Datenrahmen zu entfernen. Durch die Verwendung von Drop () können wir im PYSPARK -Datenframe mehr als eine Spalte gleichzeitig entfernen. Wir können die Spalten aus dem DataFrame auf drei Arten fallen lassen. Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Zeigen Sie nun das DataFrame -Schema mit der Methode PrintSchema () an, um die Spalten zu überprüfen, bevor Sie die Spalten entfernen.

Diese Methode gibt die Spaltennamen zusammen mit ihrem Datentyp zurück.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Port der Countfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display das Schema
df.printSchema ()

Ausgang:

Methode -1: Einzelspalte fallen lassen

Wir entfernen jeweils nur eine Spalte mit der Funktion Drop (), indem wir die Spalte innerhalb der Drop -Funktion übergeben.

Syntax:

df.Drop ('column_name')

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Column_Name ist die Spalte, die fallen gelassen wird.

Beispiel :

In diesem Beispiel werden wir die Spalte Name fallen lassen und den resultierenden Datenrahmen und das Schema anzeigen.

Ausgang:

[Zeile (Adresse = 'Guntur', Alter = 23, Höhe = 5.79, Rollno = '001', Gewicht = 67), Zeile (Adresse = 'Hyd', Alter = 16, Größe = 3.79, Rollno = '002', Gewicht = 34), Zeile (Adresse = 'patna', Alter = 7, Größe = 2.79, Rollno = '003', Gewicht = 17), Zeile (Adresse = 'Hyd', Alter = 9, Höhe = 3.69, Rollno = '004', Gewicht = 28), Zeile (Adresse = 'Hyd', Alter = 37, Größe = 5.59, Rollno = '005', Gewicht = 54)]
Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- Höhe: doppelt (nullable = true)
|- rollno: string (nullable = true)
|- Gewicht: lang (nullable = true)

Im obigen Beispiel werden wir feststellen

Methode - 2: Mutiple -Spalten fallen lassen

Wir entfernen jeweils nur eine Spalte mit der Funktion Drop (), indem wir die Spalte innerhalb der Drop -Funktion übergeben. Wenn wir mehrere Spalten entfernen müssen, müssen wir addieren *, bevor die Spaltennamen entfernt werden ().

Syntax:

df.Drop (*('column_name', 'column_name',…, 'column_name'))

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Column_Name ist die Spalte, die fallen gelassen wird.

Beispiel :

In diesem Beispiel werden wir die Spalten des Namens, der Größe und des Gewichts fallen lassen und den resultierenden Datenrahmen zusammen mit dem Schema anzeigen.

Ausgang:

[Row (Adresse = 'Guntur', Alter = 23, Rollno = '001'), Row (Adresse = 'Hyd', Alter = 16, Rollno = '002'), Row (Adresse = 'Patna', Alter = 7 , Rollno = '003'), Row (Adresse = 'Hyd', Alter = 9, Rollno = '004'), Row (Adresse = 'Hyd', Alter = 37, Rollno = '005')]
Wurzel
|- Adresse: String (nullable = true)
|- Alter: lang (nullable = true)
|- rollno: string (nullable = true)

Im obigen Beispiel werden wir feststellen, dass die Spalten von Namen, Größe und Gewicht im Dataframe nicht vorhanden sind.

Methode - 3: Mutiple -Spalten aus einer Liste fallen lassen

Syntax:

df.Drop (*Liste)

Hier wird die Liste mehrere Spalten enthält

list = (column_name ',' column_name ',…,' column_name ')

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Column_Name ist die Spalte, die fallen gelassen wird.

Beispiel :

In diesem Beispiel werden wir die Spalten des Namens, der Größe und des Gewichts fallen lassen, die über List1 geleitet werden und den resultierenden Datenrahmen zusammen mit dem Schema angezeigt werden.

Ausgang:

Im obigen Beispiel werden wir feststellen, dass die Spalten von Namen, Größe und Gewicht im Dataframe nicht vorhanden sind.

Abschluss:

Wir haben besprochen, wie man die Spalten mit der Funktion Drop () fallen lässt, und wir haben auch besprochen, wie Sie mehrere Spalten gleichzeitig entfernen können, indem wir eine Liste von Spalten übergeben und mehrere Spalten bestanden haben.

Windows

Wie man einen Computer beschleunigt

Möglichkeiten, den Computer zu beschleunigen, wenn er in Windows 10, 8, verlangsamt.1 und Windows 7....

Prof. Dr. Finja Goebel

Windows

Wie man herausfindet, mit welchem Scheibenplatz beschäftigt ist?

Kostenlose Programme zur Analyse eines Platzes auf einer Festplatte, so....

Nathanael Koha

Programme

Überprüfen und Installieren von Programmaktualisierungen in SUMO

So überprüfen Sie schnell die Updates von Programmen auf dem Computer und installieren Sie sie mit d...

Dario Hiebl