PYSPARK - Dropna

PYSPARK - Dropna

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

Dropna () im pyspark wird verwendet, um die Nullwerte aus dem Datenrahmen zu entfernen. Bevor wir diese Methode diskutieren. Wir können Nullwerte mit keinem Wert erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten mit Nullwerten und zeigen ihn mit der modal modus () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': Keine, 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 56, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': Keine, 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': Keine,
'Rollno': Keine, 'Name': Keine, 'Alter': Keine, 'Größe': Keine, 'Gewicht': Keine, 'Adresse': Keine]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

Syntax:

Datenrahmen.Dropna (wie, Drise, Untergruppe)

Wo,

  1. Datenrahmen ist der Eingabe pyspark DataFrame
  2. Wie ist der erste optionale Parameter, der zwei mögliche Werte erfordert
  1. beliebig - Dieser Wert lässt die Zeilen fallen, wenn der Wert in Zeilen/Spalten null ist.
  2. alle - Dieser Wert löst die Zeilen ab, wenn alle Werte in Zeilen/Spalten null sind.
  1. dreschen ist ein zweiter optionaler Parameter, um die Zeilen / Spalten basierend auf dem ihm zugewiesenen Ganzzahlwert fallen zu lassen. Wenn die in Zeile/Spalte des PYSpark-Datenrahmens vorhandenen Nicht-Null-Werte geringer sind als der genannte Thresh-Wert, können die Nullwerte aus diesen Zeilen fallen gelassen werden.
  2. Teilmenge ist ein dritter optionaler Parameter, der verwendet wird, um die Werte aus der genannten Spalte/s zu fallen. Es werden einzelne/mehrere Spalten als Eingabe über ein Tupel von Spaltennamen verwendet.

Beispiel 1:

In diesem Beispiel fallen wir die Zeilen aus dem oben erstellten Datenrahmen ohne Parameter ab und zeigen den DataFrame mithilfe der modal () -Methode an. Das Ergebnis wird also die letzte Zeile sein, da es in dieser Zeile keine Nullwerte enthält.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': Keine, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': Keine, 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 56, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': Keine, 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': Keine,
'Rollno': Keine, 'Name': Keine, 'Alter': Keine, 'Größe': Keine, 'Gewicht': Keine, 'Adresse': Keine]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Drop den Datenrahmen ohne Parameter
df.Dropna ().zeigen()

Ausgang:

Beispiel 2:

In diesem Beispiel fallen die Zeilen aus dem oben erstellten Datenrahmen, indem wir angeben, wie Parameter und auf "All" festgelegt und den DataFrame mit der Methode show () angezeigt werden. Das Ergebnis sind also alle Zeilen mit Ausnahme der letzten Zeile, da es alle Nullwerte enthält.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': Keine, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': Keine, 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 56, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': Keine, 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': Keine,
'Rollno': Keine, 'Name': Keine, 'Alter': Keine, 'Größe': Keine, 'Gewicht': Keine, 'Adresse': Keine]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Drop den Datenrahmen mit dem Parameter
df.Dropna (wie = 'alle').zeigen()

Ausgang:

Beispiel 3:

In diesem Beispiel fallen die Zeilen aus dem oben erstellten Datenrahmen ein, indem wir angeben, wie Parameter und auf "beliebig" festgelegt und der DataFrame mithilfe der Messe () -Methode angezeigt werden. Das Ergebnis ist also eine einzelne Zeile, die keine Nullwerte enthält.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': Keine, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': Keine, 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 56, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': Keine, 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': Keine,
'Rollno': Keine, 'Name': Keine, 'Alter': Keine, 'Größe': Keine, 'Gewicht': Keine, 'Adresse': Keine]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Drop den Datenrahmen mit dem Parameter
df.Dropna (wie = 'any').zeigen()

Ausgang:

Beispiel 4:

In diesem Beispiel fallen die Zeilen aus dem oben erstellten Datenrahmen aus, indem wir den Parameter des Thresh angeben und auf 5 festlegen und den DataFrame mithilfe der Messe () -Methode anzeigen. Das Ergebnis sind also zwei Zeilen, da diese Zeilen mehr als 5 Nicht-Null-Werte aufweisen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': Keine, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': Keine, 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 56, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': Keine, 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': Keine,
'Rollno': Keine, 'Name': Keine, 'Alter': Keine, 'Größe': Keine, 'Gewicht': Keine, 'Adresse': Keine]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Drop den DataFrame mit dem Parameter von Thresh
df.Dropna (Thresh = 5).zeigen()

Ausgang:

Beispiel 5:

In diesem Beispiel löschen wir die Zeilen aus dem oben erstellten Datenrahmen, indem wir den Parameter des Untergrunds angeben und die Spalte „Gewicht“ zuweisen und den DataFrame mithilfe der Messe () -Methode anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': Keine, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': Keine, 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 56, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': Keine, 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': Keine,
'Rollno': Keine, 'Name': Keine, 'Alter': Keine, 'Größe': Keine, 'Gewicht': Keine, 'Adresse': Keine]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Drop den Datenrahmen mit dem Teilmenschparameter
df.Dropna (Subset = "Gewicht").zeigen()

Ausgang:

Beispiel 6:

In diesem Beispiel lassen wir die Zeilen aus dem oben erstellten Datenrahmen fallen, indem wir den Parameter des Untergrunds angeben und Spalten „Gewicht“ und „Name“ zuweisen und den DataFrame mithilfe der methode show () anzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': Keine, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': Keine, 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 56, 'Höhe': 2.79, 'Gewicht': 17,
'Adresse': 'Patna',
'Rollno': Keine, 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': Keine,
'Rollno': Keine, 'Name': Keine, 'Alter': Keine, 'Größe': Keine, 'Gewicht': Keine, 'Adresse': Keine]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Drop den Datenrahmen mit dem Teilmenschparameter
df.Dropna (Subset = ("Gewicht", "Name")).zeigen()

Ausgang:

Abschluss

In diesem Artikel haben wir uns über die Verwendung der Dropna () -Methode mit PYSpark -Datenrahmen verwenden, indem wir alle Parameter berücksichtigen. Wir können auch alle Nullwerte aus dem Datenrahmen fallen lassen, ohne diese Parameter anzugeben.