PYSPARK - PANDAS DataFrame ISNA, NOTNA, NOTNULL

PYSPARK - PANDAS DataFrame ISNA, NOTNA, NOTNULL
„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark unter Verwendung von DataFrame bereitgestellt wird, mit dem die angegebenen Daten im Zeilen- und Spaltenformat gespeichert werden können.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von Pandas -Datenframe:

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, keine], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

ISNA (), NOTNA () und NOTNull () -Funktionen werden verwendet, um zu überprüfen. Sie werden durch NAN (nicht eine Zahl) dargestellt; In Python können wir sie erstellen, indem wir keine verwenden.

Lassen Sie uns sie einzeln sehen.

PYSPARK.Pandas.Datenrahmen.Isna

ISNA wird verwendet, um zu überprüfen, ob der Wert null ist. Wenn es null ist, gibt es zu diesem Wert true zurück. Ansonsten gibt es falsche zurück. Es dauert keine Parameter.

Syntax

pyspark_pandas.Isna

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Wir können auch in bestimmten Spalten überprüfen.

Syntax

pyspark_pandas.Spalte.Isna

Wobei die Spalte der Spaltenname ist.

Beispiel 1
In diesem Beispiel werden wir mit ISNA nach NAN -Werten in der Spalte Mark1 -Spalte überprüfen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, keine], 'Mark3': [91,92,98,97,87])
#Conck für keine Werte in der Spalte Mark1
print (pyspark_pandas.Mark1.ISNA ())

Ausgang

0 Falsch
1 wahr
2 wahr
3 Falsch
4 Falsch
Name: Mark1, DTYPE: Bool

Wir können sehen, dass in der zweiten und dritten Reihe - Nan verfügbar ist, so. In anderen Fällen gab es falsch zurück.

Beispiel 2
In diesem Beispiel werden wir mit ISNA nach NAN -Werten im gesamten PYSPARK PANDAS -Datenframe überprüfen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, keine], 'Mark3': [91,92,98,97,87])
#Conck für keine Werte im gesamten Datenrahmen
print (pyspark_pandas.ISNA ())

Ausgang

student_lastname mark1 mark2 mark3
0 Falsch falsch falsch falsch
1 wahres wahres falsches falsches falsch
2 Falsch wahres Falsch falsch
3 Falsch falsch falsch falsch
4 Falsch falsches wahres Falsch

Wir können sehen, dass Isna wahr zurückkehrt, wo Nan existiert.

PYSPARK.Pandas.Datenrahmen.NOTNA

Nichta wird verwendet, um zu überprüfen, ob der Wert nicht null ist. Wenn es null ist, gibt es bei diesem Wert false zurück. Ansonsten kehrt es wahr zurück. Es dauert keine Parameter.

Syntax

pyspark_pandas.NOTNA

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Wir können auch in bestimmten Spalten überprüfen.

Syntax

pyspark_pandas.Spalte.NOTNA

Wobei die Spalte der Spaltenname ist.

Beispiel 1
In diesem Beispiel werden wir mit NOTNA nach NAN -Werten in der Spalte Mark1 überprüfen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, keine], 'Mark3': [91,92,98,97,87])
#Conck für keine Werte in der Spalte Mark1
print (pyspark_pandas.Mark1.NOTNA ())

Ausgang

0 wahr
1 Falsch
2 Falsch
3 wahr
4 wahr
Name: Mark1, DTYPE: Bool

Wir können sehen, dass in der zweiten und dritten Reihe Nan nicht verfügbar ist. An diesen Positionen kehrte Notta also falsch zurück. In anderen Fällen kehrte es wahr zurück.

Beispiel 2
In diesem Beispiel werden wir mit ISNA nach NAN -Werten im gesamten PYSPARK PANDAS -Datenframe überprüfen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, keine], 'Mark3': [91,92,98,97,87])
#Conck für keine Werte im gesamten Datenrahmen
print (pyspark_pandas.NOTNA ())

Ausgang

student_lastname mark1 mark2 mark3
0 wahr wahr wahr wahr wahr
1 Falsch falsch wahr wahr wahr
2 Richtig Falsch wahr wahr wahr
3 wahr wahr wahr wahr wahr
4 Richtig wahres Falsch wahr

Wir können sehen, dass NOTNA falsch zurückkehrt, wo Nan existiert.

PYSPARK.Pandas.Datenrahmen.nicht null

Notnull ähnelt NOTNA, um zu überprüfen, ob der Wert nicht null ist. Wenn es null ist, gibt es bei diesem Wert false zurück. Ansonsten kehrt es wahr zurück. Es dauert keine Parameter.

Syntax

pyspark_pandas.nicht null

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Wir können auch in bestimmten Spalten überprüfen.

Syntax

pyspark_pandas.Spalte.nicht null

Wobei die Spalte der Spaltenname ist.

Beispiel 1
In diesem Beispiel werden wir mit NOTNULL auf NAN -Werte in der Spalte Mark1 prüfen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, keine], 'Mark3': [91,92,98,97,87])
#Conck für keine Werte in der Spalte Mark1
print (pyspark_pandas.Mark1.nicht null())

Ausgang

0 wahr
1 Falsch
2 Falsch
3 wahr
4 wahr
Name: Mark1, DTYPE: Bool

Wir können sehen, dass Nan in der zweiten und dritten Reihe nicht verfügbar ist. An diesen Positionen kehrte nicht falsch zurück. In anderen Fällen kehrte es wahr zurück.

Beispiel 2
In diesem Beispiel werden wir im gesamten PySpark Pandas DataFrame unter Verwendung von Notnull nach NAN -Werten prüfen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, keine], 'Mark3': [91,92,98,97,87])
#Conck für keine Werte im gesamten Datenrahmen
print (pyspark_pandas.nicht null())

Ausgang

student_lastname mark1 mark2 mark3
0 wahr wahr wahr wahr wahr
1 Falsch falsch wahr wahr wahr
2 Richtig Falsch wahr wahr wahr
3 wahr wahr wahr wahr wahr
4 Richtig wahres Falsch wahr

Wir können sehen, dass NOTNULL falsch zurückkehrt, wo Nan existiert.

Abschluss

In diesem PySpark Pandas DataFrame -Tutorial haben wir gesehen, wie die NAN -Werte im DataFrame überprüft werden. ISNA wird verwendet, um True zurückzugeben, wenn es Nan ist, und Notna und Notnull funktionieren dasselbe, indem er true zurückgibt, wenn der Wert nicht nan ist.