PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von Pandas -Datenframe:
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
ISNA (), NOTNA () und NOTNull () -Funktionen werden verwendet, um zu überprüfen. Sie werden durch NAN (nicht eine Zahl) dargestellt; In Python können wir sie erstellen, indem wir keine verwenden.
Lassen Sie uns sie einzeln sehen.
PYSPARK.Pandas.Datenrahmen.Isna
ISNA wird verwendet, um zu überprüfen, ob der Wert null ist. Wenn es null ist, gibt es zu diesem Wert true zurück. Ansonsten gibt es falsche zurück. Es dauert keine Parameter.
Syntax
pyspark_pandas.IsnaWobei pyspark_pandas der pyspark pandas DataFrame ist.
Wir können auch in bestimmten Spalten überprüfen.
Syntax
pyspark_pandas.Spalte.IsnaWobei die Spalte der Spaltenname ist.
Beispiel 1
In diesem Beispiel werden wir mit ISNA nach NAN -Werten in der Spalte Mark1 -Spalte überprüfen.
Ausgang
0 FalschWir können sehen, dass in der zweiten und dritten Reihe - Nan verfügbar ist, so. In anderen Fällen gab es falsch zurück.
Beispiel 2
In diesem Beispiel werden wir mit ISNA nach NAN -Werten im gesamten PYSPARK PANDAS -Datenframe überprüfen.
Ausgang
student_lastname mark1 mark2 mark3Wir können sehen, dass Isna wahr zurückkehrt, wo Nan existiert.
PYSPARK.Pandas.Datenrahmen.NOTNA
Nichta wird verwendet, um zu überprüfen, ob der Wert nicht null ist. Wenn es null ist, gibt es bei diesem Wert false zurück. Ansonsten kehrt es wahr zurück. Es dauert keine Parameter.
Syntax
pyspark_pandas.NOTNAWobei pyspark_pandas der pyspark pandas DataFrame ist.
Wir können auch in bestimmten Spalten überprüfen.
Syntax
pyspark_pandas.Spalte.NOTNAWobei die Spalte der Spaltenname ist.
Beispiel 1
In diesem Beispiel werden wir mit NOTNA nach NAN -Werten in der Spalte Mark1 überprüfen.
Ausgang
0 wahrWir können sehen, dass in der zweiten und dritten Reihe Nan nicht verfügbar ist. An diesen Positionen kehrte Notta also falsch zurück. In anderen Fällen kehrte es wahr zurück.
Beispiel 2
In diesem Beispiel werden wir mit ISNA nach NAN -Werten im gesamten PYSPARK PANDAS -Datenframe überprüfen.
Ausgang
student_lastname mark1 mark2 mark3Wir können sehen, dass NOTNA falsch zurückkehrt, wo Nan existiert.
PYSPARK.Pandas.Datenrahmen.nicht null
Notnull ähnelt NOTNA, um zu überprüfen, ob der Wert nicht null ist. Wenn es null ist, gibt es bei diesem Wert false zurück. Ansonsten kehrt es wahr zurück. Es dauert keine Parameter.
Syntax
pyspark_pandas.nicht nullWobei pyspark_pandas der pyspark pandas DataFrame ist.
Wir können auch in bestimmten Spalten überprüfen.
Syntax
pyspark_pandas.Spalte.nicht nullWobei die Spalte der Spaltenname ist.
Beispiel 1
In diesem Beispiel werden wir mit NOTNULL auf NAN -Werte in der Spalte Mark1 prüfen.
Ausgang
0 wahrWir können sehen, dass Nan in der zweiten und dritten Reihe nicht verfügbar ist. An diesen Positionen kehrte nicht falsch zurück. In anderen Fällen kehrte es wahr zurück.
Beispiel 2
In diesem Beispiel werden wir im gesamten PySpark Pandas DataFrame unter Verwendung von Notnull nach NAN -Werten prüfen.
Ausgang
student_lastname mark1 mark2 mark3Wir können sehen, dass NOTNULL falsch zurückkehrt, wo Nan existiert.
Abschluss
In diesem PySpark Pandas DataFrame -Tutorial haben wir gesehen, wie die NAN -Werte im DataFrame überprüft werden. ISNA wird verwendet, um True zurückzugeben, wenn es Nan ist, und Notna und Notnull funktionieren dasselbe, indem er true zurückgibt, wenn der Wert nicht nan ist.