PYSPARK - Pandas DataFrame -Vergleich Operatoren

PYSPARK - Pandas DataFrame -Vergleich Operatoren
In Python ist PySpark ein Spark -Modul, das eine ähnliche Art von Verarbeitung wie Spark unter Verwendung von DataFrame bietet, mit dem die angegebenen Daten im Zeilen- und Spaltenformat gespeichert werden können. PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern. PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.

In diesem Artikel werden wir die Pandas DataFrame -Vergleichsbetreiber demonstrieren und wie sie in PYSPark verwendet werden können. Vorher müssen Sie das PYSPARK -Modul wie unten gezeigt installieren:

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Datenframe

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben. Erstellen wir mit drei Spalten und fünf Zeilen einen Pandas -Datenframe über PYSPARK.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Anzeige
print (pyspark_pandas)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

Vergleichsbetreiber werden verwendet, um alle Werte im PYSPARK PANDAS -Datenframe mit einem Wert zu vergleichen. Es gibt wahr, wenn die Bedingung erfüllt ist; Andernfalls wird für alle Werte in einem Datenrahmen falsch zurückgegeben.

Lassen Sie uns sie einzeln sehen.

PYSPARK.Pandas.Datenrahmen.LT (weniger als Operator)

Dieser Vergleichsbetreiber wird verwendet, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.

Es ist auch möglich zu verwenden '<' - less than operator.

Syntax

pyspark_pandas.LT (Wert)
pyspark_pandasWobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.

BeispielIn diesem Beispiel vergleichen wir den oben erstellten Datenframe mit Wert - 75 mit LT und < operators.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Überprüfen Sie alle Werte im obigen Datenrahmen weniger als 75
print (pyspark_pandas.lt (75))
drucken()
#Überprüfen Sie alle Werte im obigen Datenrahmen weniger als 75
print (pyspark_pandas<75)

Ausgang

Beide Betreiber kehrten dasselbe zurück, und gemäß der Bedingung kehrten die Werte von weniger als 75 wahr zurück, und in anderen Fällen kehrte sie falsch zurück.

PYSPARK.Pandas.Datenrahmen.LE (weniger oder gleicher Operator)

LE ist der Vergleichsbetreiber, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.

Es ist auch möglich zu verwenden '<=' - less than or equal to operator.

Syntax

pyspark_pandas.LE (Wert)
pyspark_pandas<=value

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.

Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenframe mit Wert - 75 mit LE und <= operators.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Überprüfen Sie alle Werte im obigen Datenrahmen weniger als oder gleich 75
print (pyspark_pandas.le (75))
drucken()
#Überprüfen Sie alle Werte im obigen Datenrahmen weniger als oder gleich 75
print (pyspark_pandas<=75)

Ausgang

Beide Betreiber gaben dasselbe zurück, und gemäß der Bedingung wurden Werte weniger als oder gleich 75 zurückgegeben, und in anderen Fällen kehrte sie falsch zurück.

PYSPARK.Pandas.Datenrahmen.GT (größer als Operator)

Dieser Vergleichsbetreiber wird verwendet, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.

Es ist auch möglich, '>' zu verwenden - größer als der Bediener.

Syntax

pyspark_pandas.GT (Wert)
pyspark_pandas> Wert

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.

Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenrahmen mit Value - 75 mit GT- und> Operatoren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Überprüfen Sie alle Werte im obigen Datenrahmen mehr als 75
print (pyspark_pandas.GT (75))
drucken()
#Überprüfen Sie alle Werte im obigen Datenrahmen mehr als 75
print (pyspark_pandas> 75)

Ausgang

Beide Operatoren kehrten dasselbe zurück, und gemäß der Bedingung kehrten die Werte von mehr als 75 TRUE zurück, und in anderen Fällen kehrten sie falsch zurück.

PYSPARK.Pandas.Datenrahmen.GE (größer als oder gleicher Operator)

GE ist der Vergleichsbetreiber, der verwendet wird, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.

Es ist auch möglich, '> =' zu verwenden - größer oder gleich dem Bediener.

Syntax

pyspark_pandas.GE (Wert)
pyspark_pandas> = Wert

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.

Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenrahmen mit Wert - 75 mit GE und> = Operatoren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Überprüfen Sie, ob alle Werte im obigen Datenrahmen größer oder gleich 75 sind
print (pyspark_pandas.GE (75))
drucken()
#Überprüfen Sie, ob alle Werte im obigen Datenrahmen größer oder gleich 75 sind
print (pyspark_pandas> = 75)

Ausgang

Beide Operatoren kehrten dasselbe zurück, und gemäß der Bedingung wurden Werte größer oder gleich 75 zurückgegeben, und in anderen Fällen kehrte sie falsch zurück.

PYSPARK.Pandas.Datenrahmen.EQ (Gleichstellung logischer Operator)

EQ ist der Vergleichsbetreiber, der verwendet wird, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.

Es ist auch möglich, '==' zu verwenden - gleich dem Operator.

Syntax

pyspark_pandas.Gl. (Wert)
pyspark_pandas == Wert

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.

Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenrahmen mit Value - 97 mit EQ und == Operatoren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Überprüfen Sie alle Werte im obigen Datenrahmen entsprechen 97
print (pyspark_pandas.Gl (97))
drucken()
#Überprüfen Sie alle Werte im obigen Datenrahmen entsprechen 97
print (pyspark_pandas == 97)

Ausgang

Beide Betreiber gaben dasselbe zurück, und gemäß der Bedingung wurden Werte entspricht 97 true zurück, und in anderen Fällen kehrte sie falsch zurück.

PYSPARK.Pandas.Datenrahmen.NE (nicht gleich dem Operator)

NE ist der Vergleichsbetreiber, der verwendet wird, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.

Es ist auch möglich zu verwenden '!= ' - Nicht dem Bediener entspricht.

Syntax

pyspark_pandas.NE (Wert)
pyspark_pandas!= Wert

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.

Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenframe mit Value - 97 mit NE und != Operatoren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Überprüfen Sie alle Werte im obigen Datenrahmen nicht gleich 97
print (pyspark_pandas.NE (97))
drucken()
#Überprüfen Sie alle Werte im obigen Datenrahmen nicht gleich 97
print (pyspark_pandas!= 97)

Ausgang

Beide Operatoren kehrten dasselbe zurück, und gemäß der Bedingung sind die Werte nicht gleich 97 zurückgegeben, und in anderen Fällen kehrten sie falsch zurück.

Abschluss

In diesem pyspark pandas-Artikel sehen wir, wie verschiedene Vergleichsbetreiber über integrierte Operatoren und normale Operatoren auf DataFrame angewendet werden können. Jeder Bediener gibt einen booleschen Wert im PYSPARK Pandas DataFrame Element Wise zurück. Die von uns verwendeten Vergleichsbetreiber sind: EQ (), NE (), LT (), GT (), LE () und GE ().