In diesem Artikel werden wir die Pandas DataFrame -Vergleichsbetreiber demonstrieren und wie sie in PYSPark verwendet werden können. Vorher müssen Sie das PYSPARK -Modul wie unten gezeigt installieren:
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von PANDAS -Datenframe
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben. Erstellen wir mit drei Spalten und fünf Zeilen einen Pandas -Datenframe über PYSPARK.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
Vergleichsbetreiber werden verwendet, um alle Werte im PYSPARK PANDAS -Datenframe mit einem Wert zu vergleichen. Es gibt wahr, wenn die Bedingung erfüllt ist; Andernfalls wird für alle Werte in einem Datenrahmen falsch zurückgegeben.
Lassen Sie uns sie einzeln sehen.
PYSPARK.Pandas.Datenrahmen.LT (weniger als Operator)
Dieser Vergleichsbetreiber wird verwendet, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.
Es ist auch möglich zu verwenden '<' - less than operator.
Syntax
pyspark_pandas.LT (Wert)Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.
BeispielIn diesem Beispiel vergleichen wir den oben erstellten Datenframe mit Wert - 75 mit LT und < operators.
#import pandas aus dem pysparkmodulAusgang
Beide Betreiber kehrten dasselbe zurück, und gemäß der Bedingung kehrten die Werte von weniger als 75 wahr zurück, und in anderen Fällen kehrte sie falsch zurück.
PYSPARK.Pandas.Datenrahmen.LE (weniger oder gleicher Operator)
LE ist der Vergleichsbetreiber, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.
Es ist auch möglich zu verwenden '<=' - less than or equal to operator.
Syntax
pyspark_pandas.LE (Wert)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.
Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenframe mit Wert - 75 mit LE und <= operators.
Ausgang
Beide Betreiber gaben dasselbe zurück, und gemäß der Bedingung wurden Werte weniger als oder gleich 75 zurückgegeben, und in anderen Fällen kehrte sie falsch zurück.
PYSPARK.Pandas.Datenrahmen.GT (größer als Operator)
Dieser Vergleichsbetreiber wird verwendet, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.
Es ist auch möglich, '>' zu verwenden - größer als der Bediener.
Syntax
pyspark_pandas.GT (Wert)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.
Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenrahmen mit Value - 75 mit GT- und> Operatoren.
Ausgang
Beide Operatoren kehrten dasselbe zurück, und gemäß der Bedingung kehrten die Werte von mehr als 75 TRUE zurück, und in anderen Fällen kehrten sie falsch zurück.
PYSPARK.Pandas.Datenrahmen.GE (größer als oder gleicher Operator)
GE ist der Vergleichsbetreiber, der verwendet wird, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.
Es ist auch möglich, '> =' zu verwenden - größer oder gleich dem Bediener.
Syntax
pyspark_pandas.GE (Wert)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.
Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenrahmen mit Wert - 75 mit GE und> = Operatoren.
Ausgang
Beide Operatoren kehrten dasselbe zurück, und gemäß der Bedingung wurden Werte größer oder gleich 75 zurückgegeben, und in anderen Fällen kehrte sie falsch zurück.
PYSPARK.Pandas.Datenrahmen.EQ (Gleichstellung logischer Operator)
EQ ist der Vergleichsbetreiber, der verwendet wird, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.
Es ist auch möglich, '==' zu verwenden - gleich dem Operator.
Syntax
pyspark_pandas.Gl. (Wert)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.
Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenrahmen mit Value - 97 mit EQ und == Operatoren.
Ausgang
Beide Betreiber gaben dasselbe zurück, und gemäß der Bedingung wurden Werte entspricht 97 true zurück, und in anderen Fällen kehrte sie falsch zurück.
PYSPARK.Pandas.Datenrahmen.NE (nicht gleich dem Operator)
NE ist der Vergleichsbetreiber, der verwendet wird, um zu überprüfen. Wenn ja, dann wird es für diesen Wert true; Ansonsten wird falsch zurückgegeben.
Es ist auch möglich zu verwenden '!= ' - Nicht dem Bediener entspricht.
Syntax
pyspark_pandas.NE (Wert)Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Parameter
Es nimmt den Wert als Parameter, der sich auf einen numerischen Wert bezieht.
Beispiel
In diesem Beispiel vergleichen wir den oben erstellten Datenframe mit Value - 97 mit NE und != Operatoren.
Ausgang
Beide Operatoren kehrten dasselbe zurück, und gemäß der Bedingung sind die Werte nicht gleich 97 zurückgegeben, und in anderen Fällen kehrten sie falsch zurück.
Abschluss
In diesem pyspark pandas-Artikel sehen wir, wie verschiedene Vergleichsbetreiber über integrierte Operatoren und normale Operatoren auf DataFrame angewendet werden können. Jeder Bediener gibt einen booleschen Wert im PYSPARK Pandas DataFrame Element Wise zurück. Die von uns verwendeten Vergleichsbetreiber sind: EQ (), NE (), LT (), GT (), LE () und GE ().