Pysspark zwischen Funktion

Pysspark zwischen Funktion
Die zwischen ()) Funktion in pyspark verwendet, um die Werte innerhalb des angegebenen Bereichs auszuwählen. Es kann mit der Methode Select () verwendet werden.

Es wird über alle Werte innerhalb des angegebenen Bereichs true zurückkehren.

Für die Werte, die sich nicht im angegebenen Bereich befinden, wird FALSE zurückgegeben.

Syntax
DataFrame_OBJ.select (DataFrame_OBJ.Alter.zwischen (niedrig, hoch))

Wo,
DataFrame_Object ist der PYSPARK -Datenrahmen.

Parameter:
Es dauert zwei Parameter.

  1. Der Tief ist der Startbereich sein
  2. Der Hoch wird der Endbereich sein.

Zurückkehren:
Es gibt alle Zeilen mit booleschen Werten zurück (True/False).

Wir werden uns verschiedene Beispiele ansehen.

Beispiel 1
Hier erhalten wir die Werte in der Altersspalte, die im Bereich von 10 bis 21 liegen.

pysspark importieren
aus pysspark.SQL Import *
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(2, 'Sravan', 23, "Oracle", "Testing"),
(46, 'Mounika', 22, ','.Net ',' html '),
(12, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(45, 'Sravan', 23, "Oracle", "C#"),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("--- tatsächlicher Datenrahmen ---")
DataFrame_OBJ.zeigen()
print ("--- die Werte in der Altersspalte zwischen 10 und 21 ---")
DataFrame_OBJ.select (DataFrame_OBJ.Alter, DataFrame_OBJ.Alter.Zwischen (10, 21)).zeigen()

Ausgang:

Sie können sehen, dass die Werte in der Altersspalte zwischen 10 und 21 true. Der Rest der Werte kehrte falsch zurück.

Beispiel 2
Hier haben wir die Werte in der Spalte Subjekt_ID, die im Bereich von 40 bis 46 liegen.

pysspark importieren
aus pysspark.SQL Import *
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(2, 'Sravan', 23, "Oracle", "Testing"),
(46, 'Mounika', 22, ','.Net ',' html '),
(12, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(45, 'Sravan', 23, "Oracle", "C#"),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("--- tatsächlicher Datenrahmen ---")
DataFrame_OBJ.zeigen()
print ("--- Die Werte in der Spalte Subjekt_ID zwischen 40 und 46 ---")
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Subjekt_ID.Zwischen (40,46)).zeigen()

Ausgang:

Sie können sehen, dass die Werte in der Spalte Subjekt_ID true zurückgegeben wurden und zwischen 40 und 46 liegen. Der Rest der Werte wird falsch zurückgegeben.

Beispiel 3
Hier erhalten wir die Werte in der Spalte Subjekt_ID, die im Bereich von 60 bis 100 liegen.

pysspark importieren
aus pysspark.SQL Import *
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(2, 'Sravan', 23, "Oracle", "Testing"),
(46, 'Mounika', 22, ','.Net ',' html '),
(12, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(45, 'Sravan', 23, "Oracle", "C#"),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("--- tatsächlicher Datenrahmen ---")
DataFrame_OBJ.zeigen()
print ("--- Die Werte in der Spalte Subjekt_ID zwischen 60 und 100 ---")
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Subjekt_ID.Zwischen (60.100)).zeigen()

Ausgang:

Sie können sehen, dass die NO -Werte in der Spalte subjekt_id nicht im angegebenen Bereich liegen. Für alle Reihen wird falsch zurückgegeben.

Abschluss

In diesem PYSPARK -Tutorial haben wir die zwischen ()) Funktion erörtert. Wobei die Funktion zwischen () die Werte innerhalb des angegebenen Bereichs auswählt. Es kann mit der Methode Select () verwendet werden. Es wird True über alle Werte zurückgeben, die sich innerhalb des angegebenen Bereichs befinden. Für die Werte, die sich nicht im angegebenen Bereich befinden, wird FALSE zurückgegeben.