Wenn wir die Werte aus der Spalte DataFrame in pySpark zurückgeben möchten, wird die in pySpark verfügbare Methode containes () verwendet, um die Zeilen basierend auf den darin angegebenen Werten zurückzugeben.
Es kann entweder mit der Filterklausel oder in der Klausel verwendet werden. Wir werden sie einzeln mit den verschiedenen Beispielen sehen.
Syntax
DataFrame_Object.filter (DataFrame_OBJ.Spalte.Enthält (Wert/String))
DataFrame_Object.Wo (DataFrame_OBJ.Spalte.Enthält (Wert/String))
Wo,
DataFrame_Object ist der PYSPARK -Datenrahmen.
Parameter:
Die Funktion enthält () nimmt einen Parameter an.
Es kann ein Wert oder eine Zeichenfolge sein, die die Funktion enthält () überprüft, ob der angegebene Wert in der Spalte DataFrame vorhanden ist oder nicht.
Zurückkehren:
Basierend auf diesem Spaltenwert wird die gesamte Zeile zurückgegeben.
Zunächst erstellen wir den PYSPark -Datenframe mit 10 Zeilen und 5 Spalten.
pysspark importieren
aus pysspark.SQL Import *
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(2, 'Sravan', 23, "Oracle", "Testing"),
(46, 'Mounika', 22, ','.Net ',' html '),
(12, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(45, 'Sravan', 23, "Oracle", "C#"),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
DataFrame_OBJ.zeigen()
Ausgang:
Wenden wir nun die Funktion containes () auf dem PYSPARK -Datenrahmen an, um die Ergebnisse zurückzugeben.
Beispiel 1
Wir geben die String 'Sravan' in der Spalte Name innerhalb der contains () -Methode an und geben alle Zeilen zurück, die dieser Zeichenfolge entsprechen.
#Check für String -Sravan in der Spalte Name und geben Sie Zeilen mit Namen zurück - Sravan.
print ("-------- Verwenden Sie wo () Klausel --------")
DataFrame_OBJ.Wo (DataFrame_OBJ.Name.enthält ('sravan')).zeigen()
#Check für String -Sravan in der Spalte Name und geben Sie Zeilen mit Namen zurück - Sravan.
print ("-------- Verwenden von Filter () Klausel --------")
DataFrame_OBJ.filter (DataFrame_OBJ.Name.enthält ('sravan')).zeigen()
Ausgang:
Erläuterung
Sie können sehen, dass Sravan dreimal gefunden wird und die Zeilen zurückgegeben wurden.
Beispiel 2
Wir werden die Zeichenfolge 'PHP' in der Spalte Technology1 in der Methode contains () bereitstellen und alle Zeilen zurückgeben, die dieser Zeichenfolge entsprechen.
#Check für String- PHP in der Spalte Technology1 und Return Zeilen mit Technology1 - PHP.
print ("-------- Verwenden Sie wo () Klausel --------")
DataFrame_OBJ.Wo (DataFrame_OBJ.Technologie1.enthält ('php')).zeigen()
#Check für String- PHP in der Spalte Technology1 und Return Zeilen mit Technology1 - PHP.
Print ("-------- Verwenden von Filter () Klausel --------")
DataFrame_OBJ.filter (DataFrame_OBJ.Technologie1.enthält ('php')).zeigen()
Ausgang:
Erläuterung
Sie können sehen, dass PHP in der Spalte Technology1 zweimal gefunden wird und die Zeilen zurückgegeben wurden.
Beispiel 3
Wir geben den Wert 46 in der Spalte von Subjekt_ID innerhalb der Methode contains () an und geben alle Zeilen zurück, die mit diesem Wert entsprechen.
#Check for Value - 46 in der Spalte von Subjekt_ID und Zeilen mit Subjekt_ID - 46 zurück.
print ("-------- Verwenden Sie wo () Klausel --------")
DataFrame_OBJ.Wo (DataFrame_OBJ.Subjekt_ID.Enthält (46)).zeigen()
#Check for Value - 46 in der Spalte von Subjekt_ID und Zeilen mit Subjekt_ID - 46 zurück.
print ("-------- Verwenden von Filter () Klausel --------")
DataFrame_OBJ.filter (DataFrame_OBJ.Subjekt_ID.Enthält (46)).zeigen()
Ausgang:
Erläuterung
Sie sehen.
Beispiel 4
Wir geben den Wert 1000 in der Spalte von Subjekt_ID innerhalb der Methode contains () an und geben alle Zeilen zurück, die mit diesem Wert entsprechen.
#Check for Value - 1000 in der Spalte von Subjekt_ID und geben Zeilen mit Subjekt_ID zurück - 1000.
print ("-------- Verwenden Sie wo () Klausel --------")
DataFrame_OBJ.Wo (DataFrame_OBJ.Subjekt_ID.Enthält (1000)).zeigen()
#Check for Value - 1000 in der Spalte von Subjekt_ID und geben Zeilen mit Subjekt_ID zurück - 1000.
print ("-------- Verwenden von Filter () Klausel --------")
DataFrame_OBJ.filter (DataFrame_OBJ.Subjekt_ID.Enthält (1000)).zeigen()
Ausgang:
Erläuterung
Sie können sehen, dass 1000 in der Spalte von Subjekt nicht zu finden ist. Also wurden keine Zeilen zurückgegeben.
Abschluss
In diesem PYSPARK -Tutorial wurde erläutert, dass es möglich ist, die im Datenrahmen vorhandenen Zeilen mit der Methode contains () zu filtern. Wir haben vier verschiedene Beispiele gesehen, um dieses Konzept besser zu verstehen. Es ist möglich, diese Methode mithilfe der Funktionen von WO WHO () und Filter () zu verwenden.