Es ist möglich, die größten Elemente in zwei oder mehr Spalten im PYSPARK -Datenframe zurückzugeben.
PYSPARK unterstützt die größte () -Funktion, die verwendet wird, um die höchsten Werte in mehreren Spalten über alle Zeilen in einer PYSPark -RDD oder in einem PySpark -Datenframe zu finden.
Es ist in der erhältlich PYSPARK.sql.Funktionen Modul.
Syntax:
DataFrame_OBJ.Wählen Sie (größte (DataFrame_OBJ.Spalte1, DataFrame_OBJ.Spalte2,…))
Parameter:
Es dauert Spalten als Parameter.
Wir können auf die Spalten mit der “zugreifen.Operator (Spalte1, Spalte2,. repräsentiert die Spaltennamen).
Daten:
Hier erstellen wir einen PYSPARK -Datenrahmen mit 5 Spalten -['Subjekt_ID', 'Name', 'Age', 'Technology1', 'Technology2'] mit 10 Zeilen.
pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()
Ausgang:
Jetzt werden wir die Beispiele sehen, die die größten Werte in zwei oder mehreren Spalten aus dem vorherigen Datenrahmen zurückgeben,.
Beispiel 1:
Wir haben den angegebenen Datenrahmen erstellt. Jetzt geben wir die größten Werte aus dem zurück Subjekt_ID Und Alter Säulen.
# Importieren Sie die größte Funktion aus dem Modul - pyspark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am größten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, größter (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()
Ausgang:
Erläuterung:
Sie können die beiden Spaltenwerte in jeder Zeile vergleichen.
Größte (4,23) - 23
Größte (4,23) - 23
Größte (46,22) -46
Größte (4,21) - 21
Größte (46,22) - 46
Größte (12,22) - 22
Größte (12,22) - 22
Größte (4,23) - 23
Größte (4,21) - 21
Größte (46,22) - 46.
Beispiel 2:
Wir haben den angegebenen Datenrahmen erstellt. Jetzt geben wir die größten Werte aus dem zurück Name , Technologie1, Und Technologie2 Säulen.
# Importieren Sie die größte Funktion aus dem Modul - pyspark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am größten
#Compare die Spalten - Name, Technologie1, Technologie2 und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
Größte (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()
Ausgang:
Hier werden die Zeichenfolgen basierend auf den ASCII -Werten verglichen.
Größte (Sravan, Php, Test) - Sravan
Größte (Sravan, Php, Test) - Sravan
Größte (Mounika, .Netz, HTML) - Mounika
Größte (Deepika, Oracle, HTML) - Deepika
Größte (Mounika, Oracle, Test) - Mounika
Größte (Chandrika, Hadoop, C#) - Chandrika
Größte (Chandrika, Oracle, Test) - Chandrika
Größter (Sravan, Oracle, C#) - Sravan
Größte (Deepika, Php, C#) - Deepika
Größte (Mounika,.Netz, Test) -mounika.
Ganzer Code:
pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()
# Importieren Sie die größte Funktion aus dem Modul - pyspark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am größten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, größter (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()
#Compare die Spalten - Name, Technologie1, Technologie2 und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
Größte (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()
Abschluss
Die größte () -Funktion wird verwendet, um die höchsten Werte in mehreren Spalten über alle Zeilen in einer PYSPARK -RDD oder in einem PYSPARK -Datenrahmen zu finden. Es vergleicht die Spalten nur mit ähnlichen Datentypen. Ansonsten erhöht es die Analyseausnahme - Die Ausdrücke sollten alle den gleichen Typ haben.