Pysspark - größte Funktion

Pysspark - größte Funktion
Es ist möglich, die größten Elemente in zwei oder mehr Spalten im PYSPARK -Datenframe zurückzugeben.

PYSPARK unterstützt die größte () -Funktion, die verwendet wird, um die höchsten Werte in mehreren Spalten über alle Zeilen in einer PYSPark -RDD oder in einem PySpark -Datenframe zu finden.

Es ist in der erhältlich PYSPARK.sql.Funktionen Modul.

Syntax:

DataFrame_OBJ.Wählen Sie (größte (DataFrame_OBJ.Spalte1, DataFrame_OBJ.Spalte2,…))

Parameter:

Es dauert Spalten als Parameter.

Wir können auf die Spalten mit der “zugreifen.Operator (Spalte1, Spalte2,. repräsentiert die Spaltennamen).

Daten:

Hier erstellen wir einen PYSPARK -Datenrahmen mit 5 Spalten -['Subjekt_ID', 'Name', 'Age', 'Technology1', 'Technology2'] mit 10 Zeilen.

pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()

Ausgang:

Jetzt werden wir die Beispiele sehen, die die größten Werte in zwei oder mehreren Spalten aus dem vorherigen Datenrahmen zurückgeben,.

Beispiel 1:

Wir haben den angegebenen Datenrahmen erstellt. Jetzt geben wir die größten Werte aus dem zurück Subjekt_ID Und Alter Säulen.

# Importieren Sie die größte Funktion aus dem Modul - pyspark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am größten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, größter (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()

Ausgang:

Erläuterung:

Sie können die beiden Spaltenwerte in jeder Zeile vergleichen.

Größte (4,23) - 23
Größte (4,23) - 23
Größte (46,22) -46
Größte (4,21) - 21
Größte (46,22) - 46
Größte (12,22) - 22
Größte (12,22) - 22
Größte (4,23) - 23
Größte (4,21) - 21
Größte (46,22) - 46.

Beispiel 2:

Wir haben den angegebenen Datenrahmen erstellt. Jetzt geben wir die größten Werte aus dem zurück Name , Technologie1, Und Technologie2 Säulen.

# Importieren Sie die größte Funktion aus dem Modul - pyspark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am größten
#Compare die Spalten - Name, Technologie1, Technologie2 und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
Größte (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()

Ausgang:

Hier werden die Zeichenfolgen basierend auf den ASCII -Werten verglichen.

Größte (Sravan, Php, Test) - Sravan
Größte (Sravan, Php, Test) - Sravan
Größte (Mounika, .Netz, HTML) - Mounika
Größte (Deepika, Oracle, HTML) - Deepika
Größte (Mounika, Oracle, Test) - Mounika
Größte (Chandrika, Hadoop, C#) - Chandrika
Größte (Chandrika, Oracle, Test) - Chandrika
Größter (Sravan, Oracle, C#) - Sravan
Größte (Deepika, Php, C#) - Deepika
Größte (Mounika,.Netz, Test) -mounika.

Ganzer Code:

pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()
# Importieren Sie die größte Funktion aus dem Modul - pyspark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am größten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, größter (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()
#Compare die Spalten - Name, Technologie1, Technologie2 und Alter und geben die größten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
Größte (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()

Abschluss

Die größte () -Funktion wird verwendet, um die höchsten Werte in mehreren Spalten über alle Zeilen in einer PYSPARK -RDD oder in einem PYSPARK -Datenrahmen zu finden. Es vergleicht die Spalten nur mit ähnlichen Datentypen. Ansonsten erhöht es die Analyseausnahme - Die Ausdrücke sollten alle den gleichen Typ haben.