In PYSPark DataFrame ist es möglich, die geringsten Elemente in zwei oder mehr Spalten zurückzugeben.
PYSPARK unterstützt die kleinste () -Funktion, mit der die geringsten Werte in mehreren Spalten über alle Zeilen in einer PYSPARK -RDD oder in einem PYSPARK -Datenframe ermittelt werden.
Es ist in der erhältlich PYSPARK.sql.Funktionen Modul.
Syntax
DataFrame_OBJ.Wählen Sie (am wenigsten (DataFrame_OBJ) aus.Spalte1, DataFrame_OBJ.Spalte2,…))
Parameter:
Es dauert Spalten als Parameter.
Wir können auf die Spalten mit der 'zugreifen.'Operator (Spalte1, Spalte2, repräsentiert die Spaltennamen).
Daten
Hier erstellen wir einen pyspark -Datenrahmen mit 5 Spalten: ['Subjekt_ID', 'Name', 'Age', 'Technology1', 'Technology2'] mit 10 Zeilen.
Pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()
Ausgang:
Jetzt sehen wir die Beispiele, um die geringsten Werte in zwei oder mehreren Spalten aus dem vorherigen Datenrahmen zurückzugeben.
Beispiel 1
Also haben wir den vorherigen Datenrahmen erstellt. Jetzt werden wir die geringsten Werte zurückgeben Subjekt_ID Und Alter Säulen.
# Importieren Sie die geringste Funktion aus dem Modul - pySpark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am wenigsten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben Sie die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, am wenigsten (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()
Ausgang:
Erläuterung
Sie können die beiden Spaltenwerte in jeder Zeile vergleichen.
am wenigsten (4,23) - 4
am wenigsten (4,23) - 4
am wenigsten (46,22) -22
am wenigsten (4,21) - 4
am wenigsten (46,22) - 22
am wenigsten (12,22) - 12
am wenigsten (12,22) - 12
am wenigsten (4,23) - 4
am wenigsten (4,21) - 4
am wenigsten (46,22) - 22.
Beispiel 2
Wir haben den vorherigen Datenrahmen erstellt. Jetzt werden wir die geringsten Werte zurückgeben Name, Technologie1, Und Technologie2 Säulen.
# Importieren Sie die geringste Funktion aus dem Modul - pySpark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am wenigsten
#kompeten Sie die Spalten - Name, Technologie1, Technologie2 und Alter und geben die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
am wenigsten (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()
Ausgang:
Hier werden Zeichenfolgen basierend auf den ASCII -Werten verglichen:
am wenigsten (Sravan, PHP, Test) - PHP
am wenigsten (Sravan, PHP, Test) - PHP
am wenigsten (Mounika, .Netz, HTML) - .NETZ
am wenigsten (Deepika, Oracle, HTML) - HTML
am wenigsten (Mounika, Oracle, Test) - Oracle
am wenigsten (Chandrika, Hadoop, C#) - C#
am wenigsten (Chandrika, Oracle, Test) - Oracle
am wenigsten (Sravan, Oracle, C#) - C#
am wenigsten (Deepika, Php, C#) - C#
am wenigsten (Mounika,.Netz, Test) -.NETZ.
Ganzer Code
pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()
# Importieren Sie die geringste Funktion aus dem Modul - pySpark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am wenigsten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben Sie die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, am wenigsten (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()
#kompeten Sie die Spalten - Name, Technologie1, Technologie2 und Alter und geben die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
am wenigsten (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()
Abschluss
Die kleinste () Funktion wird verwendet, um die niedrigsten Werte in mehreren Spalten über alle Zeilen in einer PYSPARK -RDD oder in einem PYSPARK -Datenrahmen zu finden. Es vergleicht die Spalten nur mit ähnlichen Datentypen. Andernfalls wird die Analyseausnahme gestellt. Die Ausdrücke sollten alle den gleichen Typ haben.