PYSPARK LETZTE FUNKTION

In PYSPark DataFrame ist es möglich, die geringsten Elemente in zwei oder mehr Spalten zurückzugeben.

PYSPARK unterstützt die kleinste () -Funktion, mit der die geringsten Werte in mehreren Spalten über alle Zeilen in einer PYSPARK -RDD oder in einem PYSPARK -Datenframe ermittelt werden.

Es ist in der erhältlich PYSPARK.sql.Funktionen Modul.

Syntax
DataFrame_OBJ.Wählen Sie (am wenigsten (DataFrame_OBJ) aus.Spalte1, DataFrame_OBJ.Spalte2,…))

Parameter:
Es dauert Spalten als Parameter.

Wir können auf die Spalten mit der 'zugreifen.'Operator (Spalte1, Spalte2, repräsentiert die Spaltennamen).

Daten
Hier erstellen wir einen pyspark -Datenrahmen mit 5 Spalten: ['Subjekt_ID', 'Name', 'Age', 'Technology1', 'Technology2'] mit 10 Zeilen.

Pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()

Ausgang:

Jetzt sehen wir die Beispiele, um die geringsten Werte in zwei oder mehreren Spalten aus dem vorherigen Datenrahmen zurückzugeben.

Beispiel 1
Also haben wir den vorherigen Datenrahmen erstellt. Jetzt werden wir die geringsten Werte zurückgeben Subjekt_ID Und Alter Säulen.

# Importieren Sie die geringste Funktion aus dem Modul - pySpark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am wenigsten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben Sie die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, am wenigsten (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()

Ausgang:

Erläuterung
Sie können die beiden Spaltenwerte in jeder Zeile vergleichen.

am wenigsten (4,23) - 4
am wenigsten (4,23) - 4
am wenigsten (46,22) -22
am wenigsten (4,21) - 4
am wenigsten (46,22) - 22
am wenigsten (12,22) - 12
am wenigsten (12,22) - 12
am wenigsten (4,23) - 4
am wenigsten (4,21) - 4
am wenigsten (46,22) - 22.

Beispiel 2
Wir haben den vorherigen Datenrahmen erstellt. Jetzt werden wir die geringsten Werte zurückgeben Name, Technologie1, Und Technologie2 Säulen.

# Importieren Sie die geringste Funktion aus dem Modul - pySpark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am wenigsten
#kompeten Sie die Spalten - Name, Technologie1, Technologie2 und Alter und geben die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
am wenigsten (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()

Ausgang:

Hier werden Zeichenfolgen basierend auf den ASCII -Werten verglichen:

am wenigsten (Sravan, PHP, Test) - PHP
am wenigsten (Sravan, PHP, Test) - PHP
am wenigsten (Mounika, .Netz, HTML) - .NETZ
am wenigsten (Deepika, Oracle, HTML) - HTML
am wenigsten (Mounika, Oracle, Test) - Oracle
am wenigsten (Chandrika, Hadoop, C#) - C#
am wenigsten (Chandrika, Oracle, Test) - Oracle
am wenigsten (Sravan, Oracle, C#) - C#
am wenigsten (Deepika, Php, C#) - C#
am wenigsten (Mounika,.Netz, Test) -.NETZ.

Ganzer Code

pysspark importieren
aus pysspark.SQL Import SparkSession
Spark_app = SparkSession.Erbauer.App Name('_').Getorcreate ()
Schüler = [(4, 'Sravan', 23, 'Php', 'Testing'),
(4, 'Sravan', 23, 'php', 'testing'),
(46, 'Mounika', 22, ','.Net ',' html '),
(4, "Deepika", 21, "Oracle", "Html"),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 22, 'Hadoop', 'C#'),
(12, "Chandrika", 22, "Oracle", "Testing"),
(4, 'sravan', 23, oracle ',' c#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, ','.Net ',' testing ')
]
DataFrame_OBJ = Spark_App.Createdataframe (Studenten, ['Subjekt_ID', 'Name', 'Alter', 'Technology1', 'Technology2'])
print ("---------- DataFrame ----------")
DataFrame_OBJ.zeigen()
# Importieren Sie die geringste Funktion aus dem Modul - pySpark.sql.Funktionen
aus pysspark.sql.Funktionen importieren am wenigsten
#kompeten Sie die Spalten - Subjekt_ID und Alter und geben Sie die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter, am wenigsten (DataFrame_OBJ.Subjekt_ID, DataFrame_OBJ.Alter)).zeigen()
#kompeten Sie die Spalten - Name, Technologie1, Technologie2 und Alter und geben die niedrigsten Werte in jeder Zeile zurück.
DataFrame_OBJ.select (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2,
am wenigsten (DataFrame_OBJ.Name, DataFrame_OBJ.Technology1, DataFrame_OBJ.Technologie2)).zeigen()

Abschluss

Die kleinste () Funktion wird verwendet, um die niedrigsten Werte in mehreren Spalten über alle Zeilen in einer PYSPARK -RDD oder in einem PYSPARK -Datenrahmen zu finden. Es vergleicht die Spalten nur mit ähnlichen Datentypen. Andernfalls wird die Analyseausnahme gestellt. Die Ausdrücke sollten alle den gleichen Typ haben.

Python

Python OS Mkdir

Das “os.MKDIR () ”-Methode des„ OS “-Moduls wird verwendet, um ein einzelnes Verzeichnis, mehrere Ve...

Ansgar Radtke

Python

Seeborn Tsllot

In Python die „Seeborn.Lineplot () ”Methode wird verwendet, um mehrere Zeilen in einem einzelnen Dia...

Lars Daub

Python

Python Chmod

Das “os.CHMOD () ”Die Funktion des Betriebssystemmodul....

Lars Daub