PYSPARK - PANDAS -Serie NSmallest & Nlargest

PYSPARK - PANDAS -Serie NSmallest & Nlargest

„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark verwendet wird, die die angegebenen Daten in einem Array speichert (Spalte in PySpark intern).

PYSPARK - PANDAS -Serie repräsentiert die PANDAS.

Pandas unterstützt die Datenstruktur der Serie und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir die Serie aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Serien

PYSPARK.Pandas.Serie()

Wir können eine Liste oder Liste der Listen mit Werten übergeben.

Erstellen wir eine Pandas -Serie über PYSPARK mit fünf numerischen Werten.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
print (pyspark_series)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

PYSPARK.Pandas.Serie.nsmallest ()

nsmallest () in der PYSpark Pandas -Serie wird verwendet, um die ersten Werte zurückzugeben, die minimal sind. Einfach werden die ersten kleinsten Werte aus der Reihe von Werten zurückgegeben. Es braucht einen Parameter.

Syntax

PYSPARK_SERIES.nsmallest (n)

Wo pyspark_series die pyspark pandas -Serie ist

Parameter
N wird verwendet, um die Anzahl der Mindestwerte aus der gesamten PYSPARK -Serie basierend auf der Spalte zurückzugeben

Beispiel 1
Geben Sie die ersten 2 kleinsten Werte aus der Pyspark Pandas -Serie zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Erste 2 kleine Werte
print (pyspark_series.nsmallest (2))

Ausgang

Die ersten 2 kleinen Werte sind 0 und 54.

Beispiel 2
Geben Sie die ersten 4 kleinsten Werte aus der Pyspark Pandas -Serie zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Erste 4 kleine Werte
print (pyspark_series.nsmallest (4))

Ausgang

Die ersten 4 kleinen Werte sind 0, 54, 56 und 78.

PYSPARK.Pandas.Serie.nlargest ()

nlargest () in der PYSPARK PANDAS -Serie wird verwendet, um die ersten Werte zurückzugeben, die maximal sind. Einfach wird es die ersten größten Werte aus der Reihe von Werten zurückgeben. Es braucht einen Parameter.

Syntax

PYSPARK_SERIES.Nlargest (n)

Wo pyspark_series die pyspark pandas -Serie ist

Parameter
N wird verwendet, um die Anzahl der maximalen Werte aus der gesamten PYSPARK -Serie basierend auf der Spalte zurückzugeben

Beispiel 1
Geben Sie die ersten zwei größten Werte aus der PYSPARK PANDAS -Serie zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Erste 2 große Werte
print (pyspark_series.nlargest (2))

Ausgang

Die ersten 2 großen Werte sind 90 und 78.

Beispiel 2
Geben Sie die ersten 4 größten Werte aus der PYSPARK PANDAS -Serie zurück.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create -Serie mit 5 Elementen
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Erste 4 große Werte
print (pyspark_series.nlargest (4))

Ausgang

Die ersten 4 kleinen Werte betragen 90,78,56 und 54.

Abschluss

In diesem Tutorial für PYSPARK PANDAS -Serie haben wir gesehen. Diese Funktionen nehmen einen Parameter an, der sich auf die Anzahl der Zeilen bezieht (Mindestzeilen für NSmallest () und maximale Zeilen für nlargest ()).