„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark verwendet wird, die die angegebenen Daten in einem Array speichert (Spalte in PySpark intern).
PYSPARK - PANDAS -Serie repräsentiert die PANDAS.
Pandas unterstützt die Datenstruktur der Serie und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARK
Syntax zum Import
aus pyspark import PandasDanach können wir die Serie aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von PANDAS -Serien
PYSPARK.Pandas.Serie()Wir können eine Liste oder Liste der Listen mit Werten übergeben.
Erstellen wir eine Pandas -Serie über PYSPARK mit fünf numerischen Werten.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
PYSPARK.Pandas.Serie.nsmallest ()nsmallest () in der PYSpark Pandas -Serie wird verwendet, um die ersten Werte zurückzugeben, die minimal sind. Einfach werden die ersten kleinsten Werte aus der Reihe von Werten zurückgegeben. Es braucht einen Parameter.
Syntax
PYSPARK_SERIES.nsmallest (n)Wo pyspark_series die pyspark pandas -Serie ist
Parameter
N wird verwendet, um die Anzahl der Mindestwerte aus der gesamten PYSPARK -Serie basierend auf der Spalte zurückzugeben
Beispiel 1
Geben Sie die ersten 2 kleinsten Werte aus der Pyspark Pandas -Serie zurück.
Ausgang
Die ersten 2 kleinen Werte sind 0 und 54.
Beispiel 2
Geben Sie die ersten 4 kleinsten Werte aus der Pyspark Pandas -Serie zurück.
Ausgang
Die ersten 4 kleinen Werte sind 0, 54, 56 und 78.
PYSPARK.Pandas.Serie.nlargest ()nlargest () in der PYSPARK PANDAS -Serie wird verwendet, um die ersten Werte zurückzugeben, die maximal sind. Einfach wird es die ersten größten Werte aus der Reihe von Werten zurückgeben. Es braucht einen Parameter.
Syntax
PYSPARK_SERIES.Nlargest (n)Wo pyspark_series die pyspark pandas -Serie ist
Parameter
N wird verwendet, um die Anzahl der maximalen Werte aus der gesamten PYSPARK -Serie basierend auf der Spalte zurückzugeben
Beispiel 1
Geben Sie die ersten zwei größten Werte aus der PYSPARK PANDAS -Serie zurück.
Ausgang
Die ersten 2 großen Werte sind 90 und 78.
Beispiel 2
Geben Sie die ersten 4 größten Werte aus der PYSPARK PANDAS -Serie zurück.
Ausgang
Die ersten 4 kleinen Werte betragen 90,78,56 und 54.
Abschluss
In diesem Tutorial für PYSPARK PANDAS -Serie haben wir gesehen. Diese Funktionen nehmen einen Parameter an, der sich auf die Anzahl der Zeilen bezieht (Mindestzeilen für NSmallest () und maximale Zeilen für nlargest ()).