PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von PANDAS -Datenframe
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
Lassen Sie uns sie einzeln sehen.
PYSPARK - PANDAS DataFrame: nsmallest ()
PYSPARK.Pandas.Datenrahmen.nsmallest ()nsmallest () im pyspark pandas dataframe wird verwendet, um die ersten Zeilen zurückzugeben, die auf der Spalte minimal sind. Daher wird die ersten gesamten Mindestzeilen zurückgegeben, die im PYSPark Pandas DataFrame vorhanden sind. Es dauert zwei Parameter.
Syntax
pyspark_pandas.nsmallest (n, Spalte)Parameter
Beispiel 1
In diesem Beispiel erhalten wir die ersten 2 Mindestzeilen basierend auf der Mark1 -Spalte.
Ausgang
Hier sind 54 und 67 die ersten 2 kleinsten (minimalen) Werte, die in der Spalte Mark1 vorhanden sind. So wurden entsprechende 2 Zeilen zurückgegeben.
Beispiel 2
In diesem Beispiel erhalten wir die ersten 4 Mindestzeilen basierend auf der Spalte student_lastname.
Ausgang
Hier sind Chamundi, Hyna, Kapila und Lehara die ersten 4 kleinsten (minimalen) Werte, die in der Spalte student_name vorhanden sind. So wurden entsprechende 4 Zeilen zurückgegeben.
PYSPARK - PANDAS DATAFRAME: nlargest ()
PYSPARK.Pandas.Datenrahmen.nlargest ()nlargest () im pyspark pandas dataframe wird verwendet, um die ersten Zeilen zurückzugeben, die auf der Spalte maximal sind. Daher gibt es die ersten gesamten maximalen Zeilen zurück, die im PYSpark Pandas DataFrame vorhanden sind. Es dauert zwei Parameter.
Syntax
pyspark_pandas.nlargest (n, Säule)Parameter
Beispiel 1
In diesem Beispiel erhalten wir die ersten 2 maximalen Zeilen basierend auf der Mark1 -Spalte.
Ausgang
Hier sind 90 und 90 die ersten 2 großen (maximalen) Werte in der Spalte Mark1. So wurden entsprechende 2 Zeilen zurückgegeben.
Beispiel 2
In diesem Beispiel erhalten wir die ersten 4 maximalen Zeilen basierend auf der Spalte student_lastname.
Ausgang
Hier sind Manasa, Lehara, Kapila und Hyna die ersten 4 hohen (maximalen) Werte, die im Student_Name vorhanden sind.Spalte. So wurden entsprechende 4 Zeilen zurückgegeben.
Abschluss
In diesem PySpark Pandas DataFrame -Tutorial haben wir gesehen. Diese Funktionen nehmen den Spaltennamen auf, der die Zeilen basierend auf dieser Spalte zurückgibt.