PYSPARK - PANDAS DataFrame Nsmallest & Nlargest

PYSPARK - PANDAS DataFrame Nsmallest & Nlargest
„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark unter Verwendung von DataFrame bereitgestellt wird, mit dem die angegebenen Daten im Zeilen- und Spaltenformat gespeichert werden können.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Datenframe

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Anzeige
print (pyspark_pandas)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

Lassen Sie uns sie einzeln sehen.

PYSPARK - PANDAS DataFrame: nsmallest ()

PYSPARK.Pandas.Datenrahmen.nsmallest ()

nsmallest () im pyspark pandas dataframe wird verwendet, um die ersten Zeilen zurückzugeben, die auf der Spalte minimal sind. Daher wird die ersten gesamten Mindestzeilen zurückgegeben, die im PYSPark Pandas DataFrame vorhanden sind. Es dauert zwei Parameter.

Syntax

pyspark_pandas.nsmallest (n, Spalte)

Parameter

  1. N wird verwendet, um die Anzahl der Mindestzeilen aus den gesamten PySpark -Pandas basierend auf der Spalte zurückzugeben
  2. Die Spalte bezieht sich auf den im pyspark pandas DataFrame vorhandenen Spaltennamen.

Beispiel 1
In diesem Beispiel erhalten wir die ersten 2 Mindestzeilen basierend auf der Mark1 -Spalte.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#GET ERSTE 2 Mindestzeilen basierend auf der Mark1 -Spalte
print (pyspark_pandas.nsmallest (2, "mark1"))

Ausgang

Hier sind 54 und 67 die ersten 2 kleinsten (minimalen) Werte, die in der Spalte Mark1 vorhanden sind. So wurden entsprechende 2 Zeilen zurückgegeben.

Beispiel 2
In diesem Beispiel erhalten wir die ersten 4 Mindestzeilen basierend auf der Spalte student_lastname.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Get First 4 Mindestzeilen basierend auf der Spalte Student_LastName
print (pyspark_pandas.nsmallest (4, "student_lastName"))

Ausgang

Hier sind Chamundi, Hyna, Kapila und Lehara die ersten 4 kleinsten (minimalen) Werte, die in der Spalte student_name vorhanden sind. So wurden entsprechende 4 Zeilen zurückgegeben.

PYSPARK - PANDAS DATAFRAME: nlargest ()

PYSPARK.Pandas.Datenrahmen.nlargest ()

nlargest () im pyspark pandas dataframe wird verwendet, um die ersten Zeilen zurückzugeben, die auf der Spalte maximal sind. Daher gibt es die ersten gesamten maximalen Zeilen zurück, die im PYSpark Pandas DataFrame vorhanden sind. Es dauert zwei Parameter.

Syntax

pyspark_pandas.nlargest (n, Säule)

Parameter

  1. N wird verwendet, um die Anzahl der maximalen Zeilen aus den gesamten PySpark -Pandas basierend auf der Spalte zurückzugeben
  2. Die Spalte bezieht sich auf den im pyspark pandas DataFrame vorhandenen Spaltennamen.

Beispiel 1
In diesem Beispiel erhalten wir die ersten 2 maximalen Zeilen basierend auf der Mark1 -Spalte.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#GET Erste 2 maximale Zeilen basierend auf der Mark1 -Spalte
print (pyspark_pandas.nlargest (2, "mark1"))

Ausgang

Hier sind 90 und 90 die ersten 2 großen (maximalen) Werte in der Spalte Mark1. So wurden entsprechende 2 Zeilen zurückgegeben.

Beispiel 2
In diesem Beispiel erhalten wir die ersten 4 maximalen Zeilen basierend auf der Spalte student_lastname.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Get First 4 Maximale Zeilen basierend auf der Spalte Student_LastName
print (pyspark_pandas.nlargest (4, "student_lastName"))

Ausgang

Hier sind Manasa, Lehara, Kapila und Hyna die ersten 4 hohen (maximalen) Werte, die im Student_Name vorhanden sind.Spalte. So wurden entsprechende 4 Zeilen zurückgegeben.

Abschluss

In diesem PySpark Pandas DataFrame -Tutorial haben wir gesehen. Diese Funktionen nehmen den Spaltennamen auf, der die Zeilen basierend auf dieser Spalte zurückgibt.