PYSPARK - Max

PYSPARK - Max
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. max () im pyspark gibt den maximaler Wert aus einer bestimmten Spalte im DataFrame zurück. Wir können den Höchstwert auf drei Arten erhalten.
  1. Methode 1: Verwenden Sie select () Methode
  2. Methode 2: Verwendung von Agg () Methode
  3. Methode 3: Verwendung von GroupBy () Methode

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgabe -Screenshot:

Methode 1: Verwenden Sie select () Methode

Wir können den Maximalwert aus der Spalte im Datenfreame unter Verwendung der Methode Select () erhalten. Mit der max () -Methode können wir den maximalen Wert aus der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die maximale Sammlung (sammel () verwenden, um das Maximum aus der Spalte zu erhalten.

Syntax:

df.select (max ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Maximalwert zu erhalten

Wenn wir den Maximalwert aus mehreren Spalten zurücksenden möchten, müssen wir die max () -Methode in der Methode Select () verwenden, indem wir den durch ein Komma getrennten Spaltennamen angeben.

Syntax:

df.select (max ('column_name'), max ('column_name'),… ., max ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Maximalwert zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel erhält der maximale Wert aus der Höhenspalte im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Maximum - Max -Funktion
aus pysspark.sql.Funktionen importieren max
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MAXIMUM aus der Höhenspalte
df.Select (max ('Höhe')).sammeln()

Ausgang:

[Zeile (max (Höhe) = 5.79)]

Im obigen Beispiel wird der Maximalwert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den maximalen Wert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Maximum - Max -Funktion
aus pysspark.sql.Funktionen importieren max
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MAXIMUM aus den Säulen der Größe, des Alters und des Gewichts
df.select (max ('Höhe'), max ('Alter'), max ('Gewicht')).sammeln()

Ausgang:

[Zeile (max (Höhe) = 5.79, max (Alter) = 37, max (Gewicht) = 67)]

Im obigen Beispiel wird der Maximalwert aus der Größe, Alters- und Gewichtsspalten zurückgegeben.

Methode 2: Verwendung von Agg () Methode

Wir können den Maximalwert aus der Spalte im Datenfreame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., Max. Mit der MAX () -Methode können wir den Maximalwert aus der Spalte erhalten, und schließlich können wir die maximale Collect () -Methode verwenden, um das Maximum aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': max)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Maximalwert zu erhalten
  3. Max ist eine Aggregationsfunktion, die verwendet wird, um den Maximalwert zurückzugeben

Wenn wir den Maximalwert aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Kommas getrennten MAX -Funktion angeben.

Syntax:

df.Agg ('column_name': max, 'column_name': max,…, 'column_name': max)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Maximalwert zu erhalten
  3. Max ist eine Aggregationsfunktion, die verwendet wird, um den Maximalwert zurückzugeben

Beispiel 1: Einzelspalte

In diesem Beispiel erhält der maximale Wert aus der Höhenspalte im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79,
'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MAXIMUM aus der Höhenspalte
df.Agg ('Höhe': 'max').sammeln()

Ausgang:

[Zeile (max (Höhe) = 5.79)]

Im obigen Beispiel wird der Maximalwert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den maximalen Wert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MAXIMUM aus den Säulen der Größe, des Alters und des Gewichts
df.Agg ('Höhe': 'Max', 'Alter': 'Max', 'Gewicht': 'max').sammeln()

Ausgang:

[Zeile (max (Gewicht) = 67, max (Alter) = 37, max (Höhe) = 5.79)]

Im obigen Beispiel wird der Maximalwert aus der Größe, Alters- und Gewichtsspalten zurückgegeben.

Methode 3: Verwendung von GroupBy () Methode

Wir können den Maximalwert aus der Spalte im DataFrame unter Verwendung der Gruppe GroupBy () erhalten. Diese Methode gibt den Maximalwert zurück, indem ähnliche Werte in einer Spalte gruppiert werden. Wir müssen die MAX () -Funktion nach der Ausführung von GroupBy () -Funktion verwenden

Syntax:

df.GroupBy (Group_Column). max ('column_name')

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Group_Column ist die Spalte, in der Werte basierend auf dieser Spalte gruppiert werden
  3. column_name ist die Spalte, um den Maximalwert zu erhalten
  4. Max ist eine Aggregationsfunktion, die verwendet wird, um den Maximalwert zurückzugeben.

Beispiel 1:

In diesem Beispiel gruppieren wir die Adressspalte mit der Höhe der Höhe, um den Maximalwert basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MAXIMUM aus der Höhenspaltengruppierung mit Adressspalte
df.GroupBy ('Adresse').maximale Höhe').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Das Maximum wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Row (address = 'hyd', max (Höhe) = 5.59),
Row (Adresse = 'Guntur', max (Höhe) = 5.79),
Row (Adresse = 'patna', max (Höhe) = 2.79)]

Beispiel 2:

In diesem Beispiel gruppieren wir die Adressspalte mit der Spalte Gewicht, um den Maximalwert basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT DAS MAXIMUM aus der Gewichtsspaltengruppierung mit Adressspalte
df.GroupBy ('Adresse').Maximalgewicht').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Das Maximum wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Row (address = 'hyd', max (Gewicht) = 54),
Row (Adresse = 'Guntur', max (Gewicht) = 67),
Row (Adresse = 'patna', max (Gewicht) = 17)]

Abschluss:

Wir haben diskutiert, wie Sie den maximalen Wert aus dem PYSPARK -Datenrahmen mit den Methoden Select () und Agg () erhalten können. Um den Maximalwert durch Gruppieren mit anderen Spalten zu erhalten, haben wir den Groupby zusammen mit der MAX () -Funktion verwendet. Siehe auch pyspark min () Artikel.