Pysspark - min

Pysspark - min
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. min () im pyspark wird verwendet, um den Mindestwert aus einer bestimmten Spalte im DataFrame zurückzugeben. Wir können den Mindestwert auf drei Arten erhalten.
  1. Methode 1: Verwenden Sie select () Methode
  2. Methode 2: Verwendung von Agg () Methode
  3. Methode 3: Verwendung von GroupBy () Methode

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgabe -Screenshot:

Methode -1: Verwenden Sie select () Methode

Wir können den Mindestwert aus der Spalte im DataFrame unter Verwendung der Methode Select () erhalten. Mit der min () -Methode können wir den Mindestwert aus der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionenmodul und schließlich können wir die minimale Sammlung sammeln () verwenden, um aus der Spalte zu erhalten

Syntax:

df.select (min ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Mindestwert zu erhalten

Wenn wir den Mindestwert aus mehreren Spalten zurückgeben möchten, müssen wir die min () -Methode in der Methode Select () verwenden, indem der Spaltenname angegeben wird, der durch ein Komma getrennt ist.

Syntax:

df.select (min ('column_name'), min ('column_name'),… ., min ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Mindestwert zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Mindestwert aus der Höhenspalte im PYSPARK -Datenrahmen erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Mindestfunktion - min
aus pysspark.sql.Funktionen import min
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MINIMIMUM aus der Höhensäule
df.Select (min ('Höhe')).sammeln()

Ausgang:

[Reihe (min (Höhe) = 2.79)]

Im obigen Beispiel wird der Mindestwert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Mindestwert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Mindestfunktion - min
aus pysspark.sql.Funktionen import min
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MINIMIMIMISCH VON DIE SCHULTER-, ALTEN- UND WOCHSCHAULTER
df.Select (min ('Höhe'), min ('Alter'), min ('Gewicht')).sammeln()

Ausgang:

[Reihe (min (Höhe) = 2.79, min (Alter) = 7, min (Gewicht) = 17)

Im obigen Beispiel wird der minimale Wert aus der Größe, Alters- und Gewichtsspalten zurückgegeben.

Methode - 2: Verwendung der Agg () -Methode

Wir können den Mindestwert aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., Mindest. Mit der min () -Methode können wir den minimalen Wert aus der Spalte erhalten, und schließlich können wir die minimale sammel () verwenden, um das Minimum aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': min)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Mindestwert zu erhalten
  3. min ist eine Aggregationsfunktion, die verwendet wird, um den Mindestwert zurückzugeben

Wenn wir den Mindestwert aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Kommas getrennten MIN -Funktion angeben.

Syntax:

df.Agg ('column_name': min, 'column_name': min,…, 'column_name': min)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Mindestwert zu erhalten
  3. min ist eine Aggregationsfunktion, die verwendet wird, um den Mindestwert zurückzugeben

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Mindestwert aus der Höhenspalte im PYSPARK -Datenrahmen erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MINIMIMUM aus der Höhensäule
df.Agg ('Höhe': 'min').sammeln()

Ausgang:

[Reihe (min (Höhe) = 2.79)]

Im obigen Beispiel wird der Mindestwert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Mindestwert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MINIMIMIMISCH VON DIE SCHULTER-, ALTEN- UND WOCHSCHAULTER
df.Agg ('Höhe': 'min', 'Alter': 'min', 'Gewicht': 'min').sammeln()

Ausgang:

[Reihe (min (Gewicht) = 17, min (Alter) = 7, min (Höhe) = 2.79)]

Im obigen Beispiel wird der minimale Wert aus der Größe, Alters- und Gewichtsspalten zurückgegeben.

Methode - 3: Verwendung von GroupBy () Methode

Wir können den Mindestwert aus der Spalte im DataFrame unter Verwendung der Gruppe GroupBy () erhalten. Diese Methode gibt den Mindestwert zurück, indem ähnliche Werte in einer Spalte gruppiert werden. Wir müssen die min () -Funktion nach der Ausführung von GroupBy () -Funktion verwenden

Syntax:

df.GroupBy (Group_Column). min ('column_name')

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Group_Column ist die Spalte, in der Werte basierend auf dieser Spalte gruppiert werden
  3. column_name ist die Spalte, um den Mindestwert zu erhalten
  4. min ist eine Aggregationsfunktion, die verwendet wird, um den Mindestwert zurückzugeben.

Beispiel 1:

In diesem Beispiel gruppieren wir die Adressspalte mit der Höhe der Höhe, um den Mindestwert basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MINIMIMUM aus der Höhenspaltengruppierung mit Adressspalte
df.GroupBy ('Adresse').min ('Höhe').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Das Minimum wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', min (Höhe) = 3.69),
Reihe (Adresse = 'Guntur', min (Höhe) = 5.79),
Row (Adresse = 'Patna', min (Höhe) = 2.79)]

Beispiel 2:

In diesem Beispiel gruppieren wir die Adressspalte mit der Spalte Gewicht, um den Mindestwert basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DAS MINIMIMIMISIGES AUSGEBRAUCHE AUS DER ADDRESS -Spalte
df.GroupBy ('Adresse').min ('Gewicht').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Das Minimum wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', min (Gewicht) = 28),
Row (Adresse = 'Guntur', min (Gewicht) = 67),
Row (Adresse = 'patna', min (Gewicht) = 17)]

Abschluss:

Wir haben diskutiert, wie der Mindestwert aus dem PYSPARK -Datenrahmen mithilfe der Methoden Select () und Agg () bewertet werden kann. Um den Mindestwert durch Gruppieren mit anderen Spalten zu erhalten, haben wir den Groupby zusammen mit der min () -Funktion verwendet. Siehe auch pyspark max () Artikel.