Pysspark - gemein

Pysspark - gemein
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Mean () im pyspark gibt den Durchschnittswert aus einer bestimmten Spalte im DataFrame zurück. Wir können den Durchschnitt auf drei Arten erhalten.
  1. Methode 1: Verwenden Sie select () Methode
  2. Methode 2: Verwendung von Agg () Methode
  3. Methode 3: Verwendung von GroupBy () Methode

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode 1: Verwenden Sie select () Methode

Wir können den Durchschnittswert aus der Spalte im DataFrame mit der Methode Select () erhalten. Mit der Methode Mean () können wir den Durchschnittswert aus der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die Collect () -Methode verwenden, um den Durchschnitt aus der Spalte zu erhalten

Syntax:

df.select (Mean ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um den Durchschnittswert zu erhalten

Wenn wir den Durchschnittswert aus mehreren Spalten zurückgeben möchten, müssen wir die Methode von Mean () in der Methode Select () verwenden, indem wir den von einem Kommas getrennten Spaltennamen angeben.

Syntax:

df.select (Mean ('column_name'), Mean ('column_name'),… ., Mean ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um den Durchschnittswert zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Durchschnittswert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Amport die Meanfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Höhenspalte
df.select (Mean ('Höhe')).sammeln()

Ausgang:

[Zeile (AVG (Höhe) = 4.33)]

Im obigen Beispiel wird der Durchschnittswert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Durchschnittswert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Die mittlere Funktion importieren
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Größe, Alters- und Gewichtsspalten
df.select (Mean ('Höhe'), Mittelwert ('Alter'), Mean ('Gewicht')).sammeln()

Ausgang:

[Zeile (AVG (Höhe) = 4.33, avg (Alter) = 18.4, avg (Gewicht) = 40.0)]]

Im obigen Beispiel wird der Durchschnittswert aus der Größe, dem Alter und der Gewichtsspalten zurückgegeben.

Methode 2: Verwendung von Agg () Methode

Wir können den Durchschnittswert aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., bedeuten. Durch die Verwendung der Methode von Mean () können wir den Durchschnittswert aus der Spalte erhalten, und schließlich können wir die Collect () -Methode verwenden, um den Durchschnitt aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': Mean)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um den Durchschnittswert zu erhalten
  3. Mittelwert ist eine Aggregationsfunktion, mit der der Durchschnitt zurückgegeben wird

Wenn wir den Durchschnittswert aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der durch ein Komma getrennten mittleren Funktion angeben.

Syntax:

df.Agg ('column_name': mean, 'column_name': Mean,…, 'column_name': Mean)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um den Durchschnittswert zu erhalten
  3. Mittelwert ist eine Aggregationsfunktion, mit der der Durchschnitt zurückgegeben wird

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Durchschnittswert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Höhenspalte
df.Agg ('Höhe': 'Mean').sammeln()

Ausgang:

[Zeile (AVG (Höhe) = 4.33)]

Im obigen Beispiel wird der Durchschnittswert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Durchschnittswert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Größe, Alters- und Gewichtsspalten
df.Agg ('Höhe': 'Mean', 'Age': 'Mean', 'Gewicht': 'Mean').sammeln()

Ausgang:

[Zeile (AVG (Gewicht) = 40.0, avg (Alter) = 18.4, avg (Höhe) = 4.33)]

Im obigen Beispiel wird der Durchschnittswert aus der Größe, dem Alter und der Gewichtsspalten zurückgegeben.

Methode 3: Verwendung von GroupBy () Methode

Wir können den Durchschnittswert aus der Spalte im DataFrame mit der Gruppe GroupBy () erhalten. Diese Methode gibt den Durchschnittswert zurück, indem ähnliche Werte in einer Spalte gruppiert werden. Wir müssen die mittlere () -Funktion nach der Ausführung von GroupBy () -Funktion verwenden

Syntax:

df.GroupBy (Group_Column). Mean ('column_name')

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Group_Column ist die Spalte, in der Werte basierend auf dieser Spalte gruppiert werden
  3. Column_Name ist die Spalte, um den Durchschnittswert zu erhalten
  4. Mittelwert ist eine Aggregationsfunktion, mit der der Durchschnitt zurückgegeben wird

Beispiel 1:

In diesem Beispiel gruppieren wir die Adressspalte mit der Höhe der Höhe, um den Durchschnittswert basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Höhenspaltengruppierung mit Adressspalte
df.GroupBy ('Adresse').Mean ('Höhe').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Der Durchschnitt wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', avg (Höhe) = 4.3566666666666665),
Row (Adresse = 'Guntur', avg (Höhe) = 5.79),
Row (Adresse = 'patna', avg (Höhe) = 2.79)]

Beispiel 2:

In diesem Beispiel gruppieren wir die Adressspalte mit der Spalte Gewicht, um den Durchschnittswert basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Gewichtsspaltengruppierung mit Adressspalte
df.GroupBy ('Adresse').Mean ('Gewicht').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Der Durchschnitt wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Row (address = 'hyd', avg (Gewicht) = 38.666666666666664),
Row (Adresse = 'Guntur', AVG (Gewicht) = 67.0),
Row (Adresse = 'patna', avg (Gewicht) = 17.0)]]

Abschluss:

Wir haben diskutiert, wie der Durchschnittswert aus dem PYSPARK -Datenrahmen mithilfe der Methoden Select () und Agg () befreit werden kann. Um den Durchschnittswert durch Gruppieren mit anderen Spalten zu erhalten, haben wir den Groupby zusammen mit der Funktion von Mean () verwendet.