Pysspark - gemein

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Mean () im pyspark gibt den Durchschnittswert aus einer bestimmten Spalte im DataFrame zurück. Wir können den Durchschnitt auf drei Arten erhalten.

Methode 1: Verwenden Sie select () Methode
Methode 2: Verwendung von Agg () Methode
Methode 3: Verwendung von GroupBy () Methode

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode 1: Verwenden Sie select () Methode

Wir können den Durchschnittswert aus der Spalte im DataFrame mit der Methode Select () erhalten. Mit der Methode Mean () können wir den Durchschnittswert aus der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die Collect () -Methode verwenden, um den Durchschnitt aus der Spalte zu erhalten

Syntax:

df.select (Mean ('column_name'))

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Column_Name ist die Spalte, um den Durchschnittswert zu erhalten

Wenn wir den Durchschnittswert aus mehreren Spalten zurückgeben möchten, müssen wir die Methode von Mean () in der Methode Select () verwenden, indem wir den von einem Kommas getrennten Spaltennamen angeben.

Syntax:

df.select (Mean ('column_name'), Mean ('column_name'),… ., Mean ('column_name'))

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Column_Name ist die Spalte, um den Durchschnittswert zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Durchschnittswert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#-Amport die Meanfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Höhenspalte
df.select (Mean ('Höhe')).sammeln()

Ausgang:

[Zeile (AVG (Höhe) = 4.33)]

Im obigen Beispiel wird der Durchschnittswert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Durchschnittswert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Die mittlere Funktion importieren
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DEN Durchschnitt aus der Größe, Alters- und Gewichtsspalten
df.select (Mean ('Höhe'), Mittelwert ('Alter'), Mean ('Gewicht')).sammeln()

Ausgang:

[Zeile (AVG (Höhe) = 4.33, avg (Alter) = 18.4, avg (Gewicht) = 40.0)]]

Im obigen Beispiel wird der Durchschnittswert aus der Größe, dem Alter und der Gewichtsspalten zurückgegeben.

Methode 2: Verwendung von Agg () Methode

Wir können den Durchschnittswert aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., bedeuten. Durch die Verwendung der Methode von Mean () können wir den Durchschnittswert aus der Spalte erhalten, und schließlich können wir die Collect () -Methode verwenden, um den Durchschnitt aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': Mean)

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Column_Name ist die Spalte, um den Durchschnittswert zu erhalten
Mittelwert ist eine Aggregationsfunktion, mit der der Durchschnitt zurückgegeben wird

Wenn wir den Durchschnittswert aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der durch ein Komma getrennten mittleren Funktion angeben.

Syntax:

df.Agg ('column_name': mean, 'column_name': Mean,…, 'column_name': Mean)

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Column_Name ist die Spalte, um den Durchschnittswert zu erhalten
Mittelwert ist eine Aggregationsfunktion, mit der der Durchschnitt zurückgegeben wird

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Durchschnittswert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

Ausgang:

[Zeile (AVG (Höhe) = 4.33)]

Im obigen Beispiel wird der Durchschnittswert aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Durchschnittswert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

Ausgang:

[Zeile (AVG (Gewicht) = 40.0, avg (Alter) = 18.4, avg (Höhe) = 4.33)]

Im obigen Beispiel wird der Durchschnittswert aus der Größe, dem Alter und der Gewichtsspalten zurückgegeben.

Methode 3: Verwendung von GroupBy () Methode

Wir können den Durchschnittswert aus der Spalte im DataFrame mit der Gruppe GroupBy () erhalten. Diese Methode gibt den Durchschnittswert zurück, indem ähnliche Werte in einer Spalte gruppiert werden. Wir müssen die mittlere () -Funktion nach der Ausführung von GroupBy () -Funktion verwenden

Syntax:

df.GroupBy (Group_Column). Mean ('column_name')

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Group_Column ist die Spalte, in der Werte basierend auf dieser Spalte gruppiert werden
Column_Name ist die Spalte, um den Durchschnittswert zu erhalten
Mittelwert ist eine Aggregationsfunktion, mit der der Durchschnitt zurückgegeben wird

Beispiel 1:

In diesem Beispiel gruppieren wir die Adressspalte mit der Höhe der Höhe, um den Durchschnittswert basierend auf dieser Adressspalte zurückzugeben.

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Der Durchschnitt wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', avg (Höhe) = 4.3566666666666665),
Row (Adresse = 'Guntur', avg (Höhe) = 5.79),
Row (Adresse = 'patna', avg (Höhe) = 2.79)]

Beispiel 2:

In diesem Beispiel gruppieren wir die Adressspalte mit der Spalte Gewicht, um den Durchschnittswert basierend auf dieser Adressspalte zurückzugeben.

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Der Durchschnitt wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Row (address = 'hyd', avg (Gewicht) = 38.666666666666664),
Row (Adresse = 'Guntur', AVG (Gewicht) = 67.0),
Row (Adresse = 'patna', avg (Gewicht) = 17.0)]]

Abschluss:

Wir haben diskutiert, wie der Durchschnittswert aus dem PYSPARK -Datenrahmen mithilfe der Methoden Select () und Agg () befreit werden kann. Um den Durchschnittswert durch Gruppieren mit anderen Spalten zu erhalten, haben wir den Groupby zusammen mit der Funktion von Mean () verwendet.

Windows OS

Was ist der Unterschied zwischen Windows Top 10 Home und Pro

Die „Pro“ -Version ist für professionelle Benutzer geeignet und verfügt über mehr Verwaltungswerkzeu...

Kaya Wyludda

Docker

Was ist der Unterschied zwischen Docker und Podman?

Docker verwendet eine Client-Server-Architektur, während Podman ein Dämon weniger Container-Engine i...

Christopher Lammert

So erstellen Sie einen leeren Datenrahmen r

Tutorial über die verschiedenen Ansätze zum Erstellen eines leeren Datenframe.Frame () -Funktion mit...

Mohamed Flore