Pysspark - sum

Mohamed Flore

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. sum () in pyspark gibt den Gesamtwert (Summe) aus einer bestimmten Spalte im DataFrame zurück. Wir können den Summenwert auf drei Arten erhalten.

Methode 1: Verwenden Sie select () Methode
Methode 2: Verwendung von Agg () Methode
Methode 3: Verwendung von GroupBy () Methode

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode 1: Verwenden Sie select () Methode

Wir können den Gesamtwert aus der Spalte im DataFrame mit der Methode Select () erhalten. Mit der Summe () -Methode können wir den Gesamtwert aus der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die Collect () -Methode verwenden, um die Summe aus der Spalte zu erhalten

Syntax:

df.select (sum ('column_name'))

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
column_name ist die Spalte, um den Summenwert zu erhalten

Wenn wir den Gesamtwert aus mehreren Spalten zurückgeben möchten, müssen wir die Methode SUM () in der Methode Select () verwenden, indem wir den von einem Kommas getrennten Spaltennamen angeben.

Syntax:

df.select (sum ('column_name'), sum ('column_name'),… ., sum ('column_name'))

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
column_name ist die Spalte, um den Summenwert zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Gesamtwert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Summenfunktion
aus pysspark.sql.Funktionen importieren Summe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE SUMS SUMPEN
df.select (sum ('Höhe')).sammeln()

Ausgang:

[Zeile (Summe (Höhe) = 21.65)]

Der Gesamtwert (Summe) aus der Höhenspalte wird im obigen Beispiel zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Gesamtwert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfreame.

Ausgang:

[Zeile (Summe (Höhe) = 21.65, Summe (Alter) = 92, Summe (Gewicht) = 200)]

Der Gesamtwert (Summe) aus der Größe, Alters- und Gewichtsspalten wird im obigen Beispiel zurückgegeben.

Methode 2: Verwendung von Agg () Methode

Wir können den Gesamtwert aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., Summe. Durch die Verwendung der Summe () -Methode können wir den Gesamtwert aus der Spalte abrufen, und schließlich können wir die Collect () -Methode verwenden, um die Summe aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': sum)

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
column_name ist die Spalte, um den Summenwert zu erhalten
Die Summe ist eine Aggregationsfunktion, die zur Rückgabe der Summe verwendet wird

Wenn wir den Gesamtwert aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Kommas getrennten Summenfunktion angeben.

Syntax:

df.Agg ('column_name': sum, 'column_name': sum,…, 'column_name': sum)

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
column_name ist die Spalte, um den Summenwert zu erhalten
Die Summe ist eine Aggregationsfunktion, die zur Rückgabe der Summe verwendet wird

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Gesamtwert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

Ausgang:

[Zeile (Summe (Höhe) = 21.65)]

Im obigen Beispiel wird der Gesamtwert (Summe) aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Gesamtwert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfreame.

Ausgang:

[Zeile (Summe (Höhe) = 21.65, Summe (Alter) = 92, Summe (Gewicht) = 200)]

Im obigen Beispiel wird der Gesamtwert (Summe) aus der Größe, dem Alter und der Gewichtsspalten zurückgegeben.

Methode 3: Verwendung von GroupBy () Methode

Wir können den Gesamtwert aus der Spalte im DataFrame mit der Gruppe GroupBy () erhalten. Diese Methode gibt den Gesamtwert zurück, indem ähnliche Werte in einer Spalte gruppiert werden. Wir müssen die Funktion der Summe () -Funktion nach der Ausführung von GroupBy () -Funktion verwenden

Syntax:

df.GroupBy (Group_Column).sum ('column_name')

Wo,

DF ist der Eingabe -PYSPARK -Datenrahmen
Group_Column ist die Spalte, in der Werte basierend auf dieser Spalte gruppiert werden
column_name ist die Spalte, um den Summenwert zu erhalten
Die Summe ist eine Aggregationsfunktion, die zur Rückgabe der Summe verwendet wird

Beispiel 1:

In diesem Beispiel gruppieren wir die Adressspalte mit der Höhe der Höhe, um den Gesamtwert (SUM) basierend auf dieser Adressspalte zurückzugeben.

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Die Summe wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', sum (Höhe) = 13.07),
Row (Adresse = 'Guntur', Summe (Höhe) = 5.79),
Row (Adresse = 'patna', sum (Höhe) = 2.79)]

Beispiel 2:

In diesem Beispiel gruppieren wir die Adressspalte mit der Spalte Gewicht, um den Gesamtwert (SUM) basierend auf dieser Adressspalte zurückzugeben.

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Die Summe wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', Summe (Gewicht) = 116),
Row (Adresse = 'Guntur', Summe (Gewicht) = 67),
Row (Adresse = 'patna', sum (Gewicht) = 17)]

Abschluss:

Wir haben diskutiert, wie der Summenwert (Gesamt-) Wert aus dem PYSPARK -Datenrahmen mit den Methoden Select () und AGG () erhalten kann. Um den Summenwert durch Gruppieren mit anderen Spalten zu erhalten, haben wir den Groupby zusammen mit der Summe () -Funktion verwendet.

Linux -Befehle

So lassen Sie die Version von CUDA unter Linux installiert

Umfassendes Tutorial, wie Sie die Versionen von CUDA herausfinden, die von den derzeit installierten...

Fr. Chris Frisch

Linux -Befehle

So installieren und aktivieren Sie die SSH-Multi-Faktor-Authentifizierung für Linux-Systeme

Tutorial zum Installieren und Aktivieren von MFA für SSH -Zugriff auf Linux -Systemen, indem eine un...

Gian Eisenlauer

Php

So verwenden Sie PHP -Serialisierungsfunktion

Serialize () -Funktion kann ein Array, Objekt oder eine komplexe Datenstruktur in eine Zeichenfolge ...

Prof. Dr. Julien Plank