Pysspark - sum

Pysspark - sum
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. sum () in pyspark gibt den Gesamtwert (Summe) aus einer bestimmten Spalte im DataFrame zurück. Wir können den Summenwert auf drei Arten erhalten.
  1. Methode 1: Verwenden Sie select () Methode
  2. Methode 2: Verwendung von Agg () Methode
  3. Methode 3: Verwendung von GroupBy () Methode

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode 1: Verwenden Sie select () Methode

Wir können den Gesamtwert aus der Spalte im DataFrame mit der Methode Select () erhalten. Mit der Summe () -Methode können wir den Gesamtwert aus der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die Collect () -Methode verwenden, um die Summe aus der Spalte zu erhalten

Syntax:

df.select (sum ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Summenwert zu erhalten

Wenn wir den Gesamtwert aus mehreren Spalten zurückgeben möchten, müssen wir die Methode SUM () in der Methode Select () verwenden, indem wir den von einem Kommas getrennten Spaltennamen angeben.

Syntax:

df.select (sum ('column_name'), sum ('column_name'),… ., sum ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Summenwert zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Gesamtwert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Summenfunktion
aus pysspark.sql.Funktionen importieren Summe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE SUMS SUMPEN
df.select (sum ('Höhe')).sammeln()

Ausgang:

[Zeile (Summe (Höhe) = 21.65)]

Der Gesamtwert (Summe) aus der Höhenspalte wird im obigen Beispiel zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Gesamtwert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfreame.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Summenfunktion
aus pysspark.sql.Funktionen importieren Summe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE SUMSE VON DIE SCHUTZ-, ALTER- UND WOCHSCHALTEN
df.select (sum ('Höhe'), sum ('Alter'), sum ('Gewicht')).sammeln()

Ausgang:

[Zeile (Summe (Höhe) = 21.65, Summe (Alter) = 92, Summe (Gewicht) = 200)]

Der Gesamtwert (Summe) aus der Größe, Alters- und Gewichtsspalten wird im obigen Beispiel zurückgegeben.

Methode 2: Verwendung von Agg () Methode

Wir können den Gesamtwert aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., Summe. Durch die Verwendung der Summe () -Methode können wir den Gesamtwert aus der Spalte abrufen, und schließlich können wir die Collect () -Methode verwenden, um die Summe aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': sum)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Summenwert zu erhalten
  3. Die Summe ist eine Aggregationsfunktion, die zur Rückgabe der Summe verwendet wird

Wenn wir den Gesamtwert aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Kommas getrennten Summenfunktion angeben.

Syntax:

df.Agg ('column_name': sum, 'column_name': sum,…, 'column_name': sum)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. column_name ist die Spalte, um den Summenwert zu erhalten
  3. Die Summe ist eine Aggregationsfunktion, die zur Rückgabe der Summe verwendet wird

Beispiel 1: Einzelspalte

In diesem Beispiel wird der Gesamtwert aus der Höhe der Höhenspalte im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE SUMS SUMPEN
df.Agg ('Höhe': 'sum').sammeln()

Ausgang:

[Zeile (Summe (Höhe) = 21.65)]

Im obigen Beispiel wird der Gesamtwert (Summe) aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

Dieses Beispiel erhält den Gesamtwert aus den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfreame.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE SUMSE VON DIE SCHUTZ-, ALTER- UND WOCHSCHALTEN
df.Agg ('Höhe': 'sum', 'Alter': 'sum', 'Gewicht': 'sum').sammeln()

Ausgang:

[Zeile (Summe (Höhe) = 21.65, Summe (Alter) = 92, Summe (Gewicht) = 200)]

Im obigen Beispiel wird der Gesamtwert (Summe) aus der Größe, dem Alter und der Gewichtsspalten zurückgegeben.

Methode 3: Verwendung von GroupBy () Methode

Wir können den Gesamtwert aus der Spalte im DataFrame mit der Gruppe GroupBy () erhalten. Diese Methode gibt den Gesamtwert zurück, indem ähnliche Werte in einer Spalte gruppiert werden. Wir müssen die Funktion der Summe () -Funktion nach der Ausführung von GroupBy () -Funktion verwenden

Syntax:

df.GroupBy (Group_Column).sum ('column_name')

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Group_Column ist die Spalte, in der Werte basierend auf dieser Spalte gruppiert werden
  3. column_name ist die Spalte, um den Summenwert zu erhalten
  4. Die Summe ist eine Aggregationsfunktion, die zur Rückgabe der Summe verwendet wird

Beispiel 1:

In diesem Beispiel gruppieren wir die Adressspalte mit der Höhe der Höhe, um den Gesamtwert (SUM) basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Regeln Sie die Summe aus der Höhenspaltengruppierung mit Adressspalte
df.GroupBy ('Adresse').sum ('Höhe').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Die Summe wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', sum (Höhe) = 13.07),
Row (Adresse = 'Guntur', Summe (Höhe) = 5.79),
Row (Adresse = 'patna', sum (Höhe) = 2.79)]

Beispiel 2:

In diesem Beispiel gruppieren wir die Adressspalte mit der Spalte Gewicht, um den Gesamtwert (SUM) basierend auf dieser Adressspalte zurückzugeben.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Summe aus der Gewichtsspaltengruppierung mit Adressspalte
df.GroupBy ('Adresse').sum ('Gewicht').sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Die Summe wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', Summe (Gewicht) = 116),
Row (Adresse = 'Guntur', Summe (Gewicht) = 67),
Row (Adresse = 'patna', sum (Gewicht) = 17)]

Abschluss:

Wir haben diskutiert, wie der Summenwert (Gesamt-) Wert aus dem PYSPARK -Datenrahmen mit den Methoden Select () und AGG () erhalten kann. Um den Summenwert durch Gruppieren mit anderen Spalten zu erhalten, haben wir den Groupby zusammen mit der Summe () -Funktion verwendet.