PYSPARK RDD - Aggregatfunktionen

PYSPARK RDD - Aggregatfunktionen
In Python ist PySpark ein Spark -Modul, das eine ähnliche Art von Verarbeitung wie Spark bietet.

RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen.

Wir müssen RDD aus dem PySpark importieren.RDD -Modul.

In PYSPARK, um eine RDD zu erstellen, können wir die parallelize () -Methode verwenden.

Syntax:

Spark_App.SparkContext.parallelisieren (Daten)

Wo:

Daten können eine eindimensionale (lineare Daten) oder zwei dimensionale Daten (Zeilen-Säulen-Daten) sein.

In diesem PYSPARK RDD -Tutorial sehen wir, wie Sie verschiedene Aggregationsfunktionen auf der PYSPARK RDD ausführen können.

1. Summe()

Summe () wird verwendet, um den Gesamtwert (SUM) in der RDD zurückzugeben. Es dauert keine Parameter.

Syntax:

Rdd_data.Summe()

Beispiel:

In diesem Beispiel erstellen wir eine RDD mit dem Namen student_marks mit 20 Elementen und geben die Summe der Gesamtelemente aus einer RDD zurück.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Daten für Schülermarken mit 20 Elementen
Student_marks = Spark_App.SparkContext.parallelisieren ([89,76,78,89,90,100,34,56,54,22,45,43,23,566,
78,21,34,34,56,34])
#Perform SUM () Betrieb
print (student_marks.Summe())

Ausgang:

1112

Aus der obigen Ausgabe können wir sehen, dass die Gesamtsumme der Elemente in RDD 1112 beträgt.

2. Mindest()

Min () wird verwendet, um den Mindestwert aus der RDD zurückzugeben. Es dauert keine Parameter.

Syntax:

Rdd_data.Mindest()

Beispiel:

In diesem Beispiel erstellen wir eine RDD mit dem Namen student_marks mit 20 Elementen und geben den Mindestwert aus einer RDD zurück.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Daten für Schülermarken mit 20 Elementen
Student_marks = Spark_App.SparkContext.parallelisieren ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,788,
21,34,34,56,34])
#Perform min () Betrieb
print (student_marks.Mindest())

Ausgang:

21

Aus der obigen Ausgabe können wir sehen, dass der Mindestwert in RDD 21 beträgt.

3. max ()

MAX () wird verwendet, um den Maximalwert aus der RDD zurückzugeben. Es dauert keine Parameter.

Syntax:

Rdd_data.max ()

Beispiel:

In diesem Beispiel erstellen wir eine RDD mit dem Namen student_marks mit 20 Elementen und geben den Maximalwert aus einer RDD zurück.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Daten für Schülermarken mit 20 Elementen
Student_marks = Spark_App.SparkContext.parallelisieren ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,788,
21,34,34,56,34])
#perform MAX () Betrieb
print (student_marks.max ())

Ausgang

100

Aus der obigen Ausgabe können wir sehen, dass der Maximalwert in RDD 100 beträgt.

bedeuten()

Mean () wird verwendet, um den durchschnittlichen (mittleren) Wert in der RDD zurückzusetzen. Es dauert keine Parameter.

Syntax:

Rdd_data.bedeuten()

Beispiel:

In diesem Beispiel erstellen wir eine RDD namens student_marks mit 20 Elementen und geben den Durchschnitt der Elemente aus einer RDD zurück.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Daten für Schülermarken mit 20 Elementen
Student_marks = Spark_App.SparkContext.parallelisieren ([89,76,78,89,90,100,34,56,54,22,45,43,23,566,
78,21,34,34,56,34])
#perform Mean () Betrieb
print (student_marks.bedeuten())

Ausgang

55.6

Aus der obigen Ausgabe können wir sehen, dass der Durchschnittswert in RDD 55 beträgt.6.

zählen()

Count () wird verwendet, um die in der RDD vorhandenen Gesamtwerte zurückzugeben. Es dauert keine Parameter.

Syntax:

Rdd_data.zählen()

Beispiel:

In diesem Beispiel erstellen wir eine RDD namens student_marks mit 20 Elementen und geben die Anzahl der Elemente in einer RDD zurück.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Daten für Schülermarken mit 20 Elementen
Student_marks = Spark_App.SparkContext.parallelisieren ([89,76,78,89,90,100,34,56,54,22,45,43,23,566,
78,21,34,34,56,34])
#Perform count () Betrieb
print (student_marks.zählen())

Ausgang

20

Aus der obigen Ausgabe können wir sehen, dass die Gesamtzahl der Werte in RDD 20 beträgt.

Abschluss

In diesem PYSPARK -Tutorial haben wir fünf verschiedene Aggregationsoperationen auf RDD gesehen. sum () wird verwendet, um den Gesamtwert in einer RDD zurückzugeben. Mean () wird verwendet, um den Gesamtdurchschnitt von einer RDD zurückzugeben. min () und max () werden verwendet, um minimale und maximale Werte zurückzugeben. Wenn Sie die Gesamtzahl der in einer RDD vorhandenen Elemente zurückgeben müssen, können Sie die Funktion count () verwenden.