RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen.
Wir müssen RDD aus dem PySpark importieren.RDD -Modul.
In PYSPARK, um eine RDD zu erstellen, können wir die parallelize () -Methode verwenden.
Syntax:
Spark_App.SparkContext.parallelisieren (Daten)Wo:
Daten können eine eindimensionale (lineare Daten) oder zwei dimensionale Daten (Zeilen-Säulen-Daten) sein.
In diesem PYSPARK RDD -Tutorial sehen wir, wie Sie verschiedene Aggregationsfunktionen auf der PYSPARK RDD ausführen können.
1. Summe()
Summe () wird verwendet, um den Gesamtwert (SUM) in der RDD zurückzugeben. Es dauert keine Parameter.
Syntax:
Rdd_data.Summe()Beispiel:
In diesem Beispiel erstellen wir eine RDD mit dem Namen student_marks mit 20 Elementen und geben die Summe der Gesamtelemente aus einer RDD zurück.
#Amportieren Sie das PYSPARK -ModulAusgang:
1112Aus der obigen Ausgabe können wir sehen, dass die Gesamtsumme der Elemente in RDD 1112 beträgt.
2. Mindest()
Min () wird verwendet, um den Mindestwert aus der RDD zurückzugeben. Es dauert keine Parameter.
Syntax:
Rdd_data.Mindest()Beispiel:
In diesem Beispiel erstellen wir eine RDD mit dem Namen student_marks mit 20 Elementen und geben den Mindestwert aus einer RDD zurück.
#Amportieren Sie das PYSPARK -ModulAusgang:
21Aus der obigen Ausgabe können wir sehen, dass der Mindestwert in RDD 21 beträgt.
3. max ()
MAX () wird verwendet, um den Maximalwert aus der RDD zurückzugeben. Es dauert keine Parameter.
Syntax:
Rdd_data.max ()Beispiel:
In diesem Beispiel erstellen wir eine RDD mit dem Namen student_marks mit 20 Elementen und geben den Maximalwert aus einer RDD zurück.
#Amportieren Sie das PYSPARK -ModulAusgang
100Aus der obigen Ausgabe können wir sehen, dass der Maximalwert in RDD 100 beträgt.
bedeuten()
Mean () wird verwendet, um den durchschnittlichen (mittleren) Wert in der RDD zurückzusetzen. Es dauert keine Parameter.
Syntax:
Rdd_data.bedeuten()Beispiel:
In diesem Beispiel erstellen wir eine RDD namens student_marks mit 20 Elementen und geben den Durchschnitt der Elemente aus einer RDD zurück.
#Amportieren Sie das PYSPARK -ModulAusgang
55.6Aus der obigen Ausgabe können wir sehen, dass der Durchschnittswert in RDD 55 beträgt.6.
zählen()
Count () wird verwendet, um die in der RDD vorhandenen Gesamtwerte zurückzugeben. Es dauert keine Parameter.
Syntax:
Rdd_data.zählen()Beispiel:
In diesem Beispiel erstellen wir eine RDD namens student_marks mit 20 Elementen und geben die Anzahl der Elemente in einer RDD zurück.
#Amportieren Sie das PYSPARK -ModulAusgang
20Aus der obigen Ausgabe können wir sehen, dass die Gesamtzahl der Werte in RDD 20 beträgt.
Abschluss
In diesem PYSPARK -Tutorial haben wir fünf verschiedene Aggregationsoperationen auf RDD gesehen. sum () wird verwendet, um den Gesamtwert in einer RDD zurückzugeben. Mean () wird verwendet, um den Gesamtdurchschnitt von einer RDD zurückzugeben. min () und max () werden verwendet, um minimale und maximale Werte zurückzugeben. Wenn Sie die Gesamtzahl der in einer RDD vorhandenen Elemente zurückgeben müssen, können Sie die Funktion count () verwenden.