RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen. Paar RDD speichert die Elemente/Werte in Form von Schlüsselwertpaaren. Es speichert das Schlüsselwertpaar im Format (Schlüssel, Wert).
Wir müssen RDD aus dem PySpark importieren.RDD -Modul.
In PySpark können wir also die Parallelize () -Methode verwenden, um eine RDD zu erstellen,.
Syntax:
Spark_App.SparkContext.parallelisieren (Daten)Wo,
Daten können eine eindimensionale (lineare Daten) oder zweidimensionale (Zeilen-Säulen-Daten) sein.
RDD -Transformationen:
Eine Transformations -RDD ist eine Operation, die auf ein Paar RDD angewendet wird, um neue Daten aus dem vorhandenen Paar RDD zu erstellen. Mit Transformationen können wir das Paar RDD durch Anwenden einiger Transformationen filtern.
Lassen Sie uns die Transformationen sehen, die auf dem gegebenen Paar RDD durchgeführt werden.
Wir werden sie nacheinander besprechen.
GroupByKey
GroupByKey wird verwendet, um die Transformation auf einem Paar RDD durchzuführen, indem die Werte basierend auf dem Schlüssel gruppiert werden. Es wird alle gruppierten Werte in eine Liste gelegt, gefolgt von dem Schlüssel.
Syntax:
pairrdd_data.GroupByKey ()Wir werden A für Schleife verwenden, um Schlüssel und Werte zu iterieren und die Werte in einer Liste mit der Funktion "List ()) zu iterieren.
Beispiel:
In diesem Beispiel haben wir ein Paar RDD erstellt - Subjekts_rating und führte GroupByKey () Transformation in Gruppenwerte in Bezug auf den Schlüssel durch. Also haben wir eine Schleife verwendet, um Schlüssel und Werte zu iterieren, und schließlich haben wir jede Schlüssel- und Wertgruppe angezeigt.
#Amportieren Sie das PYSPARK -ModulAusgang:
Python -> [4, 3]In den oben genannten Probanden.
Sportfahrrad
SortByKey wird verwendet, um eine Transformation auf einem Paar RDD durchzuführen, indem ein neues Paar RDD in aufsteigender Reihenfolge zurückgegeben wird. Diese Transformation sortiert also die Elemente in Paar RDD nach Schlüssel.
Syntax:
pairrdd_data.SortbyKey ()Beispiel:
In diesem Beispiel haben wir ein Paar RDD erstellt - Subjekts_rating und SortByKey () -Transformation, um sortierte Werte basierend auf Taste und Applied Collect () -Aktion zurückzugeben, um das sortierte Paar RDD zu erhalten.
#Amportieren Sie das PYSPARK -ModulAusgang:
[('C#', 4), ('JavaScript', 2), ('JavaScript', 4), ('Linux', 5), ('Python', 4), ('Python', 3)]Wir sehen.
Redebykey
RedByKey wird verwendet, um die Transformation auf einem Paar RDD durchzuführen, indem die Daten parallelly verarbeitet werden, um die Werte mit ähnlichen Schlüssel zu kombinieren. Es wurde einige Funktionen wie Lambda () verwendet, um die Werte basierend auf dem Schlüssel zu kombinieren, indem einige Operationen in der Funktion durchgeführt wurden.
Syntax:
pairrdd_data.RedebyKey (Lambda -Funktion)Lambda -Funktion:
Lambda Element1, Element2: OperationBeispiel:
In diesem Beispiel haben wir ein Paar RDD erstellt - Subjekts_rating und führte eine Transformation von recordyKey () zur Durchführung durch
Schließlich können wir Collect () Aktionen verwenden, um jedes transformierte Paar RDD anzuzeigen.
#Amportieren Sie das PYSPARK -ModulAusgang:
[('Python', 7), ('JavaScript', 6), ('Linux', 5), ('C#', 4)]Für Key-Linux und C#: Es gibt für jeden nur einen Wert.e.
Abschluss
Aus diesem Pair RDD -Artikel haben wir gesehen, was Transformation ist und wie man Paar RDD -Transformationen anwendet. Es gibt drei Transformationen, die wir besprochen haben: GroupByKey () wird verwendet, um alle Werte basierend auf dem Schlüssel zu kombinieren, sortByKey () gibt ein neues Paar RDD zurück, indem das Paar RDD basierend auf Tasten in aufsteigender Reihenfolge sortiert wird, und recordykey () wird Werte in Bezug auf die Werte mit Respekt kombinieren Schlüssel durch Ausführen eines Operation mit anonymen Funktionen wie Lambda -Funktion.