RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen. Paar RDD speichert die Elemente/Werte in Form von Schlüsselwertpaaren. Es speichert das Schlüsselwertpaar im Format (Schlüssel, Wert).
Wir müssen RDD aus dem PySpark importieren.RDD -Modul.
In PYSPARK, um eine RDD zu erstellen, können wir die parallelize () -Methode verwenden.
Syntax:
Spark_App.SparkContext.parallelisieren (Daten)Dabei können Daten eine eindimensionale (lineare Daten) oder zweidimensionale Daten (Zeilen-Säulen-Daten) sein.
PYSPARK RDD - SOKOUP ()
Lookup () ist eine Aktion in Pair RDD, mit der alle Werte zurückgegeben werden, die einem Schlüssel in einer Liste zugeordnet sind. Es wird auf einem Einzelpaar RDD durchgeführt. Es nimmt einen Schlüssel als Parameter.
Syntax:
Rdd_data.Lookup (Schlüssel)Parameter:
Der Schlüssel bezieht sich auf den Schlüssel, der im Paar RDD vorhanden ist.
Beispiel:
In diesem Beispiel werden wir nach dem Schlüsselpython, JavaScript und Linux nachschlagen.
#Amportieren Sie das PYSPARK -ModulAusgang:
Paar RDD: [('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3 )]Aus der obigen Ausgabe können wir sehen, dass es 2 Werte gibt, die mit Key-Python existieren, so dass es 4 und 3 zurückgegeben hat. Es gibt 2 Werte, die mit Schlüssel-JavaScript existieren, so dass es 2 und 4 zurückgegeben hat. Es gibt nur einen Wert, der mit Key-Linux existiert, sodass er 1 zurückgegeben hat.
PYSPARK RDD - CollectasMap ()
CollectasMap () ist eine Aktion zu Pair RDD, mit der alle Werte in Form eines Karte (Schlüssel: Wert) zurückgegeben werden. Es wird verwendet, um die Suche nach. Es braucht keinen Parameter.
Syntax:
Rdd_data.CollectasMap ()Beispiel:
In diesem Beispiel erhalten wir Werte von RDD mit CollectasMap ().
#Amportieren Sie das PYSPARK -ModulAusgang:
'Linux': 5, 'C#': 4, 'JavaScript': 4, 'Python': 53Wir können sehen, dass RDD in Form von Schlüssel zurückgegeben wird: Wertpaare.
Beachten Sie, dass CollectasMap (), wenn mehrere Schlüssel mit unterschiedlichen Werten vorhanden sind.
Beispiel:
#Amportieren Sie das PYSPARK -ModulAusgang:
'Linux': 45, 'C#': 44, 'JavaScript': 4, 'Python': 53Wir können sehen, dass Linux- und C# -Keys zweimal aufgetreten sind. Das zweite Mal sind die Werte 45 und 44. Daher kehrt das CollectasMap () mit den neuen Werten zurück.
Abschluss
In diesem PYSPARK RDD -Tutorial haben wir gesehen. Lookup () wird verwendet, um die mit dem Schlüssel in einer Liste zugeordneten Werte zurückzugeben, indem der Schlüssel als Parameter genommen wird, und CollectasMap () gibt die RDD in Form von Karte zurück.