PYSPARK RDD - SOKOUP, CollectasMap

PYSPARK RDD - SOKOUP, CollectasMap
In Python ist PySpark ein Spark -Modul, das eine ähnliche Art von Verarbeitung wie Spark bietet.

RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen. Paar RDD speichert die Elemente/Werte in Form von Schlüsselwertpaaren. Es speichert das Schlüsselwertpaar im Format (Schlüssel, Wert).

Wir müssen RDD aus dem PySpark importieren.RDD -Modul.

In PYSPARK, um eine RDD zu erstellen, können wir die parallelize () -Methode verwenden.

Syntax:

Spark_App.SparkContext.parallelisieren (Daten)

Dabei können Daten eine eindimensionale (lineare Daten) oder zweidimensionale Daten (Zeilen-Säulen-Daten) sein.

PYSPARK RDD - SOKOUP ()

Lookup () ist eine Aktion in Pair RDD, mit der alle Werte zurückgegeben werden, die einem Schlüssel in einer Liste zugeordnet sind. Es wird auf einem Einzelpaar RDD durchgeführt. Es nimmt einen Schlüssel als Parameter.

Syntax:

Rdd_data.Lookup (Schlüssel)

Parameter:

Der Schlüssel bezieht sich auf den Schlüssel, der im Paar RDD vorhanden ist.

Beispiel:

In diesem Beispiel werden wir nach dem Schlüsselpython, JavaScript und Linux nachschlagen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie 6 - Betreff- und Bewertungspaare
Subjekte_RATE = Spark_App.SparkContext.parallelisieren ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4),
('JavaScript', 4), ('Python', 3)])
#Aktuelles Paar RDD
print ("Paar RDD:", Subjekts_rating.sammeln())
#GET SOKOUP nach dem Key-Python
print ("Such nach dem Python:", themen_rating.Lookup ('Python'))
#GET SOUCH DER KLEY-JAVASRIPT
print ("Suchen Sie nach dem JavaScript:", Subjekts_rating.Lookup ('JavaScript'))
#GET SOKOUP nach dem Schlüssel-Linux
print ("Such nach Linux:", Subjekts_rating.Lookup ('Linux'))

Ausgang:

Paar RDD: [('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3 )]
Suchen Sie nach dem Python: [4, 3]
Suchen Sie nach dem JavaScript: [2, 4]
Suchen Sie nach Linux: [5]

Aus der obigen Ausgabe können wir sehen, dass es 2 Werte gibt, die mit Key-Python existieren, so dass es 4 und 3 zurückgegeben hat. Es gibt 2 Werte, die mit Schlüssel-JavaScript existieren, so dass es 2 und 4 zurückgegeben hat. Es gibt nur einen Wert, der mit Key-Linux existiert, sodass er 1 zurückgegeben hat.

PYSPARK RDD - CollectasMap ()

CollectasMap () ist eine Aktion zu Pair RDD, mit der alle Werte in Form eines Karte (Schlüssel: Wert) zurückgegeben werden. Es wird verwendet, um die Suche nach. Es braucht keinen Parameter.

Syntax:

Rdd_data.CollectasMap ()

Beispiel:

In diesem Beispiel erhalten wir Werte von RDD mit CollectasMap ().

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie 6 - Betreff- und Bewertungspaare
Subjekte_RATE = Spark_App.SparkContext.parallelisieren ([('Linux', 5), ('C#', 4),
('JavaScript', 4), ('Python', 53)])
#Apply CollectasMap (), um die RDD zurückzugeben
drucken (Themen_rating.CollectasMap ())

Ausgang:

'Linux': 5, 'C#': 4, 'JavaScript': 4, 'Python': 53

Wir können sehen, dass RDD in Form von Schlüssel zurückgegeben wird: Wertpaare.

Beachten Sie, dass CollectasMap (), wenn mehrere Schlüssel mit unterschiedlichen Werten vorhanden sind.

Beispiel:

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie 6 - Betreff- und Bewertungspaare
Subjekte_RATE = Spark_App.SparkContext.parallelisieren ([('Linux', 5), ('C#', 4), ('JavaScript', 4),
('Python', 53), ('Linux', 45), ('C#', 44),])
#Apply CollectasMap (), um die RDD zurückzugeben
drucken (Themen_rating.CollectasMap ())

Ausgang:

'Linux': 45, 'C#': 44, 'JavaScript': 4, 'Python': 53

Wir können sehen, dass Linux- und C# -Keys zweimal aufgetreten sind. Das zweite Mal sind die Werte 45 und 44. Daher kehrt das CollectasMap () mit den neuen Werten zurück.

Abschluss

In diesem PYSPARK RDD -Tutorial haben wir gesehen. Lookup () wird verwendet, um die mit dem Schlüssel in einer Liste zugeordneten Werte zurückzugeben, indem der Schlüssel als Parameter genommen wird, und CollectasMap () gibt die RDD in Form von Karte zurück.