RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen. Paar RDD speichert die Elemente/Werte in Form von Schlüsselwertpaaren. Es speichert das Schlüsselwertpaar im Format (Schlüssel, Wert).
Wir müssen RDD aus dem PySpark importieren.RDD -Modul.
In PYSPARK, um eine RDD zu erstellen, können wir die parallelize () -Methode verwenden.
Syntax:
Spark_App.SparkContext.parallelisieren (Daten)Wobei Daten ein eindimensionaler (linearer Daten) oder zwei dimensionale Daten (Zeilen-Säulen-Daten) sein können.
PYSPARK RDD - SETNAME ()
setName () in der pyspark RDD wird verwendet, um den Namen der RDD festzulegen. Es nimmt den Namen als Parameter.
Syntax:
Rdd_data.setName ('rdd_name')Parameter:
'Rdd_name' ist der Name der zugewiesenen RDD.
Beispiel:
In diesem Beispiel erstellen wir eine RDD mit dem Namen Subjekts_rating und setzen den Namen dieser RDD auf sub_rate.
#Amportieren Sie das PYSPARK -ModulAusgang:
[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]Wir können sehen, dass RDD auf sub_rate eingestellt ist und die RDD mit Collect () -Methode anzeigt.
PYSPARK RDD - Name ()
name () in pyspark RDD wird verwendet, um den Namen der RDD zurückzugeben. Es dauert keine Parameter.
Syntax:
RDD -Daten.Name()Beispiel:
In diesem Beispiel erstellen wir eine RDD namens Subjekts_rating und setzen den Namen dieser RDD auf sub_rate und erhalten Sie den Namen.
#Amportieren Sie das PYSPARK -ModulAusgang:
Sub_rateWir können sehen, dass der Name der RDD sub_rate ist.
Abschluss
In diesem Artikel haben wir gesehen.