PYSPARK RDD - Name und SetName

PYSPARK RDD - Name und SetName
In Python ist PySpark ein Spark -Modul, das eine ähnliche Art von Verarbeitung wie Spark bietet.

RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen. Paar RDD speichert die Elemente/Werte in Form von Schlüsselwertpaaren. Es speichert das Schlüsselwertpaar im Format (Schlüssel, Wert).

Wir müssen RDD aus dem PySpark importieren.RDD -Modul.

In PYSPARK, um eine RDD zu erstellen, können wir die parallelize () -Methode verwenden.

Syntax:

Spark_App.SparkContext.parallelisieren (Daten)

Wobei Daten ein eindimensionaler (linearer Daten) oder zwei dimensionale Daten (Zeilen-Säulen-Daten) sein können.

PYSPARK RDD - SETNAME ()

setName () in der pyspark RDD wird verwendet, um den Namen der RDD festzulegen. Es nimmt den Namen als Parameter.

Syntax:

Rdd_data.setName ('rdd_name')

Parameter:

'Rdd_name' ist der Name der zugewiesenen RDD.

Beispiel:

In diesem Beispiel erstellen wir eine RDD mit dem Namen Subjekts_rating und setzen den Namen dieser RDD auf sub_rate.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie 6 - Betreff- und Bewertungspaare
Subjekte_RATE = Spark_App.SparkContext.Parallelize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3) ]))
#SETZEN SIE Den RDD -Namen in sub_rate
result = subjekts_rating.setName ('sub_rate')
#Display die RDD
Druck (Ergebnis.sammeln())

Ausgang:

[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]

Wir können sehen, dass RDD auf sub_rate eingestellt ist und die RDD mit Collect () -Methode anzeigt.

PYSPARK RDD - Name ()

name () in pyspark RDD wird verwendet, um den Namen der RDD zurückzugeben. Es dauert keine Parameter.

Syntax:

RDD -Daten.Name()

Beispiel:

In diesem Beispiel erstellen wir eine RDD namens Subjekts_rating und setzen den Namen dieser RDD auf sub_rate und erhalten Sie den Namen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie 6 - Betreff- und Bewertungspaare
Subjekte_RATE = Spark_App.SparkContext.Parallelize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3) ]))
#SETZEN SIE Den RDD -Namen in sub_rate
result = subjekts_rating.setName ('sub_rate')
#REITEN SIE DEN RDD -NAME
Druck (Ergebnis.Name())

Ausgang:

Sub_rate

Wir können sehen, dass der Name der RDD sub_rate ist.

Abschluss

In diesem Artikel haben wir gesehen.