RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen. Es speichert die Daten in Form von Zeilen und Spalten wie einem Datenrahmen.
Wir müssen RDD aus dem PySpark importieren.RDD -Modul.
Um Daten oder einen Datenrahmen zu erstellen, müssen wir in pyspark die parallelize () -Methode verwenden.
Syntax:
Spark_App.SparkContext.parallelisieren (Daten)Dabei können Daten eine eindimensionale (lineare Daten) oder zweidimensionale Daten (Zeilen-Säulen-Daten) sein.
In diesem Tutorial werden wir über die PYSPARK RDD Subtractract () und Distrible () Operations sehen.
PYSPARK RDD - Subtrahiert ()
subtrahieren() In RDD ähnelt der Set -Differenzvorgang, der die neue RDD zurückgibt, die die im ersten RDD vorhandenen Elemente enthält, aber im zweiten RDD nicht vorhanden ist.
Wir brauchen also zwei RDDs, um diesen Vorgang durchzuführen.
Syntax:
Rdd_data1.Subtrahieren (rdd_data2)Wo:
Beispiel 1:
In diesem Beispiel werden wir zwei RDD mit numerischen Daten erstellen - Subjekts_1 und Subjekts_2 und subtract () auf zwei RDDs durchführen.
#Amportieren Sie das PYSPARK -ModulAusgang:
Subjekts_1 RDD: [100, 34, 56, 54, 45]Aus der Ausgabe können wir sehen, dass es 5 Elemente in den RDDs gibt.
In der ersten Operation subtrahieren wir mit Subjekts_2 zu Subjekts_1. Hier sind 100 und 54 in Subjekts_1 vorhanden, aber nicht in Subjekts_2. Sie wurden also zurückgegeben.
In der zweiten Operation führen wir Subtraktion auf Subjekts_2 mit Subjekts_1 durch. Hier sind 89 und 90 in Subjekten_2 vorhanden, jedoch nicht in Subjekten_1. Sie wurden also zurückgegeben.
Beispiel 2:
In diesem Beispiel werden wir zwei RDD mit String -Daten erstellen - Subjekts_1 und Subjekts_2 und subtract () auf zwei RDDs durchführen.
#Amportieren Sie das PYSPARK -ModulAusgang:
Subjekts_1 RDD: ['Linux', 'Bash', 'JavaScript']Aus der Ausgabe können wir sehen, dass es 5 Elemente in den RDDs gibt.
In der ersten Operation führen wir die Subtraktion auf Subjekts_1 mit Subjekts_2 durch. Hier sind 'Bash' und 'JavaScript' in themen_1 vorhanden, aber nicht in Subjekts_2. Sie wurden also zurückgegeben.
In der zweiten Operation subtrahieren wir mit Subjekts_1 zu Subjekts_2. Hier ist 'Java' in themen_2 vorhanden, aber nicht in Subjekten_1. Es wird also zurückgegeben.
PYSPARK RDD - DIRTIONEN ()
unterscheidbar() in RDD wird verwendet, um nur eindeutige Werte von RDD zurückzugeben. Es wird nur auf einen RDD angewendet
Wir brauchen also eine RDD, um diesen Vorgang auszuführen. Es dauert keine Parameter.
Syntax:
Rdd_data.unterscheidbar()Wo, rdd_data1 ist die erste RDD.
Beispiel 1:
In diesem Beispiel erstellen wir eine RDD -Subjekts_1 mit 10 numerischen Werten und geben eindeutige Werte zurück.
#Amportieren Sie das PYSPARK -ModulAusgang:
Subjekts_1 RDD: [34, 56, 54, 45, 45, 56, 54, 4, 3, 3]Wir haben eine RDD mit 10 Ganzzahlwerten erstellt, die Duplikate enthalten. Nachdem wir Different () angewendet haben, um nur eindeutige Werte zurückzugeben.
Beispiel 2:
In diesem Beispiel erstellen wir eine RDD -Subjekts_1 mit 5 Stringwerten und geben eindeutige Werte zurück.
#Amportieren Sie das PYSPARK -ModulAusgang:
Subjekts_1 Rdd: ['Java', 'Java', 'Python', 'JavaScript', 'JavaScript']Wir haben eine RDD mit 5 Stringwerten erstellt, die Duplikate enthalten. Danach haben wir bestimmte () nur eindeutige Werte zurückgegeben. Die zurückgegebenen eindeutigen Werte sind - Java, Python und JavaScript.
Abschluss
In diesem PYSPARK RDD -Tutorial haben wir Subtract () und verschiedene () Methoden diskutiert.subtract () wie auf zwei RDDs angewendet. Es wird verwendet, um die im ersten RDD vorhandenen Elemente zurückzugeben, aber nicht im zweiten vorhanden. RDD.Curthip () wird auf Single RDD angewendet, mit dem einzigartige Elemente aus der RDD zurückgegeben werden.