PYSPARK RDD - Aktionen

PYSPARK RDD - Aktionen
In Python ist PySpark ein Spark -Modul, das eine ähnliche Art von Verarbeitung wie Spark bietet.

RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen.

Wir müssen RDD aus dem PySpark importieren.RDD -Modul.

In PYSPARK, um eine RDD zu erstellen, können wir die parallelize () -Methode verwenden.

Syntax:

Spark_App.SparkContext.parallelisieren (Daten)

Wo:

Daten können eine eindimensionale (lineare Daten) oder zwei dimensionale Daten (Zeilen-Säulen-Daten) sein.

RDD -Aktionen:

Eine Aktion in RDD ist eine Operation, die auf einem RDD angewendet wird, um einen einzelnen Wert zurückzugeben. Mit anderen Worten, wir können sagen, dass eine Aktion aus den bereitgestellten Daten resultiert, indem Sie auf der angegebenen RDD einen Betrieb erledigen.

Lassen Sie uns die Aktionen sehen, die auf der angegebenen RDD ausgeführt werden.

Wir werden es einzeln besprechen.

Für alle Aktionen haben wir die Students RDD wie unten gezeigt betrachtet:

['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']

sammeln()


Collect () Aktion in RDD wird verwendet, um die Daten aus der angegebenen RDD zurückzugeben.

Syntax:

Rdd_data.sammeln()

Wo, RDD -Daten sind die RDD

Beispiel:

In diesem Beispiel werden wir sehen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren (['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#Performieren Sie die Sammlung von Aktionen
Druck (Schüler.sammeln())

Ausgang:

['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']

Sie können feststellen, dass alle Daten mit der Collect () -Methode zurückgegeben werden.

2. zählen()

Count () Aktion in RDD wird verwendet, um die Gesamtzahl der Elemente/Werte aus der angegebenen RDD zurückzusetzen.

Syntax:

Rdd_data.zählen()

Wobei RDD -Daten die RDD sind

Beispiel:

In diesem Beispiel werden wir sehen, wie Count () -Akte auf der Studenten RDD ausführt:

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren (['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#Perform Count -Aktion
Druck (Schüler.zählen())

Ausgang:

5

Sie können feststellen, dass die Gesamtzahl der Elemente mit der count () -Methode zurückgegeben wird.

3. Erste()

First () Aktion in RDD wird verwendet, um das erste Element/den ersten Wert aus der angegebenen RDD zurückzugeben.

Syntax:

Rdd_data.Erste()

Wobei RDD -Daten die RDD sind

Beispiel:

In diesem Beispiel werden wir sehen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren (['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#Apply First () Aktion
Druck (Schüler.Erste())

Ausgang:

'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur'

Sie können feststellen, dass das erste Element mit der First () -Methode zurückgegeben wird.

4. nehmen()

Take () Aktion in RDD wird verwendet, um die N -Werte von der Oberseite der angegebenen RDD zurückzugeben. Es braucht einen Parameter - n. Wo es sich auf eine Ganzzahl bezieht, die die Anzahl der Elemente angibt, die von RDD zurückkehren sollen.

Syntax:

Rdd_data.vergriffen)

Parameter:

N- bezieht sich auf eine Ganzzahl, die die Anzahl der Elemente angibt, die von RDD zurückkehren sollen.

Beispiel:

In diesem Beispiel werden wir sehen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren (['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#Perform ergreifen Sie Maßnahmen, um nur Top 2 Zeilen zurückzugeben
Druck (Schüler.Nimm 2))
Ausgang:
['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd']

Sie können feststellen, dass die ersten 2 Elemente mit der Methode take () zurückgegeben werden.

5. SaveTextFile ()

SaveTextFile () -Aktion wird verwendet, um die RDD -Daten in eine Textdatei zu speichern. Der Dateiname als Parameter so, dass die Datei mit dem angegebenen Dateinamen gespeichert wird.

Syntax:

Rdd_data.SaveTextFile ('File_Name.txt')

Parameter:

Datei_Name - Die Datei wird mit dem angegebenen Dateinamen gespeichert.

Beispiel:

In diesem Beispiel werden wir sehen, wie Sie SaveasttextFile () -Akte auf der Students RDD ausführen können, indem Sie die Datei speichern.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren (['Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#performe SaveasttextFile () Aktion zum Speichern von RDD in eine Textdatei.
Studenten.SaveTextFile ('students_file.txt')

Ausgang:

Sie können sehen, dass students_file mit dem heruntergeladenen.

Abschluss

In diesem PYSPARK -Tutorial sehen Sie, was eine RDD ist und wie Sie verschiedene Aktionen auf RDD ausführen können. Die Aktionen, die auf RDD ausgeführt werden Um die RDD in einer Textdatei zu speichern.