In Python ist PySpark ein Spark -Modul, das eine ähnliche Art von Verarbeitung wie Spark bietet.
RDD steht für widerstandsfähige verteilte Datensätze. Wir können RDD als grundlegende Datenstruktur in Apache Spark bezeichnen.
Syntax:
1 | Spark_App.SparkContext.parallelisieren (Daten) |
Wir können die Daten in einem tabellarischen Format anzeigen. Die verwendete Datenstruktur ist DataFrame.Das tabellarische Format bedeutet, dass Daten in Zeilen und Spalten gespeichert werden.
Syntax:
In PySpark können wir mit der Methode "CreatedAtaframe () einen Datenrahmen aus der Spark App erstellen.
Syntax:
1 | Spark_App.createdataframe (input_data, Spalten) |
Wobei input_data ein Wörterbuch oder eine Liste sein kann, um einen Datenrahmen aus diesen Daten zu erstellen, und wenn die input_data eine Liste von Wörterbüchern ist, sind die Spalten nicht erforderlich. Wenn es sich um eine verschachtelte Liste handelt, müssen wir die Spaltennamen angeben.
Lassen Sie uns nun besprechen, wie Sie die angegebenen Daten in der PYSPARK RDD oder in DataFrame überprüfen können.
Schaffung von PYSPARK RDD:
In diesem Beispiel erstellen wir eine RDD namens Schüler und Anzeigen mit Collect () -Aktion.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren ([[
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#Display die RDD mit sammel ()
Druck (Schüler.sammeln())
Ausgang:
['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
Schaffung von PYSPARK -Datenframe:
In diesem Beispiel werden wir einen Datenrahmen namens DF aus den Daten der Schüler erstellen und diese mit der modal (show () -Methode anzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()
Ausgang:
Methode 1: IsInstance ()
In Python wird die IsInstance () -Methode verwendet, um das angegebene Objekt (Daten) mit dem Typ (RDD/DataFrame) zu vergleichen
Syntax:
1 | Issinstance (Objekt, RDD/DataFrame) |
Es dauert zwei Parameter:
Parameter:
Es wird die booleschen Werte zurückgeben (True/False).
Nehmen wir an, die Daten sind RDD und der Typ ist auch RDD, dann wird sie wahr zurückgegeben, sonst gibt er false zurück.
In ähnlicher Weise wird der Datenrahmen und der Typ auch DataFrame zurückgegeben, da sie true zurückgibt, andernfalls gibt sie false zurück.
Beispiel 1:
Überprüfen Sie das RDD -Objekt
In diesem Beispiel werden wir isinstance () für RDD -Objekt anwenden.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession und Datenframe zum Erstellen einer Sitzung
aus pysspark.SQL Import SparkSession, DataFrame
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren ([[
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#Conck, wenn das Objekt des Schülers RDD ist
drucken (Issinstance (Studenten, RDD))
#Conck, wenn das Objekt des Schülers DataFrame ist
drucken (Issinstance (Studenten, Datenrahmen))
Ausgang:
1 2 3 | WAHR |
Zunächst haben wir Schüler mit RDD verglichen. Es kehrte wahr zurück, weil es eine RDD ist; Und dann haben wir Schüler mit DataFrame verglichen, es hat False zurückgegeben, weil es sich um eine RDD handelt (kein Datenrahmen).
Beispiel 2:
Überprüfen Sie das DataFrame -Objekt
In diesem Beispiel werden wir isinstance () für das DataFrame -Objekt anwenden.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession, Datenrahmen zum Erstellen einer Sitzung
aus pysspark.SQL Import SparkSession, DataFrame
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Conck, wenn der DF RDD ist
drucken (Issinstance (df, rdd))
#Conck, wenn der DF DataFrame ist
drucken (isInstance (df, DataFrame))
Ausgang:
1 2 3 | FALSCH |
Zuerst haben wir DF mit RDD verglichen; Es gab False zurück, weil es sich um einen Datenrahmen handelt und dann DF mit DataFrame verglichen haben. Es gab True zurück, weil es sich um einen Datenrahmen handelt (kein RDD).
Methode 2: Typ ()
In Python gibt die Methode type () die Klasse des angegebenen Objekts zurück. Es nimmt Objekt als Parameter.
Syntax:
1 | Typ (Objekt) |
Beispiel 1:
Überprüfen Sie nach einem RDD -Objekt.
Wir werden Typ () auf das RDD -Objekt anwenden.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
# RDD aus PYSPARK importieren.RDD
aus pysspark.RDD Import RDD
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = Spark_App.SparkContext.parallelisieren ([[
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd'])
#Überprüfen Sie die Art der Schüler
Druck (Typ (Schüler))
Ausgang:
1 |
Wir können sehen, dass die Klasse RDD zurückgegeben wird.
Beispiel 2:
Überprüfen Sie das DataFrame -Objekt.
Wir werden type () auf das DataFrame -Objekt anwenden.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Überprüfen Sie die Art der DF
Druck (Typ (df))
Ausgang:
1 |
Wir können sehen, dass der Klassendatenrahmen zurückgegeben wird.
Abschluss
Im obigen Artikel haben wir zwei Möglichkeiten gesehen, um zu überprüfen, ob das angegebene Daten oder das angegebene Objekt ein RDD oder einen Datenrahmen mit IsInstance () und Type () ist. Sie müssen beachten, dass isinstance () basierend auf dem angegebenen Objekt zu booleschen Werten führt. Wenn der Objekttyp gleich ist, gibt er true zurück, sonst falsch. Und Type () wird verwendet, um die Klasse der angegebenen Daten oder des angegebenen Objekts zurückzugeben.