In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.
Zeilenklasse in PySpark wird verwendet, um Zeile für den PYSPARK -Datenframe zu erstellen. Wir können eine Zeile erstellen, indem wir die Funktion row () verwenden.
Dies ist im PYSPARK erhältlich.SQL -Modul. Wir müssen also Zeile aus diesem Modul importieren.
Syntax:
Row (column_name = 'value',… .)
Wo,
- Column_Name ist die Spalte für den PYSPARK -Datenframe
- Wert ist der Zeilenwert für eine bestimmte Spalte
Wir können eine beliebige Anzahl von Spalten in der Zeilenklasse angeben.
Wenn wir mehrere Zeilen erstellen möchten, müssen wir die Zeilenklasse in einer von einem Kommasoperator getrennten Liste angeben.
Syntax:
[Row (column_name = 'value',… .), Row (column_name = 'value',… .)
,…]
Um PYSPark -Datenframe aus dieser Zeile zu erstellen, übergeben wir einfach die Zeilenliste an die Methode "CreatedAtaframe ()).
Wenn wir den PYSPark -Datenframe im Zeilenformat anzeigen möchten, müssen wir die Collect () -Methode verwenden.
Diese Methode wird verwendet, um die Daten in einer Zeile nach Zeilenformat zu erhalten
Syntax:
Datenrahmen.sammeln()
Wo DataFrame der Eingabed DataFrame ist.
Beispiel :
In diesem Beispiel werden 5 Zeilen mithilfe der Zeilenklasse mit 6 Spalten erstellt und den DataFrame mithilfe der Methode Collect () angezeigt.
#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession zum Erstellen einer Sitzung und einer Reihe
aus pysspark.SQL Import SparkSession, Reihe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
#reizreihen
row_data = [row (rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur'),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna'),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd'),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd')]
#Creatiere den Datenrahmen von row_data
df = spark_app.erstellteataframe (row_data)
# Zeigen Sie den Datenrahmen an
#byreihen
df.sammeln()
Ausgang:
[Zeile (Rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur'),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna'),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd'),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd')]
Wir können zuerst auch die Spalten definieren und dann die Werte an die Zeilen übergeben.
Dies geschieht mit dem Zeilennamen. Wir definieren die Spalten mit Zeilenname und verwenden diese Werte zur Zeile hinzufügen
Syntax:
Row_name = row ("column_name1", column_name2 ", .. .,”Column_name n)
[Row_name (value1, value2,…, valuen),…, row_name (value1, value2,…, valuen)]
Beispiel:
In diesem Beispiel werden wir 6 Spalten mit Zeilennamen als Schüler mit Namen als "Rollno", "Name", "Alter", "Größe", "Gewicht", "Adresse" und 5 Werte zu dieser Schülerreihe hinzufügen.
#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession zum Erstellen einer Sitzung und einer Reihe
aus pysspark.SQL Import SparkSession, Reihe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie eine Zeile mit 6 Spalten
Schüler = Row ("Rollno", "Name", "Alter", "Größe", "Gewicht", "Adresse")
#Create -Werte für die Zeilen
Row_data = [Studenten ('001', 'Sravan', 23,5.79,67, 'Guntur'),
Studenten ('002', 'Ojaswi', 16,3.79,34, 'Hyd'),
Studenten ('003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'),
Studenten ('004', 'Rohith', 9,3.69,28, 'Hyd'),
Studenten ('005', 'Sridevi', 37,5.59,54, 'Hyd')]
#Creatiere den Datenrahmen von row_data
df = spark_app.erstellteataframe (row_data)
# Zeigen Sie den Datenrahmen an
#byreihen
df.sammeln()
Ausgang:
[Zeile (Rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur'),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna'),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd'),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd')]
Erstellen einer verschachtelten Reihe
Zeile in einer Reihe ist als verschachtelte Reihe bekannt. Wir können die verschachtelte Zeile in der Zeile erstellen, ähnlich der normalen Zeilenerstellung
Syntax:
[Row (column_name = row (column_name = 'value',… .),… .),
Row (column_name = row (column_name = 'value',… .),
…]
Beispiel:
In diesem Beispiel erstellen wir einen ähnlichen Datenrahmen wie oben, fügen jedoch jeder Zeile eine Spalte mit dem Namen Subjekte hinzu und fügen Java- und PHP -Werte mithilfe einer verschachtelten Zeile hinzu.
#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession zum Erstellen einer Sitzung und einer Reihe
aus pysspark.SQL Import SparkSession, Reihe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
#reizreihen
row_data = [row (rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')]]
#Creatiere den Datenrahmen von row_data
df = spark_app.erstellteataframe (row_data)
# Zeigen Sie den Datenrahmen an
#byreihen
df.sammeln()
Ausgang:
[Zeile (Rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')]]
Abschluss:
In diesem Artikel wurde in der Zeilenklasse und zum Erstellen von PYSpark -Datenfream mithilfe der Zeilenklasse erörtert. Endlich diskutierten wir eine verschachtelte Zeilenklasse.