PYSPARK - Reihenklasse

Ansgar Radtke

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

Zeilenklasse in PySpark wird verwendet, um Zeile für den PYSPARK -Datenframe zu erstellen. Wir können eine Zeile erstellen, indem wir die Funktion row () verwenden.

Dies ist im PYSPARK erhältlich.SQL -Modul. Wir müssen also Zeile aus diesem Modul importieren.

Syntax:

Row (column_name = 'value',… .)

Wo,

Column_Name ist die Spalte für den PYSPARK -Datenframe
Wert ist der Zeilenwert für eine bestimmte Spalte

Wir können eine beliebige Anzahl von Spalten in der Zeilenklasse angeben.

Wenn wir mehrere Zeilen erstellen möchten, müssen wir die Zeilenklasse in einer von einem Kommasoperator getrennten Liste angeben.

Syntax:

[Row (column_name = 'value',… .), Row (column_name = 'value',… .)
,…]

Um PYSPark -Datenframe aus dieser Zeile zu erstellen, übergeben wir einfach die Zeilenliste an die Methode "CreatedAtaframe ()).

Wenn wir den PYSPark -Datenframe im Zeilenformat anzeigen möchten, müssen wir die Collect () -Methode verwenden.

Diese Methode wird verwendet, um die Daten in einer Zeile nach Zeilenformat zu erhalten

Syntax:

Datenrahmen.sammeln()

Wo DataFrame der Eingabed DataFrame ist.

Beispiel :

In diesem Beispiel werden 5 Zeilen mithilfe der Zeilenklasse mit 6 Spalten erstellt und den DataFrame mithilfe der Methode Collect () angezeigt.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession zum Erstellen einer Sitzung und einer Reihe
aus pysspark.SQL Import SparkSession, Reihe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
#reizreihen
row_data = [row (rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur'),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna'),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd'),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd')]
#Creatiere den Datenrahmen von row_data
df = spark_app.erstellteataframe (row_data)
# Zeigen Sie den Datenrahmen an
#byreihen
df.sammeln()

Ausgang:

[Zeile (Rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur'),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna'),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd'),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd')]

Wir können zuerst auch die Spalten definieren und dann die Werte an die Zeilen übergeben.

Dies geschieht mit dem Zeilennamen. Wir definieren die Spalten mit Zeilenname und verwenden diese Werte zur Zeile hinzufügen

Syntax:

Row_name = row ("column_name1", column_name2 ", .. .,”Column_name n)
[Row_name (value1, value2,…, valuen),…, row_name (value1, value2,…, valuen)]

Beispiel:

In diesem Beispiel werden wir 6 Spalten mit Zeilennamen als Schüler mit Namen als "Rollno", "Name", "Alter", "Größe", "Gewicht", "Adresse" und 5 Werte zu dieser Schülerreihe hinzufügen.

Ausgang:

Erstellen einer verschachtelten Reihe

Zeile in einer Reihe ist als verschachtelte Reihe bekannt. Wir können die verschachtelte Zeile in der Zeile erstellen, ähnlich der normalen Zeilenerstellung

Syntax:

[Row (column_name = row (column_name = 'value',… .),… .),
Row (column_name = row (column_name = 'value',… .),
…]

Beispiel:

In diesem Beispiel erstellen wir einen ähnlichen Datenrahmen wie oben, fügen jedoch jeder Zeile eine Spalte mit dem Namen Subjekte hinzu und fügen Java- und PHP -Werte mithilfe einer verschachtelten Zeile hinzu.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession zum Erstellen einer Sitzung und einer Reihe
aus pysspark.SQL Import SparkSession, Reihe
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
#reizreihen
row_data = [row (rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')]]
#Creatiere den Datenrahmen von row_data
df = spark_app.erstellteataframe (row_data)
# Zeigen Sie den Datenrahmen an
#byreihen
df.sammeln()

Ausgang:

[Zeile (Rollno = '001', name = 'sravan', Alter = 23, Höhe = 5.79, Gewicht = 67, Adresse = 'Guntur', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '002', name = 'ojaswi', Alter = 16, Höhe = 3.79, Gewicht = 34, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '003', name = 'gnanesh chowdary', Alter = 7, Höhe = 2.79, Gewicht = 17, Adresse = 'patna', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Reihe (Rollno = '004', name = 'Rohith', Alter = 9, Höhe = 3.69, Gewicht = 28, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')),
Row (rollno = '005', name = 'sridevi', Alter = 37, Höhe = 5.59, Gewicht = 54, Adresse = 'Hyd', Subjekte = row (Subjekt = 'Java', Subjekt2 = 'PHP')]]

Abschluss:

In diesem Artikel wurde in der Zeilenklasse und zum Erstellen von PYSpark -Datenfream mithilfe der Zeilenklasse erörtert. Endlich diskutierten wir eine verschachtelte Zeilenklasse.

Windows OS

Was ist Windows Package Manager

Windows Package Manager oder Winget ist ein leistungsstarkes Tool zum Installieren und Verwalten von...

Prof. Dr. Julien Plank

Python

Python Chmod

Das “os.CHMOD () ”Die Funktion des Betriebssystemmodul....

Lars Daub

Windows OS

Was ist der Unterschied zwischen Windows Top 10 Home und Pro

Die „Pro“ -Version ist für professionelle Benutzer geeignet und verfügt über mehr Verwaltungswerkzeu...

Kaya Wyludda