In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. In diesem Artikel werden wir verschiedene Möglichkeiten erörtern, um PYSPark -Datenframe zu erstellen.
Methode 1: Verwenden des Wörterbuchs
Das Wörterbuch ist eine Datenstruktur, die die Daten im Schlüsselformat für das Wertpaar speichert.
Der Schlüssel fungiert als Spalte und Wert fung. Dies muss in der Liste übergeben werden.
Struktur:
['Schlüsselwert]
Wir können auch mehrere Wörterbücher bereitstellen.
Struktur:
['Key': value, 'Key': value,… .,'Schlüsselwert]
Beispiel:
Hier erstellen wir PYSPark -Datenfreame mit 5 Zeilen und 6 Spalten durch das Wörterbuch. Schließlich zeigen wir den DataFrame mithilfe von Show () -Methode an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()
Ausgang:
Methode 2: Verwenden der Liste der Tupel
Tuple ist eine Datenstruktur, die die Daten in () speichert.
Wir können die von Kommas getrennten Zeilen in einem Tupel übergeben, das von einer Liste umgeben ist.
Struktur:
[(value1, value2,.,VULIDE)]]
Wir können auch mehrere Tupel in einer Liste bereitstellen.
Struktur:
[(value1, value2,.,VURLEIEN), (Wert 1, Wert2,.,VURLEIEN),…, (Wert1, Wert2,.,VULIDE)]]
Wir müssen die Spaltennamen über eine Liste bereitstellen, während wir den Datenrahmen erstellen.
Syntax:
column_names = ['column1', 'column2',… .'Spalte']
Spark_App.createdataframe (list_of_tuple, column_names)
Beispiel:
Hier erstellen wir PYSPark -Datenfreame mit 5 Zeilen und 6 Spalten durch das Wörterbuch. Schließlich zeigen wir den DataFrame mithilfe von Show () -Methode an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [('001', 'Sravan', 23,5.79,67, 'Guntur'),
('002', 'Ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'),
('004', 'Rohith', 9,3.69,28, 'Hyd'),
('005', 'sridevi', 37,5.59,54, 'Hyd')]
#Geben Sie die Spaltennamen an
column_names = ['Rollno', 'Name', 'Alter', 'Größe', 'Gewicht', 'Adresse']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Schüler, column_names)
#Display den DataFrame
df.zeigen()
Ausgang:
Methode 3: Verwenden von Listen mit Tupel
List ist eine Datenstruktur, die die Daten in [] speichert.
Wir können die von Comma getrennten Zeilen in einer von einem Tupel umgebenen Liste übergeben.
Struktur:
([value1, value2,.,VURLEN])
Wir können auch mehrere Listen in einem Tupel bereitstellen.
Struktur:
([value1, value2,.,VURLEIEN], [Value1, Value2,.,VURLEIEN],…, [Wert1, Wert2,.,VURLEN])
Wir müssen die Spaltennamen über eine Liste bereitstellen, während wir den Datenrahmen erstellen.
Syntax:
column_names = ['column1', 'column2',… .'Spalte']
Spark_App.createdataframe (tuple_of_list, column_names)
Beispiel:
Hier erstellen wir PYSPark -Datenfreame mit 5 Zeilen und 6 Spalten durch das Wörterbuch. Schließlich zeigen wir den DataFrame mithilfe von Show () -Methode an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = (['001', 'Sravan', 23,5.79,67, 'Guntur'],
['002', 'Ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'],
['004', 'Rohith', 9,3.69,28, 'Hyd'],
['005', 'sridevi', 37,5.59,54, 'Hyd'])
#Geben Sie die Spaltennamen an
column_names = ['Rollno', 'Name', 'Alter', 'Größe', 'Gewicht', 'Adresse']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Schüler, column_names)
#Display den DataFrame
df.zeigen()
Ausgang:
Methode 4: Verwenden der verschachtelten Liste
List ist eine Datenbautruppe, die die Daten in [] speichert.
So können wir die von Comma getrennten Zeilen in einer von einer Liste umgebenen Liste übergeben.
Struktur:
[[value1, value2),.,VURLEN]]]
Wir können auch mehrere Listen in einer Liste bereitstellen.
Struktur:
[[value1, value2),.,VURLEIEN], [Value1, Value2,.,VURLEIEN],…, [Wert1, Wert2,.,VURLEN]]]
Wir müssen die Spaltennamen über eine Liste bereitstellen, während wir den Datenrahmen erstellen.
Syntax:
column_names = ['column1', 'column2',… .'Spalte']
Spark_App.createdataframe (nested_list, column_names)
Beispiel:
Hier erstellen wir PYSPark -Datenfreame mit 5 Zeilen und 6 Spalten durch das Wörterbuch. Schließlich zeigen wir den DataFrame mithilfe von Show () -Methode an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = ['001', 'Sravan', 23,5.79,67, 'Guntur'],
['002', 'Ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'],
['004', 'Rohith', 9,3.69,28, 'Hyd'],
['005', 'sridevi', 37,5.59,54, 'Hyd']]]
#Geben Sie die Spaltennamen an
column_names = ['Rollno', 'Name', 'Alter', 'Größe', 'Gewicht', 'Adresse']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Schüler, column_names)
#Display den DataFrame
df.zeigen()
Ausgang:
Methode 5: Mit verschachtelten Tupel
Struktur:
((Wert 1, Wert2,.,VURLEINE)))
Wir können auch mehrere Tupel in einem Tupel bereitstellen.
Struktur:
((Wert 1, Wert2,.,VURLEIEN), (Wert 1, Wert2,.,VURLEIEN),…, (Wert1, Wert2,.,VURLEINE)))
Wir müssen die Spaltennamen über eine Liste bereitstellen, während wir den Datenrahmen erstellen.
Syntax:
column_names = ['column1', 'column2',… .'Spalte']
Spark_App.createdataframe (nested_tuple, column_names)
Beispiel:
Hier erstellen wir PYSPark -Datenfreame mit 5 Zeilen und 6 Spalten durch das Wörterbuch. Schließlich zeigen wir den DataFrame mithilfe von Show () -Methode an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = (('001', 'Sravan', 23,5.79,67, 'Guntur'),
('002', 'Ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'),
('004', 'Rohith', 9,3.69,28, 'Hyd'),
('005', 'sridevi', 37,5.59,54, 'Hyd')))
#Geben Sie die Spaltennamen an
column_names = ['Rollno', 'Name', 'Alter', 'Größe', 'Gewicht', 'Adresse']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Schüler, column_names)
#Display den DataFrame
df.zeigen()
Ausgang:
Abschluss
In diesem Tutorial haben wir fünf Methoden zum Erstellen von PYSPARK -Datenframe: Liste der Tupel, Tupel von Listen, verschachtelten Tupel, verschachtelte Listen verwendet und Spaltenliste zur Bereitstellung von Spaltennamen erstellt, um Spaltennamen anzugeben. Es ist nicht erforderlich, die Liste der Spaltennamen beim Erstellen von PySpark -Datenfreame mithilfe des Wörterbuchs zur Verfügung zu stellen.