Konvertieren Sie PySpark Pandas DataFrame in verschiedene Formate

Konvertieren Sie PySpark Pandas DataFrame in verschiedene Formate
„In Python ist PYSPARK ein Spark -Modul, das eine ähnliche Art von Verarbeitung bietet, die mit DataFrame spark ist und die angegebenen Daten im Zeilen- und Spaltenformat speichert.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas werden aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import:

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von Pandas -Datenframe:

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir mit drei Spalten und fünf Zeilen einen Pandas -Datenframe über PYSPARK.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
print (pyspark_pandas)

Ausgang:

Jetzt werden wir in unser Tutorial gehen.

Wir werden verschiedene Formate sehen, in denen das oben erstellte PySpark Pandas DataFrame konvertiert wird.

PYSPARK.Pandas.Datenrahmen.to_html ()

PYSPARK PANDAS DataFrame wird in das HTML -Format konvertiert, sodass Spaltennamen unter platziert sind Tag und Spaltenwerte werden unter platziert Schild.

Syntax:

pyspark_pandas.to_html ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel 1

In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in das HTML -Format konvertieren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert pyspark_pandas zu html
print (pyspark_pandas.to_html ())

Ausgang:

Sie können sehen, dass Spaltennamen im Inneren platziert sind Tags und Werte werden darin platziert Stichworte.

PYSPARK.Pandas.Datenrahmen.to_json ()

PySpark Pandas DataFrame wird in das JSON -Format konvertiert, sodass Spaltennamen als Schlüssel und Spaltenwerte Werte dienen.

Syntax:

pyspark_pandas.to_json ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 2

In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in das JSON -Format konvertieren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert pyspark_pandas an JSON
print (pyspark_pandas.to_json ())

Ausgang:

["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2) ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]

Sie können sehen, dass Spaltennamen Schlüssel sind.

PYSPARK.Pandas.Datenrahmen.to_numpy ()

PYSPARK PANDAS DataFrame wird unter Verwendung der Methode to_numpy () in das Array -Format konvertiert.

Syntax:

pyspark_pandas.to_numpy ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 3

In diesem Beispiel werden wir den oben genannten pyspark Pandas -Datenframe in das Array -Format konvertieren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert in Numpy Array
print (pyspark_pandas.to_numpy ())

Ausgang:

[[90 100 91]
[56 67 92]
[78 96 98]
[54 89 97]
[67 32 87]]

Sie können sehen, dass Werte in Form eines 2-D-Arrays mit fünf Zeilen und drei Spalten gespeichert sind.

PYSPARK.Pandas.Datenrahmen.to_pandas ()

PYSPARK PANDAS DataFrame wird mit der Methode to_pandas () in Pandas DataFrame konvertiert.

Syntax:

pyspark_pandas.to_pandas ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 4

In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in einen Pandas -Datenfreame umwandeln.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert in Pandas
print (pyspark_pandas.to_pandas ())

Ausgang:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Sie können sehen, dass die Werte in Form eines Pandas -Datenframe mit fünf Zeilen und drei Spalten gespeichert werden.

PYSPARK.Pandas.Datenrahmen.to_markdown ()

PYSPARK PANDAS DataFrame wird mit der Methode to_markdown () in Markdown konvertiert.

Syntax:

pyspark_pandas.to_markdown ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 5

In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in Markdown -Format konvertieren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Display im Markdown -Format
print (pyspark_pandas.to_markdown ())

Ausgang:

Sie können sehen, dass der PySpark Pandas DataFrame in das Markdown -Format konvertiert wird.

PYSPARK.Pandas.Datenrahmen.to_dict ()

PYSPARK PANDAS DataFrame wird mit der Methode to_dict () in ein Wörterbuch konvertiert.Spaltennamen sind Schlüssel.

Syntax:

pyspark_pandas.to_dict ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 6

In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in ein Wörterbuch mit der Methode to_dict () konvertieren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert in Wictionary
print (pyspark_pandas.to_dict ())

Ausgang:

'mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87

Sie können sehen, dass der PySpark Pandas DataFrame in ein Wörterbuch mit Schlüssel als Spaltennamen konvertiert wird.

PYSPARK.Pandas.Datenrahmen.to_records ()

PYSPARK PANDAS DataFrame wird mit der Methode to_Records () in einen Datensatz konvertiert. Hier wird für jede Zeile des Datensatzes eine ID platziert, die von 1 beginnt.

Syntax:

pyspark_pandas.to_records ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 7

In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame mit der Methode to_records () in einen Datensatz konvertieren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert zu Datensätzen
print (pyspark_pandas.to_records ())

Ausgang:

[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)
(4, 67, 32, 87)]

PYSPARK.Pandas.Datenrahmen.to_latex ()

PYSPARK PANDAS DataFrame wird mit der to_latex () -Methode in einen Datensatz konvertiert.

Syntax:

pyspark_pandas.to_latex ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 8

In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in Latex -Format konvertieren.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert zu Latex
print (pyspark_pandas.to_latex ())

Ausgang:

Wir können sehen, dass der PySpark Pandas DataFrame in Latex -Format konvertiert wird.

PYSPARK.Pandas.Datenrahmen.entfachen()

PYSPARK PANDAS DataFrame wird mit der Methode to_spark () in einen Spark DataFrame konvertiert. Es wird die Methode show () verwendet, um den DataFrame im tabellarischen Format anzuzeigen.

Syntax:

pyspark_pandas.entfachen()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 9

In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in einen Spark DataFrame umwandeln.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert zu Spark
pyspark_pandas.entfachen().zeigen()

Ausgang:

Wir können sehen, dass der PySpark Pandas DataFrame in einen Spark DataFrame umgewandelt wird.

PYSPARK.Pandas.Datenrahmen.to_string ()

PYSPARK PANDAS DataFrame wird mit der Methode to_string () in eine Zeichenfolge konvertiert. Es wird in einem tabellarischen Format angezeigt.

Syntax:

pyspark_pandas.to_string ()

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel: 10

In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in eine Zeichenfolge konvertieren

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert zum String -Format
print (pyspark_pandas.to_string ())

Ausgang:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Wir sehen.

Abschluss

In diesem Tutorial haben wir die verschiedenen Formate gesehen, die den PySpark Pandas DataFrame umwandeln.

to_html () konvertiert den PySpark Pandas -Datenframe in das HTML -Format. Wenn Sie es in ein Numpy -Array umwandeln möchten, können Sie die Methode to_numpy () auswählen. Wenn Sie es in einen Pandas -Datenfreame umwandeln möchten, können Sie die Methode to_pandas () auswählen.

to_latex () formatiert den pyspark pandas dataframe in latex, to_markdown formates den pyspark pandas dataframe in markdown. Wenn Sie möchten, dass die Spalte ein Schlüssel ist, können Sie TO_DICT () und to_json () bevorzugen.