PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas werden aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import:
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von Pandas -Datenframe:
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir mit drei Spalten und fünf Zeilen einen Pandas -Datenframe über PYSPARK.
#import pandas aus dem pysparkmodulAusgang:
Jetzt werden wir in unser Tutorial gehen.
Wir werden verschiedene Formate sehen, in denen das oben erstellte PySpark Pandas DataFrame konvertiert wird.
PYSPARK.Pandas.Datenrahmen.to_html ()
PYSPARK PANDAS DataFrame wird in das HTML -Format konvertiert, sodass Spaltennamen unter platziert sind
Syntax:
pyspark_pandas.to_html ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel 1
In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in das HTML -Format konvertieren.
#import pandas aus dem pysparkmodulAusgang:
Sie können sehen, dass Spaltennamen im Inneren platziert sind
PYSPARK.Pandas.Datenrahmen.to_json ()
PySpark Pandas DataFrame wird in das JSON -Format konvertiert, sodass Spaltennamen als Schlüssel und Spaltenwerte Werte dienen.
Syntax:
pyspark_pandas.to_json ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 2
In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in das JSON -Format konvertieren.
#import pandas aus dem pysparkmodulAusgang:
["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2) ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]Sie können sehen, dass Spaltennamen Schlüssel sind.
PYSPARK.Pandas.Datenrahmen.to_numpy ()
PYSPARK PANDAS DataFrame wird unter Verwendung der Methode to_numpy () in das Array -Format konvertiert.
Syntax:
pyspark_pandas.to_numpy ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 3
In diesem Beispiel werden wir den oben genannten pyspark Pandas -Datenframe in das Array -Format konvertieren.
#import pandas aus dem pysparkmodulAusgang:
[[90 100 91]Sie können sehen, dass Werte in Form eines 2-D-Arrays mit fünf Zeilen und drei Spalten gespeichert sind.
PYSPARK.Pandas.Datenrahmen.to_pandas ()
PYSPARK PANDAS DataFrame wird mit der Methode to_pandas () in Pandas DataFrame konvertiert.
Syntax:
pyspark_pandas.to_pandas ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 4
In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in einen Pandas -Datenfreame umwandeln.
#import pandas aus dem pysparkmodulAusgang:
Mark1 Mark2 Mark3Sie können sehen, dass die Werte in Form eines Pandas -Datenframe mit fünf Zeilen und drei Spalten gespeichert werden.
PYSPARK PANDAS DataFrame wird mit der Methode to_markdown () in Markdown konvertiert.
Syntax:
pyspark_pandas.to_markdown ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 5
In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in Markdown -Format konvertieren.
#import pandas aus dem pysparkmodulAusgang:
Sie können sehen, dass der PySpark Pandas DataFrame in das Markdown -Format konvertiert wird.
PYSPARK PANDAS DataFrame wird mit der Methode to_dict () in ein Wörterbuch konvertiert.Spaltennamen sind Schlüssel.
Syntax:
pyspark_pandas.to_dict ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 6
In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in ein Wörterbuch mit der Methode to_dict () konvertieren.
#import pandas aus dem pysparkmodulAusgang:
'mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87Sie können sehen, dass der PySpark Pandas DataFrame in ein Wörterbuch mit Schlüssel als Spaltennamen konvertiert wird.
PYSPARK.Pandas.Datenrahmen.to_records ()
PYSPARK PANDAS DataFrame wird mit der Methode to_Records () in einen Datensatz konvertiert. Hier wird für jede Zeile des Datensatzes eine ID platziert, die von 1 beginnt.
Syntax:
pyspark_pandas.to_records ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 7
In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame mit der Methode to_records () in einen Datensatz konvertieren.
#import pandas aus dem pysparkmodulAusgang:
[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)PYSPARK.Pandas.Datenrahmen.to_latex ()
PYSPARK PANDAS DataFrame wird mit der to_latex () -Methode in einen Datensatz konvertiert.
Syntax:
pyspark_pandas.to_latex ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 8
In diesem Beispiel werden wir den oben genannten pyspark pandas DataFrame in Latex -Format konvertieren.
#import pandas aus dem pysparkmodulAusgang:
Wir können sehen, dass der PySpark Pandas DataFrame in Latex -Format konvertiert wird.
PYSPARK.Pandas.Datenrahmen.entfachen()
PYSPARK PANDAS DataFrame wird mit der Methode to_spark () in einen Spark DataFrame konvertiert. Es wird die Methode show () verwendet, um den DataFrame im tabellarischen Format anzuzeigen.
Syntax:
pyspark_pandas.entfachen()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 9
In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in einen Spark DataFrame umwandeln.
#import pandas aus dem pysparkmodulAusgang:
Wir können sehen, dass der PySpark Pandas DataFrame in einen Spark DataFrame umgewandelt wird.
PYSPARK.Pandas.Datenrahmen.to_string ()
PYSPARK PANDAS DataFrame wird mit der Methode to_string () in eine Zeichenfolge konvertiert. Es wird in einem tabellarischen Format angezeigt.
Syntax:
pyspark_pandas.to_string ()Wobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel: 10
In diesem Beispiel werden wir den oben genannten PySpark Pandas DataFrame in eine Zeichenfolge konvertieren
#import pandas aus dem pysparkmodulAusgang:
Mark1 Mark2 Mark3Wir sehen.
Abschluss
In diesem Tutorial haben wir die verschiedenen Formate gesehen, die den PySpark Pandas DataFrame umwandeln.
to_html () konvertiert den PySpark Pandas -Datenframe in das HTML -Format. Wenn Sie es in ein Numpy -Array umwandeln möchten, können Sie die Methode to_numpy () auswählen. Wenn Sie es in einen Pandas -Datenfreame umwandeln möchten, können Sie die Methode to_pandas () auswählen.
to_latex () formatiert den pyspark pandas dataframe in latex, to_markdown formates den pyspark pandas dataframe in markdown. Wenn Sie möchten, dass die Spalte ein Schlüssel ist, können Sie TO_DICT () und to_json () bevorzugen.