PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
PIP Installieren Sie PYSPARKSyntax zum Import
aus pyspark import PandasDanach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von PANDAS -Datenframe
PYSPARK.Pandas.DataFrame ()Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.
#import pandas aus dem pysparkmodulAusgang
Jetzt werden wir in unser Tutorial gehen.
Lassen Sie uns sie einzeln sehen.
PYSPARK - PANDAS DATAFRAME: SAPPE ()
PYSPARK.Pandas.Datenrahmen.Form()Shape () In PySpark Pandas DataFrame wird die Anzahl der Zeilen und die Anzahl der Spalten in einem Tupel zurückgegeben.
Der erste Wert im Tupel repräsentiert die Anzahl der Zeilen, und der zweite Wert repräsentiert die Anzahl der Spalten.
Syntax
pyspark_pandas.FormWobei pyspark_pandas der pyspark pandas DataFrame ist.
Wenn Sie nur die Gesamtzahl der Zeilen oder Spalten zurückgeben möchten, können Sie diese mit der Indexposition erhalten.
Syntax
Rückgabe der Gesamtzahl der Zeilen
Rückgabe der Gesamtzahl der Spalte
pyspark_pandas.Form [1]Beispiel
In diesem Beispiel werden wir sehen, wie viele Zeilen und Spalten, die im obigen pyspark pandas DataFrame vorhanden sind.
Ausgang
Gesamtreihen und Spalten: (5, 4)Wir können sehen, dass die Gesamtzeilen und Spalten zurückgegeben wurden.
PYSPARK - PANDAS DATAFRAME: AXES ()
PYSPARK.Pandas.Datenrahmen.Achsen ()Achsen () im PYSPARK Pandas DataFrame wird verwendet, um die Zeile- und Spaltennamen in einer Liste zurückzugeben.
Der erste Wert in der Liste repräsentiert die Zeilennamen, und der zweite Wert repräsentiert die Spaltennamen.
Syntax
pyspark_pandas.ÄxteWobei pyspark_pandas der pyspark pandas DataFrame ist.
Wenn Sie nur die Zeilen oder Spalten zurückgeben möchten, können Sie diese mit der Indexposition erhalten.
Syntax
Zeilennamen zurückgeben
pyspark_pandas.Achsen [0]Spaltennamen zurückgeben
pyspark_pandas.Achsen [1]Beispiel
In diesem Beispiel werden wir die Zeilen und Spalten sehen, die im obigen Pyspark Pandas DataFrame vorhanden sind.
Ausgang
[Int64Index ([0, 1, 2, 3, 4], dType = "int64"), index (['student_lastname', 'mark1', 'mark2', 'mark3'], dType = "object")]]Wir können sehen, dass Zeile und Spaltennamen zurückgegeben wurden.
PYSPARK - PANDAS DATAFRAME: NDIM ()
PYSPARK.Pandas.Datenrahmen.ndim ()
NDIM () im PYSPARK Pandas DataFrame wird verwendet, um die Gesamtdimensionen zurückzugeben. Hier enthält der PYSpark Pandas DataFrame zwei Dimensionen - Zeile und Spalte. Also wird es 2 zurückkehren.
Syntax
pyspark_pandas.ndimWobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel
In diesem Beispiel erhalten wir die Gesamtdimensionen aus dem PYSPARK Pandas DataFrame.
Ausgang
2PYSPARK - PANDAS DATAFRAME: DTYPES ()
PYSPARK.Pandas.Datenrahmen.Dtypes ()
DTYPES () In PySpark Pandas DataFrame wird verwendet, um die Datentypen für alle Spalten zurückzugeben
Syntax
pyspark_pandas.DtypesWobei pyspark_pandas der pyspark pandas DataFrame ist.
Beispiel
In diesem Beispiel erhalten wir die Datentypen aus dem PySpark Pandas DataFrame.
Ausgang
student_lastname -ObjektEs ist auch möglich, den Datentyp aus einer einzigen Spalte zu erhalten.
Syntax
Pyspark_pandas.Spalte.DtypesWobei die Spalte der Spaltenname ist
Beispiel
In diesem Beispiel erhalten wir die Datentypen von Student_LastName und Mark1 -Spalte.
Ausgang
ObjektAbschluss
In diesem PYSPARK Pandas DataFrame -Tutorial haben wir verschiedene Methoden gesehen, um die DataFrame -Informationen zu erhalten.