PYSPARK - Pandas DataFrame Form, Achsen, NDIM und DTYPES

PYSPARK - Pandas DataFrame Form, Achsen, NDIM und DTYPES
„In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark unter Verwendung von DataFrame bereitgestellt wird, mit dem die angegebenen Daten im Zeilen- und Spaltenformat gespeichert werden können.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

PIP Installieren Sie PYSPARK

Syntax zum Import

aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von PANDAS -Datenframe

PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir einen Pandas -Datenframe über PYSPARK mit vier Spalten und fünf Zeilen.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Anzeige
print (pyspark_pandas)

Ausgang

Jetzt werden wir in unser Tutorial gehen.

Lassen Sie uns sie einzeln sehen.

PYSPARK - PANDAS DATAFRAME: SAPPE ()

PYSPARK.Pandas.Datenrahmen.Form()

Shape () In PySpark Pandas DataFrame wird die Anzahl der Zeilen und die Anzahl der Spalten in einem Tupel zurückgegeben.

Der erste Wert im Tupel repräsentiert die Anzahl der Zeilen, und der zweite Wert repräsentiert die Anzahl der Spalten.

Syntax

pyspark_pandas.Form

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Wenn Sie nur die Gesamtzahl der Zeilen oder Spalten zurückgeben möchten, können Sie diese mit der Indexposition erhalten.

Syntax
Rückgabe der Gesamtzahl der Zeilen

pyspark_pandas.Form [0]

Rückgabe der Gesamtzahl der Spalte

pyspark_pandas.Form [1]

Beispiel
In diesem Beispiel werden wir sehen, wie viele Zeilen und Spalten, die im obigen pyspark pandas DataFrame vorhanden sind.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Die Form
print ("Gesamtzeilen und Spalten:", pyspark_pandas.Form)
#GET nur die Gesamtzahl der Zeilen
print ("Total Zeilen:", pyspark_pandas.Form [0])
#GET Nur die Gesamtzahl der Spalten
print ("Gesamtspalten:", pyspark_pandas.Form [1])

Ausgang

Gesamtreihen und Spalten: (5, 4)
Gesamtreihen: 5
Gesamtspalten: 4

Wir können sehen, dass die Gesamtzeilen und Spalten zurückgegeben wurden.

PYSPARK - PANDAS DATAFRAME: AXES ()

PYSPARK.Pandas.Datenrahmen.Achsen ()

Achsen () im PYSPARK Pandas DataFrame wird verwendet, um die Zeile- und Spaltennamen in einer Liste zurückzugeben.

Der erste Wert in der Liste repräsentiert die Zeilennamen, und der zweite Wert repräsentiert die Spaltennamen.

Syntax

pyspark_pandas.Äxte

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Wenn Sie nur die Zeilen oder Spalten zurückgeben möchten, können Sie diese mit der Indexposition erhalten.

Syntax

Zeilennamen zurückgeben

pyspark_pandas.Achsen [0]

Spaltennamen zurückgeben

pyspark_pandas.Achsen [1]

Beispiel
In diesem Beispiel werden wir die Zeilen und Spalten sehen, die im obigen Pyspark Pandas DataFrame vorhanden sind.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Alle Äxte machen
print (pyspark_pandas.Achsen)
#Get die Zeilenachsen
print ("Zeilennamen:", pyspark_pandas.Achsen [0])
#Get die Spaltenachsen
print ("Spaltennamen:", pyspark_pandas.Achsen [1])

Ausgang

[Int64Index ([0, 1, 2, 3, 4], dType = "int64"), index (['student_lastname', 'mark1', 'mark2', 'mark3'], dType = "object")]]
Zeilennamen: int64Index ([0, 1, 2, 3, 4], dType = "int64")
Spaltennamen: Index (['student_lastName', 'mark1', 'mark2', 'mark3'], dType = "Objekt")

Wir können sehen, dass Zeile und Spaltennamen zurückgegeben wurden.

PYSPARK - PANDAS DATAFRAME: NDIM ()

PYSPARK.Pandas.Datenrahmen.ndim ()

NDIM () im PYSPARK Pandas DataFrame wird verwendet, um die Gesamtdimensionen zurückzugeben. Hier enthält der PYSpark Pandas DataFrame zwei Dimensionen - Zeile und Spalte. Also wird es 2 zurückkehren.

Syntax

pyspark_pandas.ndim

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel
In diesem Beispiel erhalten wir die Gesamtdimensionen aus dem PYSPARK Pandas DataFrame.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Die Dimensionen
print (pyspark_pandas.ndim)

Ausgang

2

PYSPARK - PANDAS DATAFRAME: DTYPES ()

PYSPARK.Pandas.Datenrahmen.Dtypes ()

DTYPES () In PySpark Pandas DataFrame wird verwendet, um die Datentypen für alle Spalten zurückzugeben

Syntax

pyspark_pandas.Dtypes

Wobei pyspark_pandas der pyspark pandas DataFrame ist.

Beispiel
In diesem Beispiel erhalten wir die Datentypen aus dem PySpark Pandas DataFrame.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Die Datentypen aller Spalten
print (pyspark_pandas.DTYPES)

Ausgang

student_lastname -Objekt
Mark1 INT64
Mark2 INT64
Mark3 INT64
DTYPE: Objekt

Es ist auch möglich, den Datentyp aus einer einzigen Spalte zu erhalten.

Syntax

Pyspark_pandas.Spalte.Dtypes

Wobei die Spalte der Spaltenname ist

Beispiel
In diesem Beispiel erhalten wir die Datentypen von Student_LastName und Mark1 -Spalte.

#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Die Datentyp der Spalte student_lastname
print (pyspark_pandas.Student_LastName.DTYPES)
#Die Datentyp der Mark1 -Spalte
print (pyspark_pandas.Mark1.DTYPES)

Ausgang

Objekt
INT64

Abschluss

In diesem PYSPARK Pandas DataFrame -Tutorial haben wir verschiedene Methoden gesehen, um die DataFrame -Informationen zu erhalten.

  1. Form wird verwendet, um die Größe des PySpark Pandas DataFrame zurückzugeben.
  2. Achsen werden verwendet, um die Zeile- und Spaltennamen zurückzugeben.
  3. NDIM gibt eine Gesamtzahl von Dimensionen im PYSPARK Pandas DataFrame zurück.
  4. DTYPES gibt alle Spaltendatentypen zurück.