Konvertieren Sie den PYSPark -Datenframe

Konvertieren Sie den PYSPark -Datenframe

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Es bietet die verschiedenen Methoden, um die Top -Zeilen aus dem PYSPARK -Datenframe zurückzugeben.

Pandas ist ein Modul, das für die Datenanalyse verwendet wird. Es unterstützt drei Datenstrukturen - Serien, Datenframe und Panel. Wir können den PYSPark -Datenframe in Pandas DataFrame konvertieren, sobald wir PYSPark DataFrame haben.

Lassen Sie uns zuerst PYSPARK -Datenfreame erstellen.

Beispiel:

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame
df.zeigen()

Ausgang:

Topandas () ist eine Methode, mit der PYSPark -Datenfreame in Pandas DataFrame umgewandelt werden.

Syntax:

Datenrahmen.Topandas ()

Wo DataFrame der Eingabed DataFrame ist.

Beispiel:

In diesem Beispiel konvertieren wir über den PYSpark -Datenfreame in Pandas DataFrame.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Convert zu Pandas DataFrame
drucken (df.Topandas ())

Ausgang:

Wir können den Datenrahmen über Iterrows () iterieren, indem wir pyspark in Pandas konvertieren.

Iterrows ()

Diese Methode wird verwendet, um die Spalten im angegebenen PYSpark -Datenrahmen durch Konvertieren in Pandas DataFrame zu iterieren. Sie kann mit für die Schleife verwendet werden und nimmt Spaltennamen über den Zeilen -Iterator und den Index zur ITerate -Spalten auf. Schließlich werden die Zeilen gemäß den angegebenen Indizes angezeigt.

Syntax:

Für den Index, Row_iterator in DataFrame.Topandas ().Iterrows ():
print (row_iterator [index_value],…)

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. INDEX_VALUE ist die Spaltenindexposition im PYSPARK -Datenrahmen.
  3. Row_iterator ist die Iteratorvariable, mit der Zeilenwerte in der angegebenen Spalte iteriert werden.

Beispiel 1:

In diesem Beispiel iterieren wir Zeilen aus den Spalten der Adresse und der Höhenspalten aus dem obigen PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Spalten von Adress- und Höhenspalten
Für Index, Row_iterator in df.Topandas ().Iterrows ():
print (row_iterator [0], row_iterator [1])

Ausgang:

Guntur 23
Hyd 16
Patna 7
Hyd 9
Hyd 37

Beispiel 2:

In diesem Beispiel iterieren wir Zeilen aus den Spalten der Adresse und Namen des oben genannten PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Spalten von Adresse und Namensname
Für Index, Row_iterator in df.Topandas ().Iterrows ():
print (row_iterator [0], row_iterator [3])

Ausgang:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Abschluss

In diesem Tutorial haben wir mithilfe der Topandas () -Methode über die Methode Topandas () konvertiert, dass PYSpark -Datenfreame in Pandas DataFrame konvertiert wurden, und den Pandas -Datenfreame mithilfe der ITerrows () -Methode iteriert haben.