In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Es bietet die verschiedenen Methoden, um die Top -Zeilen aus dem PYSPARK -Datenframe zurückzugeben.
Pandas ist ein Modul, das für die Datenanalyse verwendet wird. Es unterstützt drei Datenstrukturen - Serien, Datenframe und Panel. Wir können den PYSPark -Datenframe in Pandas DataFrame konvertieren, sobald wir PYSPark DataFrame haben.
Lassen Sie uns zuerst PYSPARK -Datenfreame erstellen.
Beispiel:
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame
df.zeigen()
Ausgang:
Topandas () ist eine Methode, mit der PYSPark -Datenfreame in Pandas DataFrame umgewandelt werden.
Syntax:
Datenrahmen.Topandas ()
Wo DataFrame der Eingabed DataFrame ist.
Beispiel:
In diesem Beispiel konvertieren wir über den PYSpark -Datenfreame in Pandas DataFrame.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Convert zu Pandas DataFrame
drucken (df.Topandas ())
Ausgang:
Wir können den Datenrahmen über Iterrows () iterieren, indem wir pyspark in Pandas konvertieren.
Iterrows ()
Diese Methode wird verwendet, um die Spalten im angegebenen PYSpark -Datenrahmen durch Konvertieren in Pandas DataFrame zu iterieren. Sie kann mit für die Schleife verwendet werden und nimmt Spaltennamen über den Zeilen -Iterator und den Index zur ITerate -Spalten auf. Schließlich werden die Zeilen gemäß den angegebenen Indizes angezeigt.
Syntax:
Für den Index, Row_iterator in DataFrame.Topandas ().Iterrows ():
print (row_iterator [index_value],…)
Wo:
- DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
- INDEX_VALUE ist die Spaltenindexposition im PYSPARK -Datenrahmen.
- Row_iterator ist die Iteratorvariable, mit der Zeilenwerte in der angegebenen Spalte iteriert werden.
Beispiel 1:
In diesem Beispiel iterieren wir Zeilen aus den Spalten der Adresse und der Höhenspalten aus dem obigen PYSPARK -Datenframe.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Spalten von Adress- und Höhenspalten
Für Index, Row_iterator in df.Topandas ().Iterrows ():
print (row_iterator [0], row_iterator [1])
Ausgang:
Guntur 23
Hyd 16
Patna 7
Hyd 9
Hyd 37
Beispiel 2:
In diesem Beispiel iterieren wir Zeilen aus den Spalten der Adresse und Namen des oben genannten PYSPARK -Datenframe.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Spalten von Adresse und Namensname
Für Index, Row_iterator in df.Topandas ().Iterrows ():
print (row_iterator [0], row_iterator [3])
Ausgang:
Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi
Abschluss
In diesem Tutorial haben wir mithilfe der Topandas () -Methode über die Methode Topandas () konvertiert, dass PYSpark -Datenfreame in Pandas DataFrame konvertiert wurden, und den Pandas -Datenfreame mithilfe der ITerrows () -Methode iteriert haben.