Iterieren Sie über Zeilen und Spalten im PYSpark -Datenframe

Iterieren Sie über Zeilen und Spalten im PYSpark -Datenframe

In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

Wir können den PYSPark -Datenframe durch Zeilen und Spalten durchqueren, indem wir:

  1. sammeln()
  2. wählen()
  3. Iterrows ()

Bevor wir zu diesen wechseln, werden wir PYSPARK -Datenframe erstellen.

Beispiel:

Hier erstellen wir PySpark -Datenfreame mit 5 Zeilen und 6 Spalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display den DataFrame
df.zeigen()

Ausgang:

sammeln()

Diese Methode wird verwendet, um die Spalten im angegebenen PYSPARK -Datenrahmen zu iterieren. Es kann mit für Schleife verwendet werden und nimmt Spaltennamen durch den Iterator, um Spalten zu iterieren. Schließlich werden die Zeilen gemäß den angegebenen Spalten angezeigt.

Syntax:

Für Row_iterator im DataFrame.sammeln():
print (row_iterator ['spalte'],… .)

Wo,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Die Spalte ist der Spaltenname im PySpark -Datenfreame.
  3. Row_iterator ist die Iteratorvariable, mit der Zeilenwerte in der angegebenen Spalte iteriert werden.

Beispiel 1:

In diesem Beispiel iterieren wir Zeilen aus den Spalten Rollno-, Höhe und Adressspalten aus dem obigen PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Überrollen-, Höhe- und Adressspalten iterieren
für Row_iterator in df.sammeln():
print (row_iterator ['rollno'], row_iterator ['hohe'], row_iterator ['Adresse']))

Ausgang:

001 5.79 Guntur
002 3.79 Hyd
003 2.79 Patna
004 3.69 Hyd
005 5.59 Hyd

Beispiel 2:

In diesem Beispiel iterieren wir Zeilen aus der Namensspalte aus dem obigen PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Übername Spalte iterieren
für Row_iterator in df.sammeln():
print (row_iterator ['name'])

Ausgang:

Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi

wählen()

Diese Methode wird verwendet, um die Spalten im angegebenen PYSPARK -Datenrahmen zu iterieren. Es kann mit Collect () -Methode verwendet werden und nimmt Säule ein. Schließlich werden die Zeilen gemäß den angegebenen Spalten angezeigt.

Syntax:

Datenrahmen.Select ("Spalte", ...).sammeln()

Wo,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. Die Spalte ist der Spaltenname im PySpark -Datenfreame.

Beispiel 1:

In diesem Beispiel iterieren wir Zeilen aus der Spalte Rollno und Name aus dem obigen PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#-Rollno- und Namensspalten
df.select ("rollno", "name").sammeln()

Ausgang:

[Row (rollno = '001', name = 'sravan'),
Row (rollno = '002', name = 'ojaswi'),
Row (rollno = '003', name = 'gnanesh chowdary'),
Row (rollno = '004', name = 'rohith'),
Row (rollno = '005', name = 'sridevi')]]

Beispiel 2:

In diesem Beispiel iterieren wir Zeilen aus der Rollno- und Gewichtsspalte aus dem obigen PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Rollno- und Gewichtsspalten
df.Select ("Rollno", "Gewicht").sammeln()

Ausgang:

[Zeile (Rollno = '001', Gewicht = 67),
Reihe (Rollno = '002', Gewicht = 34),
Reihe (Rollno = '003', Gewicht = 17),
Reihe (Rollno = '004', Gewicht = 28),
Row (Rollno = '005', Gewicht = 54)]

Iterrows ()

Diese Methode wird verwendet, um die Spalten im angegebenen PYSPARK -Datenrahmen zu iterieren. Es kann mit für Schleife verwendet werden und nimmt Spaltennamen über den Zeilen -Iterator und den Index, um Spalten zu iterieren. Schließlich werden die Zeilen gemäß den angegebenen Indizes angezeigt. Vorher müssen wir mithilfe der Topandas () -Methode in Pandas konvertieren.

Syntax:

Für den Index, Row_iterator in DataFrame.Topandas ().Iterrows ():
print (row_iterator [index_value],…)

Wo,

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen.
  2. INDEX_VALUE ist die Spaltenindexposition im PYSPARK -Datenrahmen.
  3. Row_iterator ist die Iteratorvariable, mit der Zeilenwerte in der angegebenen Spalte iteriert werden.

Beispiel 1:

In diesem Beispiel iterieren wir Zeilen aus den Spalten der Adresse und der Höhenspalten aus dem obigen PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Spalten von Adress- und Höhenspalten
Für Index, Row_iterator in df.Topandas ().Iterrows ():
print (row_iterator [0], row_iterator [1])

Ausgang:

Guntur 23
Hyd 16
Patna 7
Hyd 9
Hyd 37

Beispiel 2:

In diesem Beispiel iterieren wir Zeilen aus den Spalten der Adresse und Namen des oben genannten PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Spalten von Adresse und Namensname
Für Index, Row_iterator in df.Topandas ().Iterrows ():
print (row_iterator [0], row_iterator [3])

Ausgang:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Abschluss

In diesem Tutorial haben wir darüber diskutiert, wie man über Zeilen und Spalten im PYSPARK -Datenframe iteriert wird. Wir haben drei Methoden besprochen - select (), sammeln () und iterrows () mit für die Schleife. Durch die Verwendung dieser Methoden können wir also die Spalten angeben, die über Zeilen -Iterator iteriert werden sollen.