PYSPARK - Klausel auswählen

PYSPARK - Klausel auswählen
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

Wählen Sie () in PySpark wird verwendet, um die Spalten im DataFrame auszuwählen.

Wir können Spalten auf viele Arten auswählen.

Lassen Sie uns es nacheinander besprechen. Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode -1: Verwenden von Spaltennamen

Hier geben wir Spaltennamen direkt zur Select () -Methode an. Diese Methode gibt die in diesen Spalten vorhandenen Daten zurück. Wir können mehrere Spalten gleichzeitig geben.

Syntax:

Datenrahmen.select ("column_name", .. .)

Beispiel:

In diesem Beispiel werden wir die Spalte Name und Adressspalte aus dem PYSPARK -Datenframe aus auswählen und mit der Methode Collect () anzeigen

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#-Name und Adressspalten
df.Select ("Name", "Adresse").sammeln()

Ausgang:

[Row (name = 'sravan', Adresse = 'Guntur'),
Row (name = 'ojaswi', adress = 'hyd'),
Row (name = 'gnanesh chowdary', address = 'patna'),
Row (name = 'rohith', address = 'hyd'),
Row (name = 'sridevi', adress = 'hyd')]

Methode -2: Verwenden von Spaltennamen mit DataFrame

Hier geben wir Spaltennamen mit DataFrame an die Select () -Methode an. Diese Methode gibt die in diesen Spalten vorhandenen Daten zurück. Wir können mehrere Spalten gleichzeitig geben.

Syntax:

Datenrahmen.SELECT (DataFrame.Spaltenname,… .)

Beispiel:

In diesem Beispiel werden wir die Spalte Name und Adressspalte aus dem PYSPARK -Datenframe aus auswählen und mit der Methode Collect () anzeigen

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#-Name und Adressspalten
df.select (df.Name, df.Adresse).sammeln()

Ausgang:

[Row (name = 'sravan', Adresse = 'Guntur'),
Row (name = 'ojaswi', adress = 'hyd'),
Row (name = 'gnanesh chowdary', address = 'patna'),
Row (name = 'rohith', address = 'hyd'),
Row (name = 'sridevi', adress = 'hyd')]

Methode -3: Verwenden Sie [] Operator

Hier geben wir Spaltennamen im [] Operator mit DataFrame to Select () -Methode an. Diese Methode gibt die in diesen Spalten vorhandenen Daten zurück. Wir können mehrere Spalten gleichzeitig geben.

Syntax:

Datenrahmen.SELECT (DataFrame.Spaltenname,… .)

Beispiel:

In diesem Beispiel werden wir die Spalte Name und Adressspalte aus dem PYSPARK -Datenframe aus auswählen und mit der Methode Collect () anzeigen

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#-Name und Adressspalten
df.select (df ["name"], df ["Adresse"])).sammeln()

Ausgang:

[Row (name = 'sravan', Adresse = 'Guntur'),
Row (name = 'ojaswi', adress = 'hyd'),
Row (name = 'gnanesh chowdary', address = 'patna'),
Row (name = 'rohith', address = 'hyd'),
Row (name = 'sridevi', adress = 'hyd')]

Methode -4: Verwenden der Col -Funktion

Hier geben wir Spaltennamen in der Col -Funktion an, um () Methode auszuwählen. Diese Funktion ist in PYSPARK erhältlich.SQL -Funktionen, die die in diesen Spalten vorhandenen Daten zurückgeben; In der Methode Select () können wir mehrere Spalten gleichzeitig angeben.Syntax:

Datenrahmen.select (col ("column_name"), .. .)

Beispiel:

In diesem Beispiel werden wir die Spalte von Namen und Adressspalte aus dem PYSPARK -Datenrahmen und der Anzeige mit Collect () -Methode auswählen

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Col -Funktion
aus pysspark.sql.Funktionen importieren col
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#-Name und Adressspalten
#Mit Col -Funktion
df.select (col ("name"), col ("Adresse")).sammeln()

Ausgang:

[Row (name = 'sravan', Adresse = 'Guntur'),
Row (name = 'ojaswi', adress = 'hyd'),
Row (name = 'gnanesh chowdary', address = 'patna'),
Row (name = 'rohith', address = 'hyd'),
Row (name = 'sridevi', adress = 'hyd')]

Abschluss

In diesem Artikel haben wir erläutert, wie die Daten aus dem DataFrame ausgewählt werden, und wir haben 4 Möglichkeiten zur Auswahl der Daten mit der Spaltennamen mit der Methode Collect () besprochen.