Pysspark - Graf

Pysspark - Graf
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. count () im pyspark wird verwendet, um die Anzahl der Zeilen aus einer bestimmten Spalte im Datenrahmen zurückzugeben. Wir können die Zählung auf drei Arten bekommen.
  1. Methode 1: Verwenden Sie select () Methode
  2. Methode 2: Verwendung von Agg () Methode
  3. Methode 3: Verwendung von GroupBy () Methode

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode -1: Verwenden Sie select () Methode

Mit der Methode Select () können wir die Anzahl aus der Spalte im DataFrame erhalten. Mit der Methode count () können wir die Gesamtzahl der Zeilen aus der Spalte abrufen. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die Collect () -Methode verwenden, um die Anzahl aus der Spalte zu erhalten

Syntax:

df.select (count ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Gesamtzahl der Zeilen abzurufen (Graf).

Wenn wir die Anzahl aus mehreren Spalten zurückgeben möchten, müssen wir die Methode count () in der Methode Select () verwenden, indem wir den von einem Kommas getrennten Spaltennamen angeben.

Syntax:

df.select (count ('column_name'), count ('column_name'),… ., count ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Gesamtzahl der Zeilen abzurufen (Graf).

Beispiel 1: Einzelspalte

In diesem Beispiel wird die Anzahl der Höhenspalte im PYSPARK -Datenframe angezeigt.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Zählfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Regeln Sie die Anzahl der Werte/Zeilen aus der Höhenspalte
#Verwendung
df.select (count ('Höhe')).sammeln()

Ausgang:

[Zeile (Graf (Höhe) = 5)]

Im obigen Beispiel wird die Anzahl der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel wird die Anzahl der Spalten von Größe, Alter und Gewicht im PYSPARK -Datenframe angezeigt.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Zählfunktion
aus pysspark.sql.Funktionen importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE ZICHT VON DIE SCHUTZ-, ALTEN- UND WOCHSCHALTEN
df.select (count ('Höhe'), count ('Alter'), count ('Gewicht')).sammeln()

Ausgang:

[Zeile (Graf (Höhe) = 5, Graf (Alter) = 5, Graf (Gewicht) = 5)]

Im obigen Beispiel wird die Anzahl der Säulen der Größe, des Alters und des Gewichts zurückgegeben.

Methode - 2: Verwendung der Agg () -Methode

Wir können die Anzahl der Spalte im DataFrame mit der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., zählen. Mit der Methode count () können wir die Anzahl der Zeilen aus der Spalte abrufen, und schließlich können wir die Collect () -Methode verwenden, um die Anzahl aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': count)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Gesamtzahl der Zeilen abzurufen (Graf).
  3. Die Anzahl ist eine Aggregationsfunktion, mit der die Anzahl der Zeilen zurückgegeben wird

Wenn wir die Anzahl aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Kommas getrennten Zählfunktion angeben.

Syntax:

df.Agg ('column_name': count, 'column_name': count,…, 'column_name': count)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Gesamtzahl der Zeilen abzurufen (Graf).
  3. Die Anzahl ist eine Aggregationsfunktion, mit der die Gesamtzahl der Zeilen zurückgegeben wird

Beispiel 1: Einzelspalte

In diesem Beispiel wird die Anzahl der Höhenspalte im PYSPARK -Datenframe angezeigt.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Anzahl der Zeilen Die Höhe der Höhenspalte
df.Agg ('Höhe': 'Count').sammeln()

Ausgang:

[Zeile (Graf (Höhe) = 5)]

Im obigen Beispiel wird die Anzahl der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel wird die Anzahl der Spalten von Größe, Alter und Gewicht im PYSPARK -Datenframe angezeigt.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Regeln Sie die Anzahl der Zeilen aus den Spalten Größe, Alter und Gewicht
df.Agg ('Höhe': 'Count', 'Age': 'Count', 'Gewicht': 'Count').sammeln()

Ausgang:

[Zeile (Graf (Gewicht) = 5, Graf (Alter) = 5, Graf (Höhe) = 5)]

Im obigen Beispiel wird die Anzahl der Säulen der Größe, des Alters und des Gewichts zurückgegeben.

Methode - 3: Verwendung von GroupBy () Methode

Wir können die Anzahl aus der Spalte im DataFrame mit der Gruppe GroupBy () erhalten. Diese Methode gibt die Gesamtzahl der Zeilen zurück, indem ähnliche Werte in einer Spalte gruppiert werden. Wir müssen die Funktion count () nach der Ausführung von GroupBy () -Funktion verwenden

Syntax:

df.GroupBy (Group_Column). zählen()

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Group_Column ist die Spalte, in der Werte basierend auf dieser Spalte gruppiert werden
  3. Die Anzahl ist eine aggregierte Funktion, mit der die Gesamtzahl der Zeilen basierend auf gruppierten Zeilen zurückgegeben wird

Beispiel :

In diesem Beispiel werden wir die Adressspalte gruppieren und die Anzahl erhalten

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Anzahl der Zeilen durch Gruppierung der Adressspalte
df.GroupBy ('Adresse').zählen().sammeln()

Ausgang:

Es gibt drei eindeutige Werte im Adressfeld - Hyd, Guntur und Patna. Die Anzahl wird also gebildet, indem die Werte über die Adresswerte hinweg gruppiert werden.

[Zeile (Adresse = 'Hyd', count = 3),
Row (Adresse = 'Guntur', count = 1),
Row (Adresse = 'patna', count = 1)]

Abschluss:

Wir haben diskutiert, wie die Anzahl der PySpark -Datenfream mit den Methoden Select () und Agg () erhalten kann. Um die Gesamtzahl der Zeilen durch Gruppieren mit anderen Spalten zu erhalten, haben wir den Groupby zusammen mit der Funktion count () verwendet.