Standardabweichung im PYSPARK

Standardabweichung im PYSPARK
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Standardabweichung ist eine mathematische Berechnung, um festzustellen, wie ähnliche oder unterschiedliche Zahlen sind. Zum Beispiel werden die Leute sagen, diese Nummer ist x Anzahl der Standardabweichungen von dem Durchschnitt entfernt. Oder insgesamt sind alle Zahlen in einem Satz mit der Anzahl der Standardabweichungen usw. mit der Anzahl der Standardabweichungen usw. Wir werden drei Funktionen für die Standardabweichung in diesem Artikel mit PYSPark demonstrieren. Für jede dieser Funktionen geben wir Beispiele mit wählen() Und Agg () Methoden.
  1. PYSPARK - STDDEV ()
  2. PYSPARK - STDDEV_SAMP ()
  3. PYSPARK - STDDEV_POP ()

PYSPARK - STDDEV ()

stddev () In pySpark wird die Standardabweichung aus einer bestimmten Spalte im DataFrame zurückgegeben.

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit dem an zeigen() Methode.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode -1: Verwenden Sie select () Methode

Wir können die Standardabweichung aus der Spalte im DataFrame mit der Methode Select () erhalten. Mit der STDDEV () -Methode können wir die Standardabweichung aus der Spalte abrufen. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die methode collect () verwenden, um die Standardabweichung von der Spalte zu erhalten

Syntax:

df.select (stddev ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung zu erhalten

Wenn wir die Standardabweichung von mehreren Spalten zurückgeben möchten, müssen wir die Methode STDDEV () in der Methode Select () verwenden, indem wir den von einem Komma getrennten Spaltennamen angeben.

Syntax:

df.select (stddev ('column_name'), stddev ('column_name'),… ., stddev ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV -Funktion
aus pysspark.sql.Funktionen importieren stddev
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.select (STDDEV ('Höhe')).sammeln()

Ausgang:

[Row (stddev_samp (Höhe) = 1.3030732903409539)]

Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel wird die Standardabweichung von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV -Funktion
aus pysspark.sql.Funktionen importieren stddev
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung von der Säule der Größe, des Alters und des Gewichts
df.select (stddev ('Höhe'), stddev ('Alter'), stddev ('Gewicht')).sammeln()

Ausgang:

[Row (stddev_samp (Höhe) = 1.3030732903409539, STDDEV_SAMP (Alter) = 12.157302332343306, stddev_samp (Gewicht) = 20.211382931407737)]

Die Standardabweichung von Größe, Alter und Gewichtsspalten wird im obigen Beispiel zurückgegeben.

Methode - 2: Verwendung der Agg () -Methode

Wir können die Standardabweichung aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., stddev. Durch die Verwendung der STDDEV () -Methode können wir die Standardabweichung von der Spalte abrufen, und schließlich können wir die Methode Collect () verwenden, um die Standardabweichung aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': stddev)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung zu erhalten
  3. STDDEV ist eine Aggregationsfunktion, die zur Rückgabe der Standardabweichung verwendet wird

Wenn wir die Standardabweichung aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Kommas getrennten STDDEV -Funktion angeben.

Syntax:

df.Agg ('column_name': stddev, 'column_name': stddev,…, 'column_name': stddev)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung zu erhalten
  3. STDDEV ist eine Aggregationsfunktion, die zur Rückgabe der Standardabweichung verwendet wird

Beispiel 1: Einzelspalte

In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.Agg ('Höhe': 'stddev').sammeln()

Ausgang:

[Row (stddev (Höhe) = 1.3030732903409539)]

Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel wird die Standardabweichung von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE STANDIG -VALTIERUNG AUS DER SPALT UND WICHTSWEISUNG
df.Agg ('Höhe': 'Stddev', 'Alter': 'stddev', 'Gewicht': 'stddev').sammeln()

Ausgang:

[Row (stddev (Gewicht) = 20.211382931407737, stddev (Alter) = 12.157302332343306, stddev (Höhe) = 1.3030732903409539)]

Die Standardabweichung von Größe, Alter und Gewichtsspalten wird im obigen Beispiel zurückgegeben.

PYSPARK - STDDEV_SAMP ()

Stddev_samp () in pyspark wird verwendet, um die Standardabweichung einer Stichprobe aus einer bestimmten Spalte im Datenrahmen zurückzugeben. Es ähnelt der Funktion stddev ().

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode -1: Verwenden Sie select () Methode

Wir können die Standardabweichung aus der Spalte im DataFrame mit der Methode Select () erhalten. Durch die Verwendung der Methode STDDEV_SAMP () können wir die Standardabweichung von der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die methode collect () verwenden, um die Standardabweichung von der Spalte zu erhalten

Syntax:

df.select (stddev_samp ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung in einem Beispiel zu erhalten

Wenn wir die Standardabweichung aus mehreren Spalten einer Stichprobe zurückgeben möchten, müssen wir die Methode STDDEV_SAMP () in der Methode Select () verwenden, indem wir den durch ein Komma getrennten Spaltennamen angeben.

Syntax:

df.select (stddev_samp ('column_name'), stddev_samp ('column_name'),… ., stddev_samp ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung für das angegebene Beispiel zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel erhalten wir die Standardabweichung einer Stichprobe aus der Höhenspalte im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV_SAMP -Funktion
aus pysspark.sql.Funktionen importieren stddev_samp
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.select (stddev_samp ('Höhe')).sammeln()

Ausgang:

[Row (stddev_samp (Höhe) = 1.3030732903409539)]

Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel erhalten wir die Standardabweichung der Stichprobe von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfrequer.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV_SAMP -Funktion
aus pysspark.sql.Funktionen importieren stddev_samp
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung von der Säule der Größe, des Alters und des Gewichts
df.select (stddev_samp ('Höhe'), stddev_samp ('Alter'), stddev_samp ('Gewicht')).sammeln()

Ausgang:

[Row (stddev_samp (Höhe) = 1.3030732903409539, STDDEV_SAMP (Alter) = 12.157302332343306, stddev_samp (Gewicht) = 20.211382931407737)]

Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.

Methode - 2: Verwendung der Agg () -Methode

Wir können die Standardabweichung einer Stichprobe aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., STDDEV_SAMP. Durch die Verwendung der Methode STDDEV_SAMP () können wir die Standardabweichung von der Spalte abrufen. Schließlich können wir die Methode Collect () verwenden, um die Standardabweichung einer Probe aus der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': stddev_samp)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung eines Beispiels zu erhalten
  3. STDDEV_SAMP ist eine Aggregationsfunktion, mit der die Standardabweichung einer Probe zurückgegeben werden kann

Wenn wir die Standardabweichung aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Komma getrennten STDDEV_SAMP -Funktion angeben.

Syntax:

df.Agg ('column_name': stddev_samp, 'column_name': stddev_samp,…, 'column_name': stddev_samp)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung eines Beispiels zu erhalten
  3. STDDEV_SAMP ist eine Aggregationsfunktion, mit der die Standardabweichung einer Probe zurückgegeben werden kann

Beispiel 1: Einzelspalte

In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.Agg ('Höhe': 'stddev_samp').sammeln()

Ausgang:

[Row (stddev_samp (Höhe) = 1.3030732903409539)]

Im obigen Beispiel wird die Standardabweichung einer Probe aus der Höhensäule zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel erhalten wir die Standardabweichung einer Stichprobe von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfrequer.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE STANDIG -VALTIERUNG AUS DER SPALT UND WICHTSWEISUNG
df.Agg ('Höhe': 'stddev_samp', 'Alter': 'stddev_samp', 'Gewicht': 'stddev_samp').sammeln()

Ausgang:

[Row (STDDEV_SAMP (Gewicht) = 20.211382931407737, STDDEV_SAMP (Alter) = 12.157302332343306, stddev_samp (Höhe) = 1.3030732903409539)]

Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.

PYSPARK - STDDEV_POP ()

stddev_pop () in PySpark wird verwendet, um die Standardabweichung einer Population aus einer bestimmten Spalte im Datenrahmen zurückzugeben.

Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.

Beispiel:

Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()

Ausgang:

Methode -1: Verwenden Sie select () Methode

Wir können die Standardabweichung aus der Spalte im DataFrame mit der Methode Select () erhalten. Durch die Verwendung der Methode STDDEV_POP () können wir die Standardabweichung der Bevölkerung von der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die methode collect () verwenden, um die Standardabweichung von der Spalte zu erhalten

Syntax:

df.select (stddev_pop ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung einer Bevölkerung zu erhalten

Wenn wir die Standardabweichung aus mehreren Spalten für die angegebene Probe zurückgeben möchten, müssen wir die Methode STDDEV_POP () in der Methode Select () verwenden, indem wir den von einem Komma getrennten Spaltennamen angeben.

Syntax:

df.select (stddev_pop ('column_name'), stddev_pop ('column_name'),… ., stddev_pop ('column_name'))

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung für die angegebene Population zu erhalten

Beispiel 1: Einzelspalte

In diesem Beispiel erhalten wir die Standardabweichung einer Population von der Höhenspalte im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Standardabweichung - STDDEV_POP -Funktion
aus pysspark.sql.Funktionen importieren stddev_pop
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.select (stddev_pop ('Höhe'))).sammeln()

Ausgang:

[Row (stddev_pop (Höhe) = 1.1655041827466772)]]]

Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel erhalten wir die Standardabweichung der Bevölkerung von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV_POP -Funktion
aus pysspark.sql.Funktionen importieren stddev_pop
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung von der Säule der Größe, des Alters und des Gewichts
df.select (stddev_pop ('Höhe'), STDDEV_POP ('AGE'), STDDEV_POP ('Gewicht')).sammeln()

Ausgang:

[Row (stddev_pop (Höhe) = 1.1655041827466772, STDDEV_POP (Alter) = 10.87382177525455, STDDEV_POP (Gewicht) = 18.077610461562667)]]

Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.

Methode - 2: Verwendung der Agg () -Methode

Wir können die Standardabweichung der Bevölkerung aus der Spalte im DataFrame unter Verwendung der AGG () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e. STDDEV_POP. Mit der Methode STDDEV_POP () können wir die Standardabweichung von der Spalte abrufen. Schließlich können wir die Collect () -Methode verwenden, um die Standardabweichung einer Bevölkerung von der Spalte zu erhalten.

Syntax:

df.Agg ('column_name': stddev_pop)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung einer Bevölkerung zu erhalten
  3. STDDEV_POP ist eine Aggregationsfunktion

Wenn wir die Standardabweichung aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Komma getrennten STDDEV_POP -Funktion angeben.

Syntax:

df.Agg ('column_name': stddev_pop, 'column_name': stddev_pop,…, 'column_name': stddev_pop)

Wo,

  1. DF ist der Eingabe -PYSPARK -Datenrahmen
  2. Column_Name ist die Spalte, um die Standardabweichung einer Bevölkerung zu erhalten
  3. STDDEV_POP ist eine Aggregationsfunktion

Beispiel 1: Einzelspalte

In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.Agg ('Höhe': 'stddev_pop').sammeln()

Ausgang:

[Row (stddev_pop (Höhe) = 1.1655041827466772)]]]

Im obigen Beispiel wird die Standardabweichung einer Probe aus der Höhensäule zurückgegeben.

Beispiel 2: Mehrere Spalten

In diesem Beispiel erhalten wir die Standardabweichung einer Stichprobe von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfrequer.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE STANDIG -VALTIERUNG AUS DER SPALT UND WICHTSWEISUNG
df.Agg ('Höhe': 'stddev_pop', 'ay': 'stddev_pop', 'Gewicht': 'stddev_pop').sammeln()

Ausgang:

[Row (stddev_pop (Gewicht) = 18.077610461562667, STDDEV_POP (Alter) = 10.87382177525455, stddev_pop (Höhe) = 1.1655041827466772)]]]

Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.

Abschluss

Wir haben diskutiert, wie die Standardabweichung vom PYSpark -Datenfreame mithilfe von stddev (), stddev_samp () Und stddev_pop () Funktionen durch die wählen() Und Agg () Methoden.