In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Standardabweichung ist eine mathematische Berechnung, um festzustellen, wie ähnliche oder unterschiedliche Zahlen sind. Zum Beispiel werden die Leute sagen, diese Nummer ist x Anzahl der Standardabweichungen von dem Durchschnitt entfernt. Oder insgesamt sind alle Zahlen in einem Satz mit der Anzahl der Standardabweichungen usw. mit der Anzahl der Standardabweichungen usw. Wir werden drei Funktionen für die Standardabweichung in diesem Artikel mit PYSPark demonstrieren. Für jede dieser Funktionen geben wir Beispiele mit
wählen() Und
Agg () Methoden.
- PYSPARK - STDDEV ()
- PYSPARK - STDDEV_SAMP ()
- PYSPARK - STDDEV_POP ()
PYSPARK - STDDEV ()
stddev () In pySpark wird die Standardabweichung aus einer bestimmten Spalte im DataFrame zurückgegeben.
Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.
Beispiel:
Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit dem an zeigen() Methode.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()
Ausgang:
Methode -1: Verwenden Sie select () Methode
Wir können die Standardabweichung aus der Spalte im DataFrame mit der Methode Select () erhalten. Mit der STDDEV () -Methode können wir die Standardabweichung aus der Spalte abrufen. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die methode collect () verwenden, um die Standardabweichung von der Spalte zu erhalten
Syntax:
df.select (stddev ('column_name'))
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung zu erhalten
Wenn wir die Standardabweichung von mehreren Spalten zurückgeben möchten, müssen wir die Methode STDDEV () in der Methode Select () verwenden, indem wir den von einem Komma getrennten Spaltennamen angeben.
Syntax:
df.select (stddev ('column_name'), stddev ('column_name'),… ., stddev ('column_name'))
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung zu erhalten
Beispiel 1: Einzelspalte
In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV -Funktion
aus pysspark.sql.Funktionen importieren stddev
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.select (STDDEV ('Höhe')).sammeln()
Ausgang:
[Row (stddev_samp (Höhe) = 1.3030732903409539)]
Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.
Beispiel 2: Mehrere Spalten
In diesem Beispiel wird die Standardabweichung von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV -Funktion
aus pysspark.sql.Funktionen importieren stddev
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung von der Säule der Größe, des Alters und des Gewichts
df.select (stddev ('Höhe'), stddev ('Alter'), stddev ('Gewicht')).sammeln()
Ausgang:
[Row (stddev_samp (Höhe) = 1.3030732903409539, STDDEV_SAMP (Alter) = 12.157302332343306, stddev_samp (Gewicht) = 20.211382931407737)]
Die Standardabweichung von Größe, Alter und Gewichtsspalten wird im obigen Beispiel zurückgegeben.
Methode - 2: Verwendung der Agg () -Methode
Wir können die Standardabweichung aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., stddev. Durch die Verwendung der STDDEV () -Methode können wir die Standardabweichung von der Spalte abrufen, und schließlich können wir die Methode Collect () verwenden, um die Standardabweichung aus der Spalte zu erhalten.
Syntax:
df.Agg ('column_name': stddev)
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung zu erhalten
- STDDEV ist eine Aggregationsfunktion, die zur Rückgabe der Standardabweichung verwendet wird
Wenn wir die Standardabweichung aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Kommas getrennten STDDEV -Funktion angeben.
Syntax:
df.Agg ('column_name': stddev, 'column_name': stddev,…, 'column_name': stddev)
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung zu erhalten
- STDDEV ist eine Aggregationsfunktion, die zur Rückgabe der Standardabweichung verwendet wird
Beispiel 1: Einzelspalte
In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.Agg ('Höhe': 'stddev').sammeln()
Ausgang:
[Row (stddev (Höhe) = 1.3030732903409539)]
Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.
Beispiel 2: Mehrere Spalten
In diesem Beispiel wird die Standardabweichung von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE STANDIG -VALTIERUNG AUS DER SPALT UND WICHTSWEISUNG
df.Agg ('Höhe': 'Stddev', 'Alter': 'stddev', 'Gewicht': 'stddev').sammeln()
Ausgang:
[Row (stddev (Gewicht) = 20.211382931407737, stddev (Alter) = 12.157302332343306, stddev (Höhe) = 1.3030732903409539)]
Die Standardabweichung von Größe, Alter und Gewichtsspalten wird im obigen Beispiel zurückgegeben.
PYSPARK - STDDEV_SAMP ()
Stddev_samp () in pyspark wird verwendet, um die Standardabweichung einer Stichprobe aus einer bestimmten Spalte im Datenrahmen zurückzugeben. Es ähnelt der Funktion stddev ().
Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.
Beispiel:
Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()
Ausgang:
Methode -1: Verwenden Sie select () Methode
Wir können die Standardabweichung aus der Spalte im DataFrame mit der Methode Select () erhalten. Durch die Verwendung der Methode STDDEV_SAMP () können wir die Standardabweichung von der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die methode collect () verwenden, um die Standardabweichung von der Spalte zu erhalten
Syntax:
df.select (stddev_samp ('column_name'))
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung in einem Beispiel zu erhalten
Wenn wir die Standardabweichung aus mehreren Spalten einer Stichprobe zurückgeben möchten, müssen wir die Methode STDDEV_SAMP () in der Methode Select () verwenden, indem wir den durch ein Komma getrennten Spaltennamen angeben.
Syntax:
df.select (stddev_samp ('column_name'), stddev_samp ('column_name'),… ., stddev_samp ('column_name'))
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung für das angegebene Beispiel zu erhalten
Beispiel 1: Einzelspalte
In diesem Beispiel erhalten wir die Standardabweichung einer Stichprobe aus der Höhenspalte im PYSPARK -Datenframe.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV_SAMP -Funktion
aus pysspark.sql.Funktionen importieren stddev_samp
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.select (stddev_samp ('Höhe')).sammeln()
Ausgang:
[Row (stddev_samp (Höhe) = 1.3030732903409539)]
Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.
Beispiel 2: Mehrere Spalten
In diesem Beispiel erhalten wir die Standardabweichung der Stichprobe von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfrequer.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV_SAMP -Funktion
aus pysspark.sql.Funktionen importieren stddev_samp
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung von der Säule der Größe, des Alters und des Gewichts
df.select (stddev_samp ('Höhe'), stddev_samp ('Alter'), stddev_samp ('Gewicht')).sammeln()
Ausgang:
[Row (stddev_samp (Höhe) = 1.3030732903409539, STDDEV_SAMP (Alter) = 12.157302332343306, stddev_samp (Gewicht) = 20.211382931407737)]
Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.
Methode - 2: Verwendung der Agg () -Methode
Wir können die Standardabweichung einer Stichprobe aus der Spalte im DataFrame unter Verwendung der Agg () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e., STDDEV_SAMP. Durch die Verwendung der Methode STDDEV_SAMP () können wir die Standardabweichung von der Spalte abrufen. Schließlich können wir die Methode Collect () verwenden, um die Standardabweichung einer Probe aus der Spalte zu erhalten.
Syntax:
df.Agg ('column_name': stddev_samp)
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung eines Beispiels zu erhalten
- STDDEV_SAMP ist eine Aggregationsfunktion, mit der die Standardabweichung einer Probe zurückgegeben werden kann
Wenn wir die Standardabweichung aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Komma getrennten STDDEV_SAMP -Funktion angeben.
Syntax:
df.Agg ('column_name': stddev_samp, 'column_name': stddev_samp,…, 'column_name': stddev_samp)
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung eines Beispiels zu erhalten
- STDDEV_SAMP ist eine Aggregationsfunktion, mit der die Standardabweichung einer Probe zurückgegeben werden kann
Beispiel 1: Einzelspalte
In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.Agg ('Höhe': 'stddev_samp').sammeln()
Ausgang:
[Row (stddev_samp (Höhe) = 1.3030732903409539)]
Im obigen Beispiel wird die Standardabweichung einer Probe aus der Höhensäule zurückgegeben.
Beispiel 2: Mehrere Spalten
In diesem Beispiel erhalten wir die Standardabweichung einer Stichprobe von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfrequer.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE STANDIG -VALTIERUNG AUS DER SPALT UND WICHTSWEISUNG
df.Agg ('Höhe': 'stddev_samp', 'Alter': 'stddev_samp', 'Gewicht': 'stddev_samp').sammeln()
Ausgang:
[Row (STDDEV_SAMP (Gewicht) = 20.211382931407737, STDDEV_SAMP (Alter) = 12.157302332343306, stddev_samp (Höhe) = 1.3030732903409539)]
Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.
PYSPARK - STDDEV_POP ()
stddev_pop () in PySpark wird verwendet, um die Standardabweichung einer Population aus einer bestimmten Spalte im Datenrahmen zurückzugeben.
Vorher müssen wir PYSPARK -Datenframe zur Demonstration erstellen.
Beispiel:
Wir erstellen einen Datenrahmen mit 5 Zeilen und 6 Spalten und zeigen ihn mit der Methode show () an.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#Display DataFrame
df.zeigen()
Ausgang:
Methode -1: Verwenden Sie select () Methode
Wir können die Standardabweichung aus der Spalte im DataFrame mit der Methode Select () erhalten. Durch die Verwendung der Methode STDDEV_POP () können wir die Standardabweichung der Bevölkerung von der Spalte erhalten. Um diese Methode zu verwenden, müssen wir sie aus pyspark importieren.sql.Funktionen Modul und schließlich können wir die methode collect () verwenden, um die Standardabweichung von der Spalte zu erhalten
Syntax:
df.select (stddev_pop ('column_name'))
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung einer Bevölkerung zu erhalten
Wenn wir die Standardabweichung aus mehreren Spalten für die angegebene Probe zurückgeben möchten, müssen wir die Methode STDDEV_POP () in der Methode Select () verwenden, indem wir den von einem Komma getrennten Spaltennamen angeben.
Syntax:
df.select (stddev_pop ('column_name'), stddev_pop ('column_name'),… ., stddev_pop ('column_name'))
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung für die angegebene Population zu erhalten
Beispiel 1: Einzelspalte
In diesem Beispiel erhalten wir die Standardabweichung einer Population von der Höhenspalte im PYSPARK -Datenframe.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#Importieren Sie die Standardabweichung - STDDEV_POP -Funktion
aus pysspark.sql.Funktionen importieren stddev_pop
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.select (stddev_pop ('Höhe'))).sammeln()
Ausgang:
[Row (stddev_pop (Höhe) = 1.1655041827466772)]]]
Im obigen Beispiel wird die Standardabweichung aus der Höhenspalte zurückgegeben.
Beispiel 2: Mehrere Spalten
In diesem Beispiel erhalten wir die Standardabweichung der Bevölkerung von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenframe.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import der Standsrd -Abweichung - STDDEV_POP -Funktion
aus pysspark.sql.Funktionen importieren stddev_pop
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung von der Säule der Größe, des Alters und des Gewichts
df.select (stddev_pop ('Höhe'), STDDEV_POP ('AGE'), STDDEV_POP ('Gewicht')).sammeln()
Ausgang:
[Row (stddev_pop (Höhe) = 1.1655041827466772, STDDEV_POP (Alter) = 10.87382177525455, STDDEV_POP (Gewicht) = 18.077610461562667)]]
Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.
Methode - 2: Verwendung der Agg () -Methode
Wir können die Standardabweichung der Bevölkerung aus der Spalte im DataFrame unter Verwendung der AGG () -Methode erhalten. Diese Methode wird als Aggregation bezeichnet, die die Werte innerhalb einer Spalte gruppiert. Es wird das Wörterbuch als Parameter in diesem Schlüssel nennen, der Spaltenname ist und der Wert die aggregierte Funktion ist, i.e. STDDEV_POP. Mit der Methode STDDEV_POP () können wir die Standardabweichung von der Spalte abrufen. Schließlich können wir die Collect () -Methode verwenden, um die Standardabweichung einer Bevölkerung von der Spalte zu erhalten.
Syntax:
df.Agg ('column_name': stddev_pop)
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung einer Bevölkerung zu erhalten
- STDDEV_POP ist eine Aggregationsfunktion
Wenn wir die Standardabweichung aus mehreren Spalten zurückgeben möchten, müssen wir den Spaltennamen mit der von einem Komma getrennten STDDEV_POP -Funktion angeben.
Syntax:
df.Agg ('column_name': stddev_pop, 'column_name': stddev_pop,…, 'column_name': stddev_pop)
Wo,
- DF ist der Eingabe -PYSPARK -Datenrahmen
- Column_Name ist die Spalte, um die Standardabweichung einer Bevölkerung zu erhalten
- STDDEV_POP ist eine Aggregationsfunktion
Beispiel 1: Einzelspalte
In diesem Beispiel wird die Standardabweichung aus der Höhe der Höhenspalte im PYSPARK -Datenrahmen erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REIT Die Standardabweichung aus der Höhe der Höhenspalte
df.Agg ('Höhe': 'stddev_pop').sammeln()
Ausgang:
[Row (stddev_pop (Höhe) = 1.1655041827466772)]]]
Im obigen Beispiel wird die Standardabweichung einer Probe aus der Höhensäule zurückgegeben.
Beispiel 2: Mehrere Spalten
In diesem Beispiel erhalten wir die Standardabweichung einer Stichprobe von den Spalten der Größe, des Alters und des Gewichts im PYSPARK -Datenfrequer.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Schüler = [
'Rollno': '001', 'Name': 'Sravan', 'Alter': 23,
'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Age': 16,
'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Age': 7,
'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9,
'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37,
'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
#REITEN SIE DIE STANDIG -VALTIERUNG AUS DER SPALT UND WICHTSWEISUNG
df.Agg ('Höhe': 'stddev_pop', 'ay': 'stddev_pop', 'Gewicht': 'stddev_pop').sammeln()
Ausgang:
[Row (stddev_pop (Gewicht) = 18.077610461562667, STDDEV_POP (Alter) = 10.87382177525455, stddev_pop (Höhe) = 1.1655041827466772)]]]
Im obigen Beispiel wird die Standardabweichung von Größe, Alter und Gewichtsspalten zurückgegeben.
Abschluss
Wir haben diskutiert, wie die Standardabweichung vom PYSpark -Datenfreame mithilfe von stddev (), stddev_samp () Und stddev_pop () Funktionen durch die wählen() Und Agg () Methoden.