PYSPARK - Mathematikfunktionen

PYSPARK - Mathematikfunktionen
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

Wir werden Mathematikfunktionen in PySpark diskutieren. Lassen Sie uns zunächst einen Datenrahmen erstellen

Beispiel:
Hier erstellen wir PySpark -Datenframe mit 5 Zeilen und 6 Spalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 2.79, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Alter': 9, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# DataFrame anzeigen
df.zeigen()

Ausgang:

PYSPARK - FODEL ()

Floor () ist eine Mathematikfunktion, die in PySpark erhältlich ist.sql.Funktionsmodul, mit dem der Bodenwert des angegebenen Doppelwerts zurückgegeben wird.

Wir können diese mit der Select () -Methode verwenden, um die Bodenwerte für eine Spalte anzuzeigen.

Syntax:
Datenrahmen.Select ("Boden (" Spalte "))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. Die Spalte ist der Spaltenname, in dem Floor () angewendet wird

Beispiel :
In diesem Beispiel sammeln wir Bodenwerte aus der Höhenspalte über Select () -Methode und zeigen sie mit Collect () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import Bodenfunktion
aus pysspark.sql.Funktionen importieren Boden
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 2.79, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Alter': 9, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Auf der Höhe der Höhenspalte auftragen
df.Select (Boden ('Höhe')).sammeln()

Ausgang:

[Reihe (Boden (Höhe) = 5),
Reihe (Boden (Höhe) = 3),
Reihe (Boden (Höhe) = 2),
Reihe (Boden (Höhe) = 2),
Reihe (Boden (Höhe) = 5)]

Pyspark - ceil ()

CEIL () ist eine mathematische Funktion, die in PYSPARK erhältlich ist.sql.Funktionsmodul zur Rückgabe des CEIL -Wertes (Top) des angegebenen Doppelwerts.

Wir können diese mit der methode select () verwenden, um die Ceil -Werte für eine Spalte anzuzeigen.

Syntax:
Datenrahmen.select ("Ceil (" Spalte "))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. Die Spalte ist der Spaltenname, in dem Ceil () angewendet wird

Beispiel :
In diesem Beispiel sammeln wir CEIL -Werte aus der Höhe der Höhenspalte über Select () -Methode und zeigen sie mithilfe der Collect () -Methode an

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import Bodenfunktion
aus pysspark.sql.Funktionen importieren Boden
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 2.79, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Alter': 9, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Ceil Ceil auf Höhenspalte anwenden
df.select (CEIL ('Höhe')).sammeln()

Ausgang:

[Zeile (CEIL (Höhe) = 6),
Reihe (CEIL (Höhe) = 4),
Reihe (CEIL (Höhe) = 3),
Reihe (CEIL (Höhe) = 3),
Reihe (CEIL (Höhe) = 6)]

Pyspark - rund ()

Round () ist eine Mathematikfunktion, die in pyspark verfügbar ist.sql.Funktionsmodul, mit der der abgerundete Wert zurückgegeben wird, der dem angegebenen Doppelwert näher ist.

Wir können diese mit der methode select () verwenden, um die runden Werte für eine Spalte anzuzeigen.

Syntax:
Datenrahmen.Select ("Round (" Spalte "))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. Die Spalte ist der Spaltenname, in dem Round () angewendet wird

Beispiel :
In diesem Beispiel sammeln wir abgerundete Werte aus der Höhenspalte über Select () -Methode und zeigen sie mithilfe der Collect () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import Bodenfunktion
aus pysspark.sql.Funktionen importieren Boden
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 2.79, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Alter': 9, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Runden Sie die Spalte der Höhenspalte auf
df.Wählen Sie (rund ('Höhe')).sammeln()

Ausgang:

[Reihe (Runde (Höhe, 0) = 6.0),
Reihe (Runde (Höhe, 0) = 4.0),
Reihe (Runde (Höhe, 0) = 3.0),
Reihe (Runde (Höhe, 0) = 3.0),
Reihe (Runde (Höhe, 0) = 6.0)]]

Pysspark - Sinusfunktionen

Sinus ist eine trigonometrische Funktion. Es gibt drei Variationen im Sinus. Sie sind Sin (), Asin () und sinh ().

Wo:

SIN () wird verwendet, um die Sinuswerte zu erhalten.

Asin () wird verwendet, um die inversen Sinuswerte zu erhalten.

Sinh () wird verwendet, um die hyperbolischen Sinuswerte zu erhalten.

Wir können diese mit der methode select () verwenden, um die resultierenden Werte für eine Spalte anzuzeigen.

Beachten Sie, dass Sie diese Funktionen aus pyspark importieren müssen.sql.Funktionen.

Syntax:

Datenrahmen.select ("sin (" Spalte "))
Datenrahmen.Select ("Asin (" Spalte "))
Datenrahmen.select ("sinh (" spalte "))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. Die Spalte ist der Spaltenname, in dem Sinusfunktionen angewendet werden

Beispiel:
In diesem Beispiel wenden wir Sinusfunktionen in der Höhe der Höhenspalte über Select () -Methode an und zeigen die Werte mit Collect () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import Sinusfunktionen
aus pysspark.sql.Funktionen importieren Sünde, Asin, sinh
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 2.79, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Alter': 9, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Sinusfunktionen auf die Höhe der Höhenspalte anwenden
df.select (sin ('Höhe'), Asin ('Höhe'), sinh ('Höhe')).sammeln()

Ausgang:

[Zeile (sin (Höhe) =-0.47343399708193507, Asin (Höhe) = Nan, sinh (Höhe) = 163.5049831968973),
Reihe (sin (Höhe) =-0.6039177530112606, Asin (Höhe) = Nan, sinh (Höhe) = 22.116902337066122),
Reihe (sin (Höhe) = 0.34439346725839, Asin (Höhe) = Nan, sinh (Höhe) = 8.109799293936714),
Reihe (sin (Höhe) = 0.34439346725839, Asin (Höhe) = Nan, sinh (Höhe) = 8.109799293936714),
Reihe (sin (Höhe) =-0.6389906043282237, Asin (Höhe) = Nan, sinh (Höhe) = 133.86594234289123)]

PYSPARK - Cosinus -Funktionen

Cosinus ist eine trigonometrische Funktion. Es gibt drei Variationen im Cosinus. Sie sind cos (), acos () und cosh ().

Wo:
Cos () wird verwendet, um die Cosinus -Werte zu erhalten.

ACOS () wird verwendet, um die inversen Cosinus -Werte zu erhalten.

COSH () wird verwendet, um die hyperbolischen Cosinus -Werte zu erhalten.

Wir können diese mit der methode select () verwenden, um die resultierenden Werte für eine Spalte anzuzeigen.

Beachten Sie, dass Sie diese Funktionen aus pyspark importieren müssen.sql.Funktionen

Syntax:
Datenrahmen.select ("cos (" Spalte "))
Datenrahmen.Select ("ACOS (" Spalte "))
Datenrahmen.Select ("Cosh (" Spalte "))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. Die Spalte ist der Spaltenname, in dem Cosinus -Funktionen angewendet werden

Beispiel :
In diesem Beispiel wenden wir Cosinus -Funktionen auf der Höhe der Höhenspalte über Select () -Methode an und zeigen die Werte mit Collect () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import Cosinus -Funktionen
aus pysspark.sql.Funktionen importieren cos, acos, cosh
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 2.79, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Alter': 9, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Anwenden Sie Cosinus -Funktionen auf die Höhe der Höhenspalte an
df.Select (cos ('Höhe'), ACOS ('Höhe'), Cosh ('Höhe')).sammeln()

Ausgang:

[Zeile (cos (Höhe) = 0.880829296973609, ACOS (Höhe) = Nan, Cosh (Höhe) = 163.50804117907373),
Reihe (cos (Höhe) =-0.7970466407920117, ACOS (Höhe) = Nan, Cosh (Höhe) = 22.139497938917245),
Reihe (cos (Höhe) =-0.9388254042737362, ACOS (Höhe) = Nan, Cosh (Höhe) = 8.171220507851714),
Reihe (cos (Höhe) =-0.9388254042737362, ACOS (Höhe) = Nan, Cosh (Höhe) = 8.171220507851714),
Reihe (cos (Höhe) = 0.7692145393713327, ACOS (Höhe) = Nan, Cosh (Höhe) = 133.86967737075594)]]]

PYSPARK - Tangentenfunktionen

Tangente ist eine trigonometrische Funktion. Es gibt drei Variationen der Tangente. Sie sind tan (), atan () und tanh ().

Wo:
Tan () wird verwendet, um die Tangentenwerte zu erhalten.

Atan () wird verwendet, um die inversen Tangentenwerte zu erhalten.

Tanh () wird verwendet, um die hyperbolischen Tangentenwerte zu erhalten.

Wir können diese mit der methode select () verwenden, um die resultierenden Werte für eine Spalte anzuzeigen.

Beachten Sie, dass Sie diese Funktionen aus pyspark importieren können.sql.Funktionen

Syntax:
Datenrahmen.Select ("Tan (" Spalte "))
Datenrahmen.Select ("Atan (" Spalte "))
Datenrahmen.Select ("Tanh (" Spalte "))

Wo:

  1. DataFrame ist der Eingabe -PYSPARK -Datenrahmen
  2. Die Spalte ist der Spaltenname, in dem Tangentenfunktionen angewendet werden

Beispiel :
In diesem Beispiel wenden wir Tangentenfunktionen auf der Höhenspalte über Select () -Methode an und zeigen die Werte mit Collect () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#import Tangentenfunktionen
aus pysspark.sql.Funktionen importieren Tan, Atan, Tanh
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 2.79, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Alter': 9, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Tangentenfunktionen auf die Höhenspalte anwenden
df.Select (Tan ('Höhe'), Atan ('Höhe'), Tanh ('Höhe')).sammeln()

Ausgang:

[Zeile (Tan (Höhe) =-0.5374866602514016, Atan (Höhe) = 1.3997719475525305, Tanh (Höhe) = 0.9999812976649076),
Reihe (Tan (Höhe) = 0.7576943708227135, Atan (Höhe) = 1.312823345585992, Tanh (Höhe) = 0.9989793986334531),
Reihe (Tan (Höhe) =-0.36683441424852425, Atan (Höhe) = 1.2266375707015524, Tanh (Höhe) = 0.9924832264829984),
Reihe (Tan (Höhe) =-0.36683441424852425, Atan (Höhe) = 1.2266375707015524, Tanh (Höhe) = 0.9924832264829984),
Reihe (Tan (Höhe) =-0.8307053125262831, Atan (Höhe) = 1.3937779115470312, Tanh (Höhe) = 0.9999720995229238)]]

Abschluss

In diesem Artikel haben wir sechs Mathematikfunktionen besprochen. Unter den sechs sind drei von trigonometrischen Funktionen: Sinus, Cosinus und Tangente. In jedem von diesen haben wir alle Variationen mit Beispielen besprochen. Die verbleibenden drei sind: CEIL (), FODE () und Round () Funktionen. Schließlich werden wir sicherstellen, dass wir diese Funktionen aus pyspark importieren müssen.sql.Funktionenmodul nicht zur Verwendung dieser sechs Funktionen.

slide 4 to 8 of 10