Pyspark - Zeitstempelfunktionen

Pyspark - Zeitstempelfunktionen
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird.

Wir werden Zeitstempelfunktionen in PYSPARK besprechen. Lassen Sie uns zunächst einen Datenrahmen erstellen.

Zeitstempel

Ein Zeitstempel ist ein Daten, das Datum und Uhrzeit enthalten.

Datum umfasst Monate, Datum und Jahr.

Die Zeit umfasst Stunde, Minute, Zweite und Millsekunden.

Wir können den Zeitstempel als - darstellen (Yjyy, MM, DD, H, M, S, MI.S)

Wo:

  1. yjjy - repräsentiert das Jahr im vierstelligen Format
  2. Mm - repräsentiert den Monat im zweistelligen Format
  3. DD - stellt das Datum im zweistelligen Format dar
  4. H - steht für Stunde
  5. M - repräsentiert Minute
  6. S - steht für den zweiten Platz
  7. Mi.S repräsentiert Milli-Sekunde

Durch die Verwendung von DateTime -Modul können wir Zeitstempel erstellen. Daher erfordert es das Importieren des DateTime -Moduls.

Beispielerstellung:
Terminzeit.DateTime (2022, 2, 16, 2, 46, 30, 144585)

Beispiel:
Hier erstellen wir PYSPARK -Datenframe mit 5 Zeilen und 3 Spalten mit Zeitstempeln und zeigen den DataFrame mithilfe von Collect () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#alle Methoden aus pyspark.sql.Funktionsmodul
aus pysspark.sql.Funktionen importieren *
# Das DateTime -Modul importieren
DateTime importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 3 Attributen
student.DateTime (2022, 2, 16, 2, 46, 30, 144585),
ash.DateTime (2022, 2, 11, 3, 46, 10, 144582),
ash.DateTime (2021, 1, 8, 4, 46, 44, 194585),
ash.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'theuja', 'IncITITED_DATE': DATTETTIME.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame anzeigen
df.sammeln()

Ausgang:

[Zeile (incisited_date = datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585), Name = 'Sravan', Rollno = '001')),
Row (incisited_date = datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582), Name = 'Deepika', Rollno = '002')),
Row (incisited_date = datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585), Name = 'Chandrika', Rollno = '003'),
Row (incisited_date = datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185), Name = 'Akash', Rollno = '004')),
Row (incisited_date = datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585), Name = 'Thanuja', Rollno = '005')]

Datumsformat()

Dieses Format wird verwendet, um das Datum/die Uhrzeit aus dem angegebenen Zeitstempel zu extrahieren. Es wird das Datums-/Uhrzeitformat benötigt und erhält das Datum/die Uhrzeit basierend auf diesem Format.

Um das Datum zu erhalten, lautet das Format "yyyy-mm-dd". Wir können MM/DD/JJJJ zu beliebiger Reihenfolge platzieren.

Syntax:
DATE_FORMAT (col ("TIMESTAMP_COLUMN"), yyyy-mm-dd ").alias ("result_column")

Wo:

  1. TimeStamp_Column ist die Spalte Zeitstempeldaten
  2. result_column ist das Etikett für diese formatierte Spalte

Um die Zeit zu bekommen, lautet das Format „HH: MM: SS.SSS ”.

Syntax:
Datenrahmen.select (DATE_FORMAT (COL ("TIMESTAMP_COLUMN"), HH: MM: SS.SSS ”).alias ("result_column"))

Wo:

  1. TimeStamp_Column ist die Spalte Zeitstempeldaten
  2. result_column ist das Etikett für diese formatierte Spalte

Beispiel 1:
In diesem Beispiel extrahieren wir das Datum als "Datum" aus der Spalte TimestAMP von Incent_date und werden es mithilfe von show () angezeigt.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#alle Methoden aus pyspark.sql.Funktionsmodul
aus pysspark.sql.Funktionen importieren *
# Das DateTime -Modul importieren
DateTime importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 3 Attributen
student.DateTime (2022, 2, 16, 2, 46, 30, 144585),
ash.DateTime (2022, 2, 11, 3, 46, 10, 144582),
ash.DateTime (2021, 1, 8, 4, 46, 44, 194585),
ash.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'theuja', 'IncITITED_DATE': DATTETTIME.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Datum aus dem Zeitstempel extrahieren
df.select (col ("Incent_date"), DATE_FORMAT (col ("Incent.d.Date"), "yyyy-mm-dd")).alias ("Datum")).zeigen()

Ausgang:

Beispiel 2:
In diesem Beispiel extrahieren wir die Zeit als „Zeit“ aus der Spalte TimestAMP -Spalte zu und zeigten sie mithilfe von show () an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#alle Methoden aus pyspark.sql.Funktionsmodul
aus pysspark.sql.Funktionen importieren *
# Das DateTime -Modul importieren
DateTime importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 3 Attributen
student.DateTime (2022, 2, 16, 2, 46, 30, 144585),
ash.DateTime (2022, 2, 11, 3, 46, 10, 144582),
ash.DateTime (2021, 1, 8, 4, 46, 44, 194585),
ash.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'theuja', 'IncITITED_DATE': DATTETTIME.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Zeit aus dem Zeitstempel extrahieren
df.select (col ("incent_date"), DATE_FORMAT (col ("Incent.d.Date"), "HH: MM: SS.SSS ").alias ("Zeit")).zeigen()

Ausgang:

Stunde()

Hour () ist eine Methode, die Stunde vom angegebenen Zeitstempel zurückgibt. Es wird Stunden in einer Zeitstempelsäule über Zeilen zurückkehren.

Syntax:
Datenrahmen.Select (Stunde (col ("TIMESTAMP_COLUMN")))))

Wo, timestamp_column ist die Spalte Zeitstempeldaten.

Minute()

Minute () ist eine Methode, die Minuten vom angegebenen Zeitstempel zurückgeht. Es wird Minuten in einer Zeitstempelsäule über Zeilen zurückkehren.

Syntax:
Datenrahmen.select (minute (col ("timestamp_column"))))

Wo, timestamp_column ist die Spalte Zeitstempeldaten.

zweite()

Second () ist eine Methode, die Sekunden vom angegebenen Zeitstempel zurückgeht. Es wird Sekunden in einer Zeitstempelsäule über die Zeilen zurückkehren.

Syntax:
Datenrahmen.SELECT (Second (col (“TIMESTAMP_COLUMN”)))))

Wo, timestamp_column ist die Spalte Zeitstempeldaten.

Beispiel:
In diesem Beispiel extrahieren wir Stunde, Minuten und Sekunden aus der Timestamp -Spalte in zugelassener Zeit mit den oben genannten Methoden und zeigen den DataFrame mithilfe von show () -Methoden an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#alle Methoden aus pyspark.sql.Funktionsmodul
aus pysspark.sql.Funktionen importieren *
# Das DateTime -Modul importieren
DateTime importieren
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 3 Attributen
student.DateTime (2022, 2, 16, 2, 46, 30, 144585),
ash.DateTime (2022, 2, 11, 3, 46, 10, 144582),
ash.DateTime (2021, 1, 8, 4, 46, 44, 194585),
ash.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'theuja', 'IncITITED_DATE': DATTETTIME.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# Stunden aus dem Zeitstempel extrahieren
df.select (col ("Incent_date"), Stunde (col ("IncumentSt_date"))).zeigen()
# Minuten aus dem Zeitstempel extrahieren
df.select (col ("Incent_date"), minute (col ("Incent_date"))).zeigen()
# Sekunden aus dem Zeitstempel extrahieren
df.select (col ("incent_date"), zweiter (col ("incentes_date"))).zeigen()

Ausgang:

Abschluss

In diesem Tutorial haben wir diskutiert, wie Datum und Uhrzeit mithilfe von Datum und Datum und date_format () und mithilfe von Hour (), Minute () und Second () extrahiert werden können. Wir haben Stunden, Minuten und Sekunden aus der Zeitstempelspalte im PYSPARK -Datenframe extrahiert.