PYSPARK -Substring -Methode

PYSPARK -Substring -Methode
Die PYSPARK-Bibliothek ist eine allgemeine, ingemessene, verteilte Verarbeitungsmaschine, mit der Sie die Daten über mehrere Maschinen hinweg verarbeiten können. Eine seiner beliebten Methoden ist Substring (), was hilfreich ist, um ein Substring aus einer bestimmten Spalte zusammen mit ihren Beispielen zu erhalten. Lassen Sie uns tauchen und mehr über diese Bibliothek und ihre Substring -Methode erfahren.

Was ist pyspark?

Pyspark ist eine der unterstützten Sprachen von Sparks. Spark ist eine Big-Data-Verarbeitungstechnologie, die Daten auf einem Petabyte-Maßstab behandeln kann. Sie können Spark -Anwendungen entwickeln, um die Daten zu verarbeiten und sie mit PYSPARK auf der Spark -Plattform auszuführen. Die AWS bietet verwaltete EMR und die Spark -Plattform an. Sie können PYSPark verwenden, um die Daten zu verarbeiten und einen EMR -Cluster auf AWS festzulegen. PYSPARK kann die Daten von CSV, Parquet, JSON und Datenbanken lesen.

Da Spark hauptsächlich in Scala implementiert ist, können Sie mit den Spark -Apps in Scala oder Java mehr von seinen Funktionen zugreifen als das Schreiben von Spark -Programmen in Python oder R. PYSPARK unterstützt derzeit den Datensatz derzeit nicht. Für jemanden, der eine Datenwissenschaft anstrebt. Für kleinere Datensätze werden Pandas verwendet, während für größere Datensätze pyspark verwendet werden.

Im Vergleich zu PYSPARK liefert Pandas schnellere Ergebnisse. Abhängig von der Speicherbegrenzung und der Größe der Daten können Sie zwischen der Wahl wählen PYSPARK Und Pandas Leistung zu verbessern. Verwenden Sie immer Pandas über pyspark, wenn die Verarbeitung von Daten ausreicht, um in den Speicher zu passen.

Der belastbare verteilte Datensatz (RDD) ist der ausgefeilte zugrunde liegende Mechanismus von Funkendaten. Die Daten sind widerstandsfähig, was bedeutet, dass die Daten an anderer Stelle repliziert werden, wenn ein System mit den Daten fehlschlägt. Verteilt bedeutet, dass die Daten unter 'n' Maschinen aufgeteilt werden, sodass Sie einen Prozess theoretisch beschleunigen und gleichzeitig massive Datenmengen abwickeln können. Eine der Auswirkungen des verteilten Computers besteht darin, dass die Daten mit äußerster Vorsicht synchronisiert werden müssen. Funken verlangt funktionelle Programmierung, was bedeutet, dass die Funktionen keine Nebenwirkungen haben dürfen, um viele dieser Bedenken zu verhindern. Wenn Sie eine Tabelle ändern möchten, müssen Sie zunächst eine neue Tabelle erstellen.

Viele Programmierer sind mit dem Konzept der funktionalen Programmierung nicht vertraut. Pysspark macht nicht gute Arbeit darin, die RDD transparent zu machen. Die API nimmt einen Teil der Unannehmlichkeit der RDD -Umgebung auf. Die funktionale Programmierung bedeutet beispielsweise, dass eine Funktion keine Nebenwirkungen haben kann (was die Aufbewahrung der Daten viel schwieriger macht). Ein weiteres Beispiel ist die „faule“ Bewertung, mit der Spark warten kann, bis er ein umfassendes Bild davon gibt, was Sie erreichen möchten, bevor Sie versuchen, die Prozesse zu optimieren. Spark ist schnell zur bevorzugten Technologie der Branche für die Datenverarbeitung geworden. Es ist jedoch nicht das erste. Vor dem Funken war die Verarbeitungsmotor MapReduce. Spark wird in Branchen weit verbreitet auf verteilten Speichersystemen wie Hadoop, Mesos und der Cloud verwendet. Es ist wichtig, die verteilten Speichersysteme und ihre Arbeit zu verstehen.

Was ist die Substring () -Methode in pyspark?

Die Substring () -Methode in PYSpark extrahiert ein Substring aus einer Datenrame -Spalte des Zeichenfolge -Typs, indem er deren Länge und Position angibt.

SQL -Funktion Substring ()

Wir können eine Substring einer Zeichenfolge verwenden, indem wir die Substring() Funktion des PYSPARK.sql.Funktionen Modul durch Lieferung des Index und der Länge der Schnur, die wir in Scheiben schneiden möchten. Hier ist ein Beispiel für die Verwendung dieser Methode:

Substring (str, pos, len)
Daten = [(1, "20210828"), (2, "20190725")]
Spalten = ["ID", "Datum"]
DF = Spark.createdataframe (Daten, Spalten)
df.WithColumn ('Jahr', Substring ('Datum', 1,4)) \
.WithColumn ('Monat', Substring ('Datum', 5,2)) \
.WithColumn ("Tag", Substring ("Datum", 7,2))
df.printSchema ()
df.Show (truncate = false)

Verwenden von substring () mit select ()

Verwendung wählen In PySpark können wir die Substring einer Spalte erhalten.

df.Select ('Datum', Substring ('Datum', 1,4).alias ('Jahr'), \
Substring ('Datum', 5,2).alias ('Monat'), \
Substring ('Datum', 7,2).alias ('Tag'))

Verwenden von substring () mit selectExpr ()

Das Beispiel der Verwendung selectExpr Methode, um das Jahr, den Monat und den Tag als Substrings der Spalte (Datum) zu erhalten, lautet wie folgt:

df.selectExpr ('Datum', 'Substring (Datum, 1,4) als Jahr', \, \
'Substring (Datum, 5,2) als Monat', \ \
'Substring (Datum 7,2) als Tag')

Verwenden von substr () vom Spaltentyp

Holen Sie sich das Substring mit dem Substr() Funktion von PYSPARK.sql.Spalte Geben Sie pyspark ein.

df3 = df.WithColumn ('Jahr', col ('Datum').Substr (1, 4)) \
.WithColumn ('Monat', col ('Datum').Substr (5, 2)) \
.WithColumn ('Day', Col ('Date').Substr (7, 2))

5. Etwas zusammensetzen

pysspark importieren
aus pysspark.SQL Import SparkSession
aus pysspark.sql.Funktionen importieren col, Substring
Spark = SparkSession.Erbauer.AppName ("Demo").Getorcreate ()
Daten = [(1, "20210828"), (2, "20190725")]
Spalten = ["ID", "Datum"]
DF = Spark.createdataframe (Daten, Spalten)
df.WithColumn ('Jahr', Substring ('Datum', 1,4)) \
.WithColumn ('Monat', Substring ('Datum', 5,2)) \
.WithColumn ("Tag", Substring ("Datum", 7,2))
df.printSchema ()
df.Show (truncate = false)
df.Select ('Datum', Substring ('Datum', 1,4).alias ('Jahr'), \
Substring ('Datum', 5,2).alias ('Monat'), \
Substring ('Datum', 7,2).alias ('Tag'))
df.selectExpr ('Datum', 'Substring (Datum, 1,4) als Jahr', \, \
'Substring (Datum, 5,2) als Monat', \ \
'Substring (Datum 7,2) als Tag')
df3 = df.WithColumn ('Jahr', col ('Datum').Substr (1, 4)) \
.WithColumn ('Monat', col ('Datum').Substr (5, 2)) \
.WithColumn ('Day', Col ('Date').Substr (7, 2))

Abschluss

Wir haben über PYSPARK, ein Big -Data -Verarbeitungssystem, das Petabyte von Daten und seine Substring () -Methode zusammen mit seinen wenigen Beispielen bearbeiten, besprochen.