PYSPARK - PANDAS DataFrame add_prefix und add_suffix

PYSPARK - PANDAS DataFrame add_prefix und add_suffix

„In Python ist PYSPARK ein Spark -Modul, das eine ähnliche Art von Verarbeitung bietet, die mit DataFrame spark ist und die angegebenen Daten im Zeilen- und Spaltenformat speichert.

PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.

PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.

Vorher müssen Sie das PYSPARK -Modul installieren.”

Befehl

1
PIP Installieren Sie PYSPARK

Syntax zum Import:

1
aus pyspark import Pandas

Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.

Syntax zum Erstellen von Pandas -Datenframe:

1
PYSPARK.Pandas.DataFrame ()

Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.

Erstellen wir mit vier Spalten und fünf Zeilen einen Pandas -Datenframe über pyspark.

1
2
3
4
5
6
7
8
9
10
11
12
13
#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Ausgang:

Jetzt werden wir in unser Tutorial gehen.

Mit den Methoden add_prefix () und add_suffix () ist es möglich, einer bestimmten Spalte oder alle Spalten Präfixe und Suffixe zu allen Spalten hinzuzufügen. Lassen Sie uns sie nacheinander besprechen.

1
PYSPARK.Pandas.Datenrahmen.add_prefix ()

add_prefix () wird verwendet, um jeder Spalte zu Beginn des PYSPARK PANDAS -Datenframe eine Präfix -Zeichenfolge hinzuzufügen. Es ist auch möglich, nur eine einzelne Spalte ein Präfix hinzuzufügen, indem der Spaltenname angegeben wird. In diesem Szenario wird es zu Reihenetiketten hinzugefügt.

Syntax:

Für den gesamten Datenrahmen - pyspark_pandas.add_prefix ('String')

Für eine bestimmte Spalte - pyspark_pandas.Spalte.add_prefix ('String')

Wo, pyspark_pandas ist der pyspark pandas DataFrame.

Parameter:

Eine Zeichenfolge ist ein Präfix, das der Spalte am Anfang hinzugefügt wurde.

Beispiel 1

In diesem Beispiel fügen wir allen oben genannten Spalten das Präfix - "Linux_Hint" hinzu, um den PYSPARK PANDAS -Datenfreame zu erstellen.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add das Präfix - 'linux_hint' zum gesamten Datenrahmen
print (pyspark_pandas.add_prefix ('linux_hint'))

Ausgang:

Wir können sehen, dass das Präfix allen Spalten hinzugefügt wird.

Beispiel 2

Fügen Sie den Werten in der Spalte Mark1 Präfix hinzu.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add das Präfix - 'linux_hint' zu den Spaltenwerten Mark1
print (pyspark_pandas.Mark1.add_prefix ('linux_hint'))

Ausgang:

1
2
3
4
5
6
7
8
9
10
11
LINUX_HINT0 90
LINUX_HINT1 56
LINUX_HINT2 78
LINUX_HINT3 54
LINUX_HINT4 67
Name: Mark1, DTYPE: INT64

Wir können sehen, dass das Präfix allen Werten in der Spalte Mark1 hinzugefügt wird.

1
PYSPARK.Pandas.Datenrahmen.add_suffix ()

add_suffix () wird verwendet, um jeder Spalte am Ende des PYSpark Pandas DataFrame eine Suffix -Zeichenfolge hinzuzufügen. Es ist auch möglich, nur eine einzelne Spalte ein Suffix hinzuzufügen, indem der Spaltenname angegeben wird. In diesem Szenario wird es zu Reihenetiketten hinzugefügt.

Syntax:

Für den gesamten Datenrahmen - pyspark_pandas.add_suffix ('String')

Für eine bestimmte Spalte - pyspark_pandas.Spalte.add_suffix ('String')

Wo, pyspark_pandas ist der pyspark pandas DataFrame.

Parameter:

Eine Zeichenfolge ist ein Suffix, das der Spalte zu Beginn hinzugefügt wurde.

Beispiel 1

In diesem Beispiel fügen wir allen oben genannten Spalten das Suffix - "Linux_Hint" hinzu, um den PySpark Pandas DataFrame zu erstellen.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add das Suffix - 'linux_hint' zum gesamten Datenrahmen
print (pyspark_pandas.add_suffix ('linux_hint'))

Ausgang:

Wir können sehen, dass das Suffix allen Spalten hinzugefügt wird.

Beispiel 2

Fügen Sie den Werten in der Spalte Mark1 Suffix hinzu.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas aus dem pysparkmodul
aus pyspark import Pandas
#create DataFrame von Pandas PySpark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add das Suffix - 'linux_hint' zu den Mark1 -Spaltenwerten
print (pyspark_pandas.Mark1.add_suffix ('linux_hint'))

Ausgang:

1
2
3
4
5
6
7
8
9
10
11
0LINUX_HINT 90
1Linux_Hint 56
2LINUX_HINT 78
3LINUX_HINT 54
4LINUX_HINT 67
Name: Mark1, DTYPE: INT64

Wir können sehen, dass das Suffix allen Werten in der Spalte Mark1 hinzugefügt wird.

Abschluss

In diesem PYSPARK PANDAS -Tutorial haben wir gesehen. Es wird den Spaltennamen hinzugefügt, wenn wir den gesamten Datenrahmen angeben. Wenn wir die obigen Methoden auf eine bestimmte Spalte anwenden, wird das Präfix/das Suffix zu den Zeilenpositionen hinzugefügt.