„In Python ist PYSPARK ein Spark -Modul, das eine ähnliche Art von Verarbeitung bietet, die mit DataFrame spark ist und die angegebenen Daten im Zeilen- und Spaltenformat speichert.
PYSPARK - Pandas DataFrame repräsentiert den Pandas -Datenfreame, enthält jedoch den PYSPark -Datenfreame in intern.
PANDAS unterstützen die Datenstruktur der Datenframe, und Pandas wird aus dem PYSPARK -Modul importiert.
Vorher müssen Sie das PYSPARK -Modul installieren.”
Befehl
1 | PIP Installieren Sie PYSPARK |
Syntax zum Import:
1 | aus pyspark import Pandas |
Danach können wir den Datenrahmen aus dem Pandas -Modul erstellen oder verwenden.
Syntax zum Erstellen von Pandas -Datenframe:
1 | PYSPARK.Pandas.DataFrame () |
Wir können ein Wörterbuch oder eine Liste von Listen mit Werten übergeben.
Erstellen wir mit vier Spalten und fünf Zeilen einen Pandas -Datenframe über pyspark.
1 2 3 4 5 6 7 8 9 10 11 12 13 | #import pandas aus dem pysparkmodul |
Ausgang:
Jetzt werden wir in unser Tutorial gehen.
Mit den Methoden add_prefix () und add_suffix () ist es möglich, einer bestimmten Spalte oder alle Spalten Präfixe und Suffixe zu allen Spalten hinzuzufügen. Lassen Sie uns sie nacheinander besprechen.
1 | PYSPARK.Pandas.Datenrahmen.add_prefix () |
add_prefix () wird verwendet, um jeder Spalte zu Beginn des PYSPARK PANDAS -Datenframe eine Präfix -Zeichenfolge hinzuzufügen. Es ist auch möglich, nur eine einzelne Spalte ein Präfix hinzuzufügen, indem der Spaltenname angegeben wird. In diesem Szenario wird es zu Reihenetiketten hinzugefügt.
Syntax:
Für den gesamten Datenrahmen - pyspark_pandas.add_prefix ('String')
Für eine bestimmte Spalte - pyspark_pandas.Spalte.add_prefix ('String')
Wo, pyspark_pandas ist der pyspark pandas DataFrame.
Parameter:
Eine Zeichenfolge ist ein Präfix, das der Spalte am Anfang hinzugefügt wurde.
Beispiel 1
In diesem Beispiel fügen wir allen oben genannten Spalten das Präfix - "Linux_Hint" hinzu, um den PYSPARK PANDAS -Datenfreame zu erstellen.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas aus dem pysparkmodul |
Ausgang:
Wir können sehen, dass das Präfix allen Spalten hinzugefügt wird.
Beispiel 2
Fügen Sie den Werten in der Spalte Mark1 Präfix hinzu.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas aus dem pysparkmodul |
Ausgang:
1 2 3 4 5 6 7 8 9 10 11 | LINUX_HINT0 90 |
Wir können sehen, dass das Präfix allen Werten in der Spalte Mark1 hinzugefügt wird.
1 | PYSPARK.Pandas.Datenrahmen.add_suffix () |
add_suffix () wird verwendet, um jeder Spalte am Ende des PYSpark Pandas DataFrame eine Suffix -Zeichenfolge hinzuzufügen. Es ist auch möglich, nur eine einzelne Spalte ein Suffix hinzuzufügen, indem der Spaltenname angegeben wird. In diesem Szenario wird es zu Reihenetiketten hinzugefügt.
Syntax:
Für den gesamten Datenrahmen - pyspark_pandas.add_suffix ('String')
Für eine bestimmte Spalte - pyspark_pandas.Spalte.add_suffix ('String')
Wo, pyspark_pandas ist der pyspark pandas DataFrame.
Parameter:
Eine Zeichenfolge ist ein Suffix, das der Spalte zu Beginn hinzugefügt wurde.
Beispiel 1
In diesem Beispiel fügen wir allen oben genannten Spalten das Suffix - "Linux_Hint" hinzu, um den PySpark Pandas DataFrame zu erstellen.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas aus dem pysparkmodul |
Ausgang:
Wir können sehen, dass das Suffix allen Spalten hinzugefügt wird.
Beispiel 2
Fügen Sie den Werten in der Spalte Mark1 Suffix hinzu.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas aus dem pysparkmodul |
Ausgang:
1 2 3 4 5 6 7 8 9 10 11 | 0LINUX_HINT 90 |
Wir können sehen, dass das Suffix allen Werten in der Spalte Mark1 hinzugefügt wird.
Abschluss
In diesem PYSPARK PANDAS -Tutorial haben wir gesehen. Es wird den Spaltennamen hinzugefügt, wenn wir den gesamten Datenrahmen angeben. Wenn wir die obigen Methoden auf eine bestimmte Spalte anwenden, wird das Präfix/das Suffix zu den Zeilenpositionen hinzugefügt.