Pysspark - Union & Unionall

Pysspark - Union & Unionall
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir können Zeilen/Daten aus dem zweiten Datenrahmen an den ersten Datenrahmen mit zwei Methoden anhängen: Union () und Unionall (). Beide Methoden sind gleich. Die Unionall () -Methode ist in den 2 veraltet.0 Version von pyspark und wird durch die Union () -Methode ersetzt. Bevor wir diese Methoden kennenlernen, erstellen wir zwei PYSPARK -Datenrahmen.

Beispiel 1:
Im folgenden Beispiel werden wir den PYSpark -Datenfreame mit 5 Zeilen und 6 Spalten erstellen und mit der Show () -Methode angezeigt:

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# DataFrame anzeigen
df.zeigen()

Ausgang:

Beispiel 2:
Im folgenden Beispiel werden wir den PYSpark -Datenfreame mit 3 Zeilen und 6 Spalten erstellen und mit der Show () -Methode angezeigt:

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten2 = ['Rollno': '056', 'Name': 'Vinay', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Tamilnadu',
'Rollno': '045', 'Name': 'Bhanu', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '032', 'Name': 'Jyothika Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Delhi']
# Erstellen Sie den Datenrahmen
df2 = spark_app.erstellteataframe (Studenten2)
# Second DataFrame anzeigen
DF2.zeigen()

Ausgang:

Pyspark - Union () Funktion

Die Funktion der Union () wird Zeilen von einem oder mehreren Datenrahmen zum ersten Datenrahmen hinzufügen. Wir sehen.

Syntax:

First_dataframe.Union (Second_dataframe)

Wo:

  1. First_Dataframe ist der erste Eingabedatenfreame.
  2. Second_dataframe ist der zweite Eingabedatenfreame.

Beispiel:

In diesem Beispiel wenden wir die Funktion der Union () an, um den zweiten Datenrahmen an den ersten anzuhängen

Datenrahmen. Schließlich zeigen wir den DataFrame mithilfe der Messe () -Methode an:

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten2 = ['Rollno': '056', 'Name': 'Vinay', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Tamilnadu',
'Rollno': '045', 'Name': 'Bhanu', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '032', 'Name': 'Jyothika Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Delhi']
# Erstellen Sie den Datenrahmen
df2 = spark_app.erstellteataframe (Studenten2)
# Union () durchführen
df.Union (DF2).zeigen()

Ausgang:

Pyspark - Unionall () Funktion

Die Funktion "UnionAll () wird Zeilen von einem oder mehreren Datenrahmen zu First DataFrame hinzufügen. Wir sehen.

Syntax:

First_dataframe.Unionall (Second_dataframe)

Wo:

  1. First_Dataframe ist der erste Eingabedatenfreame.
  2. Second_dataframe ist der zweite Eingabedatenfreame.

Beispiel:

In diesem Beispiel wenden wir die Funktion von Unionall () an, um den zweiten Datenrahmen an den ersten Datenrahmen anzuhängen. Schließlich zeigen wir den DataFrame mithilfe der Show (show () -Methode an.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten2 = ['Rollno': '056', 'Name': 'Vinay', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Tamilnadu',
'Rollno': '045', 'Name': 'Bhanu', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '032', 'Name': 'Jyothika Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Delhi']
# Erstellen Sie den Datenrahmen
df2 = spark_app.erstellteataframe (Studenten2)
# Unionall durchführen ()
df.Unionall (DF2).zeigen()

Ausgang:

Abschluss

In diesem Artikel können wir zwei oder mehr Datenrahmen mit den Methoden Union () und Unionall () anhängen. Die Funktionalität beider Methoden ist gleich und wird mit Beispielen erörtert, die zur Verfügung gestellt werden. Wir hoffen, Sie haben diesen Artikel hilfreich gefunden. Weitere Linux -Hinweisartikel für Tipps und Tutorials finden Sie in Bezug auf Linux -Hinweise.