PYSPARK EINLEITUNG

PYSPARK EINLEITUNG
Die Daten nehmen von Tag zu Tag zu. Wir brauchen eine große Menge an Speicher, um diese Daten zu speichern und zu verarbeiten. Dies sollte effizient und einfach zu verwalten sein. So kam die Big -Data -Technologie durch die Bereitstellung von Funken.

Spark ist ein leistungsstarkes Datenverarbeitungsinstrument, mit dem Daten effektiv und effizient gespeichert und verarbeitet werden. Es wurde vom Apache -Team eingeführt und ist auch als Apache Spark bekannt.

Wir können die Daten in einem tabellarischen Format in Verbindung bringen. Die verwendete Datenstruktur ist also DataFrame. Wie auch immer, Spark wird Java, Scala und Python -Programmiersprachen unterstützen. Wir werden in der Python -Programmiersprache ab sofort Spark verwenden.

Wir können es als pyspark nennen. In Python ist PySpark ein Spark -Modul, das zur Bereitstellung einer ähnlichen Art der Verarbeitung mithilfe von DataFrame verwendet wird.

Installation

Wir müssen jedoch nur PYSPark in unserem System installieren. Um ein Modul zu installieren, müssen wir den PIP -Befehl in Python verwenden. Und die Syntax ist wie folgt.

Syntax:

PIP Installieren Sie PYSPARK

Bevor wir diesen PYSPark verwenden, müssen wir dieses Modul in unserem Org importieren, und für unsere Daten benötigen wir eine Spark -App. Importieren wir dieses Modul und erstellen Sie eine App.

Wir können eine App mit SparkSession erstellen, indem wir diese Klasse aus dem PySpark importieren.SQL -Modul.

Dies erstellt eine Sitzung für unsere App.

Erstellen Sie nun die Spark App aus dieser Sitzung. Wir können die Spark -App mit der Methode von GetorCreate () erstellen

Syntax:

Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()

Es ist Zeit, eine hervorragende Datenstruktur zu erstellen.

In PySpark können wir mit der Methode "CreatedAtaframe () einen Datenrahmen aus der Spark -App erstellen

Syntax:

Spark_App.createdataframe (input_data, Spalten)

Wobei input_data möglicherweise ein Wörterbuch oder eine Liste aus diesen Daten erstellt wird, und wenn die input_data eine Liste von Wörterbüchern ist, sind die Spalten nicht erforderlich. Wenn es sich um eine verschachtelte Liste handelt, müssen wir die Spaltennamen angeben.

Erstellen wir den PYSPARK -Datenframe

Code:

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame
df.zeigen()

Ausgang

Im obigen Code haben wir das Wörterbuch mit 5 Zeilen und 6 Spalten erstellt und dieses Wörterbuch an die Methode "CreatedAtaframe () übergeben, um den Datenrahmen zu generieren. Schließlich zeigen wir den DataFrame mit der Show (show () -Methode an. Diese Methode zeigt den DataFrame in einem tabellarischen Format an.

Zeigen wir die Spalten im PYSPARK -Datenframe an.

Wir können die Spaltennamen in einem Listenformat mit der Spaltenmethode abrufen.

Syntax:

Datenrahmen.Säulen

Beispiel 2:

#Amportieren Sie das PySpAPRK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
Studenten = ['Rollno': '001', 'Name': 'Sravan', 'Alter': 23, 'Höhe': 5.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.Createdataframe (Studenten)
# DataFrame -Spalten
df.Säulen

Ausgang:

["Adresse", "Alter", "Höhe", "Name", "Rollno", "Gewicht"]

Abschluss

In diesem Artikel haben wir darüber diskutiert, wie man PYSPARK -Datenframe zusammen mit der Installation erstellt und wie wir die Spalten im DataFrame erhalten können. Und wir haben die Methode show () verwendet, um den DataFrame im tabellarischen Format anzuzeigen.