Installieren Sie Apache Spark auf Ubuntu

Installieren Sie Apache Spark auf Ubuntu
Apache-Spark ist ein Open-Source-Framework für die Big-Data-Verarbeitung, die von professionellen Datenwissenschaftlern und Ingenieuren verwendet wird. Da die Verarbeitung großer Datenmengen schnell verarbeitet werden muss, muss dies effizient sein, um dies zu tun. Spark verwendet DAG Scheduler, Speicher -Caching und Abfrageausführung, um die Daten so schnell wie möglich und damit für große Datenhandlungen zu verarbeiten.

Die Datenstruktur von Spark basiert auf RDD (Akronym für widerstandsfähige verteilte Datensatz). RDD besteht aus unveränderlicher verteilter Sammlung von Objekten; Diese Datensätze können jede Art von Objekten enthalten, die sich auf Python, Java, Scala beziehen, und können auch die benutzerdefinierten Klassen enthalten. Die breite Verwendung von Apache-Spark ist auf seinen Arbeitsmechanismus zurückzuführen, der folgt:

Der Apache -Spark funktioniert auf Master- und Sklavenphänomenen; Nach diesem Muster ist ein zentraler Koordinator in Spark als "bekannt als"Treiber”(Fungiert als Meister) und seine verteilten Arbeiter werden als„ Executors “bezeichnet (fungiert als Sklave). Und die dritte Hauptkomponente von Spark ist “Cluster -Manager”; Wie der Name angibt, ist es ein Manager, der Executoren und Treiber verwaltet. Die Testamentsvollstrecker werden von “gestartet“Cluster -ManagerUnd in einigen Fällen werden die Fahrer auch von diesem Manager von Spark gestartet. Schließlich ist der integrierte Manager von Spark für die Einführung einer Spark-Anwendung auf den Maschinen verantwortlich: Apache-Spark besteht aus einer Reihe bemerkenswerter Funktionen, die hier diskutiert werden müssen, um die Tatsache hervorzuheben, warum sie in großer Datenverarbeitung verwendet werden? Die Merkmale des Apache-Sparks werden also nachstehend beschrieben:

Merkmale

Hier sind einige charakteristische Funktionen, die den Apache-Spark zu einer besseren Wahl machen als seine Konkurrenten:

Geschwindigkeit: Wie oben erläutert, verwendet es DAG Scheduler (plant die Jobs und bestimmt den geeigneten Standort für jede Aufgabe), Abfragebereich und unterstützende Bibliotheken, um jede Aufgabe effektiv und schnell auszuführen.

Mehrsprachenunterstützung: Die Multisprach-Funktion von Apache-Spark ermöglicht es den Entwicklern, Anwendungen basierend auf Java, Python, R und Scala zu erstellen.

Echtzeitverarbeitung: Anstatt gespeicherte Daten zu verarbeiten, können Benutzer die Verarbeitung von Ergebnissen durch Echtzeitverarbeitung von Daten erhalten und daher sofortige Ergebnisse erzielt.

Bessere Analytik: Für Analytics verwendet Spark eine Vielzahl von Bibliotheken, um Analysen wie Algorithmen für maschinelles Lernen, SQL -Abfragen usw. bereitzustellen. Sein Konkurrent Apache-Mapreduce verwendet jedoch nur MAP und reduziert Funktionen, um Analysen bereitzustellen. Diese analytische Differenzierung zeigt auch an, warum Spark MapReduce übertrifft.

Fokussierung der Bedeutung und erstaunlichen Merkmale von Apache Spark; Unser heutiges Schreiben wird den Weg für Sie ebnen, Apache Spark auf Ihrem Ubuntu zu installieren

So installieren Sie Apache Spark auf Ubuntu

In diesem Abschnitt werden Sie Apache Spark auf Ubuntu installieren:

Schritt 1: Aktualisieren Sie das System und installieren Sie Java

Bevor Sie Einblick in den Kernteil der Installation erhalten; Aktualisieren wir das System, indem Sie den unten genannten Befehl verwenden:

$ sudo APT Update

Nach dem Update installiert der unten geschriebene Befehl Java-Umgebung als Apache-Spark eine Java-basierte Anwendung:

$ sudo apt installieren Standard-JDK

Schritt 2: Laden Sie die Apache -Spark -Datei herunter und extrahieren Sie

Sobald die Java erfolgreich installiert ist, können Sie die Apache -Spark -Datei aus dem Web herunterladen. Der folgende Befehl wird die neuesten 3 herunterladen.0.3 Build von Funken:

$ wget https: // archiv.Apache.org/dist/spark/spark-3.0.3/Spark-3.0.3-bin-hadoop2.7.TGZ

Sie müssen die heruntergeladene Datei so extrahieren. Der folgende Befehl führt die Extraktion (in meinem Fall) aus:

$ tar xvf spark-3.0.3-bin-hadoop2.7.TGZ

Danach bewegen Sie den extrahierten Ordner auf „//opt/”Verzeichnis durch Befolgen des folgenden Befehls:

$ sudo MV Spark-3.0.3-bin-hadoop2.7//opt/Spark

Sobald Sie die oben genannten Prozesse abgeschlossen haben, bedeutet dies, dass Sie den Apache -Spark herunterladen, aber warten. Es funktioniert erst, wenn Sie die Spark -Umgebung konfigurieren. Die kommenden Abschnitte führen Sie zur Konfiguration und Verwendung von Spark:

So konfigurieren Sie die Spark -Umgebung

Hierzu müssen Sie einige Umgebungsvariablen in der Konfigurationsdatei einstellen “~/.Profil”;

Greifen Sie mit Ihrem Editor (NANO in meinem Fall) auf diese Datei zu. Der unten geschriebene Befehl öffnet diese Datei im Nano -Editor:

$ sudo nano ~/.Profil

Und schreiben Sie die folgenden Zeilen am Ende dieser Datei; Sobald Sie fertig sind, drücken Sie “Strg+s”Um die Datei zu speichern:

Export Spark_Home =/opt/Spark
Exportpfad = $ Pfad: $ spark_home/bin: $ spark_home/sbin
exportieren pyspark_python =/usr/bin/python3

Laden Sie die Datei, um die Änderungen für die Spark -Umgebung zu erhalten:

$ source ~/.Profil

So starten Sie den eigenständigen Master -Server von Spark

Sobald die Umgebungsvariablen festgelegt sind; Jetzt können Sie den Prozess für den Standalone Master Server starten, indem Sie den unten geschriebenen Befehl verwenden:

$ Start-Master.Sch

Sobald Sie den Prozess gestartet haben; Die Weboberfläche des Master -Servers kann unter Verwendung der unten genannten Adresse abgerufen werden. Schreiben Sie die folgende Adresse in Ihre Browser -Adressleiste

https: // localhost: 8080/

So starten Sie den Sklaven-/Arbeiter -Server von Spark

Der Slave -Server kann mit dem unten angegebenen Befehl gestartet werden: Es wird festgestellt, dass Sie eine URL von Master Server benötigen, um Worker zu starten:

$ start-slave.SH Spark: // Adnan: 7077

Sobald Sie angefangen haben; die Adresse ausführen (https: // localhost: 8080) Und Sie werden feststellen, dass ein Arbeiter hinzugefügt wird “Arbeitskräfte" Abschnitt. Es ist zu bemerken, dass der Arbeiter „1“ -Kern des Prozessors und 3 verwendet.3 GB RAM standardmäßig:

Zum Beispiel werden wir die Anzahl der Kerne der Arbeiter einschränken, indem wir das „-c“ -Flag verwenden: Zum Beispiel startet der unten erwähnte Befehl einen Server mit „0“ -Kerne der Prozessorennutzung:

$ start-slave.sh -c 0 Spark: // adnan: 7077

Sie können die Änderungen sehen, indem Sie die Seite neu laden ((https: // localhost: 8080/):

Darüber hinaus können Sie den Speicher der neuen Arbeiter auch durch die Verwendung “einschränken“-MFlag: Der unten geschriebene Befehl startet einen Sklaven mit Speicherverbrauch von 256 MB:

$ start-slave.SH -M 256m Spark: // Adnan: 7077

Der hinzugefügte Arbeiter mit begrenztem Speicher ist auf der Webschnittstelle sichtbar (https: // localhost: 8080/):

So starten/stoppen Sie Master und Sklave

Sie können gleichzeitig den unten genannten Befehl anhalten oder stern

$ start-alle.Sch

In ähnlicher Weise stoppt der unten angegebene Befehl alle Instanzen auf einmal:

$ stop-alle.Sch

Verwenden Sie die folgenden Befehle, um nur die Master -Instanz zu starten und zu stoppen:

$ Start-Master.Sch

Und um den laufenden Master zu stoppen:

$ Stop-Master.Sch

Wie man Spark Shell betreibt

Sobald Sie mit der Konfiguration der Spark -Umgebung fertig sind; Sie können den unten genannten Befehl verwenden, um die Spark Shell auszuführen. Auf diese Weise wird es auch getestet:

$ Spark-Shell

Wie man Python in Spark Shell betreibt

Wenn die Spark -Shell auf Ihrem System ausgeführt wird, können Sie Python in dieser Umgebung ausführen. Führen Sie den folgenden Befehl aus, um dies zu erhalten:

$ pyspark

Notiz: Der obige Befehl funktioniert nicht, wenn Sie mit Scala (Standardsprache in Spark Shell) arbeiten Q"Und drücken"Eingeben"Oder einfach drücken"Strg+c”.

Abschluss

Apache Spark ist eine Open-Source Unified Analytics Engine, die für die Big-Data-Verarbeitung mit mehreren Bibliotheken verwendet wird und hauptsächlich von Dateningenieuren und anderen verwendet wird, die an großen Datenmengen arbeiten müssen. In diesem Artikel haben wir einen Installationshandbuch für Apache-Spark zur Verfügung gestellt. sowie die Konfiguration der Spark -Umgebung wird ebenfalls ausführlich beschrieben. Das Hinzufügen von Arbeitnehmern mit begrenzten Zahlen oder Kernen und dem festgelegten Speicher wäre hilfreich, um Ressourcen während der Arbeit mit Spark zu sparen.