Die Datenstruktur von Spark basiert auf RDD (Akronym für widerstandsfähige verteilte Datensatz). RDD besteht aus unveränderlicher verteilter Sammlung von Objekten; Diese Datensätze können jede Art von Objekten enthalten, die sich auf Python, Java, Scala beziehen, und können auch die benutzerdefinierten Klassen enthalten. Die breite Verwendung von Apache-Spark ist auf seinen Arbeitsmechanismus zurückzuführen, der folgt:
Der Apache -Spark funktioniert auf Master- und Sklavenphänomenen; Nach diesem Muster ist ein zentraler Koordinator in Spark als "bekannt als"Treiber”(Fungiert als Meister) und seine verteilten Arbeiter werden als„ Executors “bezeichnet (fungiert als Sklave). Und die dritte Hauptkomponente von Spark ist “Cluster -Manager”; Wie der Name angibt, ist es ein Manager, der Executoren und Treiber verwaltet. Die Testamentsvollstrecker werden von “gestartet“Cluster -ManagerUnd in einigen Fällen werden die Fahrer auch von diesem Manager von Spark gestartet. Schließlich ist der integrierte Manager von Spark für die Einführung einer Spark-Anwendung auf den Maschinen verantwortlich: Apache-Spark besteht aus einer Reihe bemerkenswerter Funktionen, die hier diskutiert werden müssen, um die Tatsache hervorzuheben, warum sie in großer Datenverarbeitung verwendet werden? Die Merkmale des Apache-Sparks werden also nachstehend beschrieben:
Merkmale
Hier sind einige charakteristische Funktionen, die den Apache-Spark zu einer besseren Wahl machen als seine Konkurrenten:
Geschwindigkeit: Wie oben erläutert, verwendet es DAG Scheduler (plant die Jobs und bestimmt den geeigneten Standort für jede Aufgabe), Abfragebereich und unterstützende Bibliotheken, um jede Aufgabe effektiv und schnell auszuführen.
Mehrsprachenunterstützung: Die Multisprach-Funktion von Apache-Spark ermöglicht es den Entwicklern, Anwendungen basierend auf Java, Python, R und Scala zu erstellen.
Echtzeitverarbeitung: Anstatt gespeicherte Daten zu verarbeiten, können Benutzer die Verarbeitung von Ergebnissen durch Echtzeitverarbeitung von Daten erhalten und daher sofortige Ergebnisse erzielt.
Bessere Analytik: Für Analytics verwendet Spark eine Vielzahl von Bibliotheken, um Analysen wie Algorithmen für maschinelles Lernen, SQL -Abfragen usw. bereitzustellen. Sein Konkurrent Apache-Mapreduce verwendet jedoch nur MAP und reduziert Funktionen, um Analysen bereitzustellen. Diese analytische Differenzierung zeigt auch an, warum Spark MapReduce übertrifft.
Fokussierung der Bedeutung und erstaunlichen Merkmale von Apache Spark; Unser heutiges Schreiben wird den Weg für Sie ebnen, Apache Spark auf Ihrem Ubuntu zu installieren
So installieren Sie Apache Spark auf Ubuntu
In diesem Abschnitt werden Sie Apache Spark auf Ubuntu installieren:
Schritt 1: Aktualisieren Sie das System und installieren Sie Java
Bevor Sie Einblick in den Kernteil der Installation erhalten; Aktualisieren wir das System, indem Sie den unten genannten Befehl verwenden:
$ sudo APT Update
Nach dem Update installiert der unten geschriebene Befehl Java-Umgebung als Apache-Spark eine Java-basierte Anwendung:
$ sudo apt installieren Standard-JDK
Schritt 2: Laden Sie die Apache -Spark -Datei herunter und extrahieren Sie
Sobald die Java erfolgreich installiert ist, können Sie die Apache -Spark -Datei aus dem Web herunterladen. Der folgende Befehl wird die neuesten 3 herunterladen.0.3 Build von Funken:
$ wget https: // archiv.Apache.org/dist/spark/spark-3.0.3/Spark-3.0.3-bin-hadoop2.7.TGZ
Sie müssen die heruntergeladene Datei so extrahieren. Der folgende Befehl führt die Extraktion (in meinem Fall) aus:
$ tar xvf spark-3.0.3-bin-hadoop2.7.TGZ
Danach bewegen Sie den extrahierten Ordner auf „//opt/”Verzeichnis durch Befolgen des folgenden Befehls:
$ sudo MV Spark-3.0.3-bin-hadoop2.7//opt/Spark
Sobald Sie die oben genannten Prozesse abgeschlossen haben, bedeutet dies, dass Sie den Apache -Spark herunterladen, aber warten. Es funktioniert erst, wenn Sie die Spark -Umgebung konfigurieren. Die kommenden Abschnitte führen Sie zur Konfiguration und Verwendung von Spark:
So konfigurieren Sie die Spark -Umgebung
Hierzu müssen Sie einige Umgebungsvariablen in der Konfigurationsdatei einstellen “~/.Profil”;
Greifen Sie mit Ihrem Editor (NANO in meinem Fall) auf diese Datei zu. Der unten geschriebene Befehl öffnet diese Datei im Nano -Editor:
$ sudo nano ~/.Profil
Und schreiben Sie die folgenden Zeilen am Ende dieser Datei; Sobald Sie fertig sind, drücken Sie “Strg+s”Um die Datei zu speichern:
Export Spark_Home =/opt/Spark
Exportpfad = $ Pfad: $ spark_home/bin: $ spark_home/sbin
exportieren pyspark_python =/usr/bin/python3
Laden Sie die Datei, um die Änderungen für die Spark -Umgebung zu erhalten:
$ source ~/.Profil
So starten Sie den eigenständigen Master -Server von Spark
Sobald die Umgebungsvariablen festgelegt sind; Jetzt können Sie den Prozess für den Standalone Master Server starten, indem Sie den unten geschriebenen Befehl verwenden:
$ Start-Master.Sch
Sobald Sie den Prozess gestartet haben; Die Weboberfläche des Master -Servers kann unter Verwendung der unten genannten Adresse abgerufen werden. Schreiben Sie die folgende Adresse in Ihre Browser -Adressleiste
https: // localhost: 8080/
So starten Sie den Sklaven-/Arbeiter -Server von Spark
Der Slave -Server kann mit dem unten angegebenen Befehl gestartet werden: Es wird festgestellt, dass Sie eine URL von Master Server benötigen, um Worker zu starten:
$ start-slave.SH Spark: // Adnan: 7077
Sobald Sie angefangen haben; die Adresse ausführen (https: // localhost: 8080) Und Sie werden feststellen, dass ein Arbeiter hinzugefügt wird “Arbeitskräfte" Abschnitt. Es ist zu bemerken, dass der Arbeiter „1“ -Kern des Prozessors und 3 verwendet.3 GB RAM standardmäßig:
Zum Beispiel werden wir die Anzahl der Kerne der Arbeiter einschränken, indem wir das „-c“ -Flag verwenden: Zum Beispiel startet der unten erwähnte Befehl einen Server mit „0“ -Kerne der Prozessorennutzung:
$ start-slave.sh -c 0 Spark: // adnan: 7077
Sie können die Änderungen sehen, indem Sie die Seite neu laden ((https: // localhost: 8080/):
Darüber hinaus können Sie den Speicher der neuen Arbeiter auch durch die Verwendung “einschränken“-MFlag: Der unten geschriebene Befehl startet einen Sklaven mit Speicherverbrauch von 256 MB:
$ start-slave.SH -M 256m Spark: // Adnan: 7077
Der hinzugefügte Arbeiter mit begrenztem Speicher ist auf der Webschnittstelle sichtbar (https: // localhost: 8080/):
So starten/stoppen Sie Master und Sklave
Sie können gleichzeitig den unten genannten Befehl anhalten oder stern
$ start-alle.Sch
In ähnlicher Weise stoppt der unten angegebene Befehl alle Instanzen auf einmal:
$ stop-alle.Sch
Verwenden Sie die folgenden Befehle, um nur die Master -Instanz zu starten und zu stoppen:
$ Start-Master.Sch
Und um den laufenden Master zu stoppen:
$ Stop-Master.Sch
Wie man Spark Shell betreibt
Sobald Sie mit der Konfiguration der Spark -Umgebung fertig sind; Sie können den unten genannten Befehl verwenden, um die Spark Shell auszuführen. Auf diese Weise wird es auch getestet:
$ Spark-Shell
Wie man Python in Spark Shell betreibt
Wenn die Spark -Shell auf Ihrem System ausgeführt wird, können Sie Python in dieser Umgebung ausführen. Führen Sie den folgenden Befehl aus, um dies zu erhalten:
$ pyspark
Notiz: Der obige Befehl funktioniert nicht, wenn Sie mit Scala (Standardsprache in Spark Shell) arbeiten Q"Und drücken"Eingeben"Oder einfach drücken"Strg+c”.
Abschluss
Apache Spark ist eine Open-Source Unified Analytics Engine, die für die Big-Data-Verarbeitung mit mehreren Bibliotheken verwendet wird und hauptsächlich von Dateningenieuren und anderen verwendet wird, die an großen Datenmengen arbeiten müssen. In diesem Artikel haben wir einen Installationshandbuch für Apache-Spark zur Verfügung gestellt. sowie die Konfiguration der Spark -Umgebung wird ebenfalls ausführlich beschrieben. Das Hinzufügen von Arbeitnehmern mit begrenzten Zahlen oder Kernen und dem festgelegten Speicher wäre hilfreich, um Ressourcen während der Arbeit mit Spark zu sparen.