So installieren und konfigurieren Sie Apache Hadoop auf Ubuntu

So installieren und konfigurieren Sie Apache Hadoop auf Ubuntu
Apache Hadoop ist eine java-basierte Open-Source-Softwareplattform für freie Software zum Speichern und Analysieren großer Datensätze auf Ihren Systemclustern. Es hält seine Daten im Hadoop Distributed Dateisystem (HDFS) und verarbeitet sie mit MapReduce. Hadoop wurde für maschinelles Lernen und Data Mining -Techniken verwendet. Es wird auch zum Verwalten mehrerer dedizierter Server verwendet.

Die Hauptkomponenten von Apache Hadoop sind:

  • HDFS: In Apache Hadoop ist HDFS ein Dateisystem, das über zahlreiche Knoten verteilt ist.
  • Karte verkleinern: Es ist ein Rahmen für die Entwicklung von Anwendungen, die eine massive Datenmenge verarbeiten.
  • Hadoop Common: Es ist eine Reihe von Bibliotheken und Versorgungsunternehmen, die von Hadoop -Modulen benötigt werden.
  • Hadoop -Garn: In Hadoop verwaltet Hadoop Yarn die Ressourcenschichten.

Schauen Sie sich nun die folgenden Methoden für an Installieren und Konfigurieren von Apache Hadoop in Ihrem Ubuntu -System. So lass uns anfangen!

So installieren Sie Apache Hadoop auf Ubuntu

Zunächst werden wir unser Ubuntu -Terminal durch Drücken öffnenStrg+Alt+t"Sie können auch tippen"TerminalIn der Suchleiste der Anwendung wie folgt:

Der nächste Schritt besteht darin, die Systemrepositories zu aktualisieren:

$ sudo APT Update

Jetzt werden wir installieren Java Auf unserem Ubuntu -System, indem Sie den folgenden Befehl im Terminal schreiben:

$ sudo apt installieren openjdk-11-jdk

Eingeben "y/y”Um den Installationsprozess fortzusetzen, um fortzufahren:

Überprüfen Sie nun die Existenz des installierten Java, indem Sie seine Version überprüfen:

$ Java -Version

Wir erstellen einen separaten Benutzer, um Apache Hadoop auf unserem System auszuführen, indem wir die “verwendenBenutzer hinzufügen" Befehl:

$ sudo adduser hadoopuser

Geben Sie das Passwort des neuen Benutzers, seinen vollständigen Namen und andere Informationen ein. Typ "y/yUm zu bestätigen, dass die bereitgestellten Informationen korrekt sind:

Es ist Zeit, den aktuellen Benutzer mit dem erstellten Hadoop -Benutzer zu wechseln, der istHadoopuser" in unserem Fall:

$ su - Hadoopuser

Verwenden Sie nun den folgenden Befehl zum Generieren privater und öffentlicher Schlüsselpaare:

$ ssh -keygen -t RSA

Geben Sie die Dateiadresse ein, an der Sie das Schlüsselpaar speichern möchten. Fügen Sie danach eine Passphrase hinzu, die Sie im gesamten Setup des Hadoop -Benutzers verwendet werden:

Fügen Sie diese Schlüsselpaare als nächstes dem ssh autorized_keys hinzu:

bei ~/.ssh/id_rsa.Pub >> ~//.ssh/autorized_keys

Da wir das generierte Schlüsselpaar im SSH -autorisierten Schlüssel gespeichert haben, ändern wir jetzt die Dateiberechtigungen auf “640"Was bedeutet, dass nur wir als das"Eigentümer"Der Datei wird die Les- und Schreibberechtigungen haben"Gruppen”Wird nur die Read -Erlaubnis haben. Es wird keine Erlaubnis erteilt “andere Benutzer”:

$ chmod 640 ~/.ssh/autorized_keys

Authentifizieren Sie nun den Localhost, indem Sie den folgenden Befehl schreiben:

$ ssh localhost

Verwenden Sie das untergegebene wget Befehl zur Installation des Hadoop -Frameworks für Ihr System:

$ wget https: // downloads.Apache.org/hadoop/Common/Hadoop-3.3.0/Hadoop-3.3.0.Teer.gz

Extrahieren Sie den heruntergeladenen “Hadoop-3.3.0.Teer.gzDatei mit dem TAR -Befehl:

$ tar -xvzf hadoop -3.3.0.Teer.gz

Sie können das extrahierte Verzeichnis auch umbenennen, wie wir es tun werden, indem Sie den folgenden Befehl ausführen:

$ MV Hadoop-3.3.0 Hadoop

Konfigurieren Sie nun Java -Umgebungsvariablen zum Einrichten von Hadoop. Dafür werden wir uns über den Standort unserer ansehen. “Java_Home”Variable:

$ dirname $ (Dirname $ (Readlink -f $ (was Java)))

Öffne das "~/.bashrc"Datei in Ihrem"NanoTexteditor:

$ nano ~/.bashrc

Fügen Sie die folgenden Pfade in die geöffneten hinzu “~/.bashrc" Datei:

Exportieren Sie java_home =/usr/lib/jvm/java-11-openjdk-amd64
Export Hadoop_home =/home/hadoopuser/hadoop
Export hadoop_install = $ hadoop_home
Exportieren Sie Hadoop_Mapred_Home = $ hadoop_home
Exportieren Sie Hadoop_Common_Home = $ hadoop_home
Exportieren Sie Hadoop_hdfs_home = $ hadoop_home
Exportieren Sie Hadoop_yarn_home = $ hadoop_home
Exportieren Sie Hadoop_Common_Lib_Native_dir = $ Hadoop_Home/lib/nativ
Exportpfad = $ Path: $ Hadoop_Home/SBIN: $ Hadoop_Home/bin
Exportieren Sie Hadoop_opts = "-Djava.Bibliothek.path = $ hadoop_home/lib/native "

Danach drücken Sie “Strg+oUm die in der Datei vorgenommenen Änderungen zu speichern:

Schreiben Sie nun den folgenden Befehl auf, um die “zu aktivieren“Java_Home" Umgebungsvariable:

$ source ~/.bashrc

Das nächste, was wir tun müssen, ist, die Umgebungsvariablendatei von Hadoop zu öffnen:

$ nano $ hadoop_home/etc/hadoop/hadoop-env.Sch

Wir müssen unsere festlegen “Java_Home”Variable in der Hadoop -Umgebung:

Exportieren Sie java_home =/usr/lib/jvm/java-11-openjdk-amd64

Wieder drücken Sie “Strg+oUm den Dateiinhalt zu speichern:

So konfigurieren Sie Apache Hadoop auf Ubuntu

Bis zu diesem Zeitpunkt haben wir Java und Hadoop erfolgreich installiert, Hadoop-Benutzer erstellt, die SSH-basierte Authentifizierung konfiguriert. Jetzt werden wir vorwärts gehen, um es Ihnen zu zeigen So konfigurieren Sie Apache Hadoop am Ubuntu System. Dafür besteht der Schritt darin, zwei Verzeichnisse zu erstellen: Datanode Und Namenode, im Heimverzeichnis von Hadoop:

$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/datanode

Wir werden die Hadoop aktualisieren “Kernstelle.xmlDatei, indem Sie unseren Hostnamen hinzufügen, bestätigen Sie also zunächst Ihren System -Hostnamen, indem Sie diesen Befehl ausführen:

$ hostname

Öffnen Sie jetzt die “Kernstelle.xml"Datei in Ihrem"Nano" Editor:

$ nano $ hadoop_home/etc/hadoop/core-Site.xml

Unser System Hostname in “LinuxHint-Vbox”, Sie können die folgenden Zeilen mit dem Hostnamen des Systems in der geöffneten„ Core-Site “hinzufügen.XML ”Hadoop -Datei:



fs.Standard
HDFS: // Hadoop.LinuxHint-Vbox.com: 9000

Drücken Sie "Strg+oUnd speichern Sie die Datei:

Im "HDFS-Site.xml"Datei, wir werden den Verzeichnispfad von" ändern "Datanode" Und "Namenode”:

$ nano $ hadoop_home/etc/Hadoop/HDFS-Site.xml


DFS.Reproduzieren
1


DFS.Name.Dir
Datei: /// home/hadoopuser/hadoopdata/hdfs/namenode


DFS.Daten.Dir
Datei: /// home/hadoopuser/hadoopdata/hdfs/datanode

Drücken Sie erneut den hinzugefügten Code in der Datei, um den hinzugefügten Code aufzuschreiben. “Crtl+o”:

Als nächstes öffnen Sie die “Mapred-Site.xmlDatei und fügen Sie den untergegebenen Code hinzu:

$ nano $ hadoop_home/etc/hadoop/mapred-site.xml


Karte verkleinern.Rahmen.Name
Garn

Drücken Sie "Strg+oUm die Änderungen in der Datei zu speichern:

Die letzte Datei, die aktualisiert werden muss, ist die “ist die“Garnstelle.xml”. Öffnen Sie diese Hadoop -Datei in der “Nano" Editor:

$ nano $ hadoop_home/etc/hadoop/arnseitenstelle.xml

Schreiben Sie untergegebene Zeilen auf “Garnstelle.xml" Datei:



Garn.NodeManager.Aux-Services
MAPREDUCE_SHUFFE

Wir müssen den Hadoop -Cluster starten, um Hadoop zu betreiben. Dafür werden wir unsere formatieren “Namenode" Erste:

$ hdfs namenode -format

Beginnen Sie nun den Hadoop-Cluster, indem Sie den folgenden Befehl in Ihrem Terminal schreiben:

$ start-dfs.Sch

Beim Starten des Hadoop -Clusters, wenn Sie das erhalten,Könnte Hostname -Fehler beheben”, Dann müssen Sie den Hostnamen in der“ angeben/etc/host" Datei:

$ sudo nano /etc /hosts

Speichern Sie die "/etc/hostDatei, und jetzt sind Sie alle bereit, den Hadoop -Cluster zu starten:

$ start-dfs.Sch

Im nächsten Schritt werden wir mit dem "beginnen"Garn”Service des Hadoop:

$ start marn.Sch

Die Ausführung des oben gegebenen Befehls zeigt Ihnen die folgende Ausgabe an:

Um den Status aller Dienste von Hadoop zu überprüfen, führen Sie die “durch, um die“ auszuführenJPSBefehl in Ihrem Terminal:

$ JPS

Die Ausgabe zeigt, dass alle Dienste erfolgreich ausgeführt werden:

Hadoop hört am Hafen zu 8088 Und 9870, Sie müssen diese Ports also über die Firewall erlauben:

$ Firewall-CMD-Permanent --add-Port = 9870/TCP
$ firewall-cmd --permanent --add-port = 8088/tcp

Laden Sie nun die Firewall -Einstellungen neu:

$ Firewall-CMD-Relada

Öffnen Sie jetzt Ihren Browser und greifen Sie auf Ihren Hadoop zu “Namenode”Wenn Sie Ihre IP -Adresse mit dem Port eingeben 9870:

Verwenden Sie den Port “8080”Mit Ihrer IP -Adresse, um auf den Hadoop Resource Manager zuzugreifen:

Auf der Hadoop -Weboberfläche können Sie nach dem "suchen" suchenVerzeichnis durchsuchen”, Indem Sie wie folgt die geöffnete Webseite nach unten scrollen:

Hier ging es darum, Apache Hadoop auf dem Ubuntu -System zu installieren und zu konfigurieren. Um den Hadoop -Cluster zu stoppen, müssen Sie die Dienste von “einstellen“Garn" Und "Namenode”:

$ stop-dfs.Sch
$ STOP-MARARN.Sch

Abschluss

Für verschiedene Big Data -Anwendungen, Apache Hadoop ist eine frei verfügbare Plattform zum Verwalten, Speichern und Verarbeiten von Daten, die auf Cluster -Servern arbeiten. Es handelt sich um ein verteiltes Dateisystem für Fehlertoleranz, das eine parallele Verarbeitung ermöglicht. In Hadoop wird das MapReduce -Modell zum Speichern und Extrahieren von Daten aus seinen Knoten verwendet. In diesem Artikel haben wir Ihnen die Methode gezeigt Zur Installation und Konfiguration von Apache Hadoop in Ihrem Ubuntu -System.