So installieren und verwenden Sie Apache Mahout unter Linux

So installieren und verwenden Sie Apache Mahout unter Linux

Mahout ist ein Open-Source-Projekt der Apache Software Foundation. Es wird zur Erstellung von Algorithmen und statistischen oder mathematischen Analysen für maschinelles Lernen verwendet. Mahout kann aufgrund seines verteilten Computeransatzes für solche Probleme ziemlich große Data -Mining- und maschinelle Lernaufgaben übernehmen. Mit Hadoop im Hintergrund kann Mahout die großen Data -Mining -Aufgaben in kleinere Unteraufgaben teilen, die dann parallel auf verschiedenen Fällen ausgeführt werden sollen. Dies ermöglicht dem Benutzer, eine komplexe Aufgabe relativ schnell zu erfüllen, indem sie sie in kleinere Aufgaben aufteilt und sie alle in verschiedenen Instanzen der Anwendung mithilfe der Cloud -Infrastruktur zusammenführen.

Mahout bietet seinen Benutzern eine Reihe verschiedener Funktionen. Dazu gehören Techniken im Zusammenhang mit maschinellem Lernen und Datenanalysen, von denen einige sind Empfehlung Modelle, Einstufung Techniken und Clustering Modelle. Da es auf Hadoop aufgebaut ist, ermöglicht es den Benutzern, das verteilte Cloud -Computing von Hadoop zu nutzen. Mahout arbeitet nahtlos neben Hadoop und kann große Data Mining- und Analytics -Aufgaben sehr schnell erledigen, was es zu einer der besten Lösungen für große Data Mining -Probleme macht.

Installation

Benutzen Mahout, Sie brauchen zuerst die Java (JDK) Version 1.7, Maven Version 3.0 oder höher und Subversion. Ohne diese drei Abhängigkeiten funktioniert Apache Mahout nicht auf Ihrem Linux -Computer.

Java JDK -Installation

1. Gehen Sie zur Seite Java Downloads, indem Sie auf diesen Link klicken.

2. Wählen Sie den Linux X64: JDK-7U45-Linux-X64.Teer.GZ, akzeptieren Sie die Lizenzbegriffe und laden Sie die Datei herunter.

3. Gehen Sie zum Verzeichnis, in dem Sie die Datei heruntergeladen haben, und öffnen Sie das Terminal hier.


Führen Sie den folgenden Befehl aus:

$ sudo cp jdk-7u45-linux-x64.Teer.gz/usr/local/lib/

Dies kopiert den extrahierten Ordner in /usr/local/lib/.

4. Bewegen in die /usr/local/lib/ Ordner durch Ausführen des folgenden Befehls:

$ cd/usr/local/lib/

5. Führen Sie den folgenden Befehl im Terminal aus, um den Inhalt des komprimierten Ordners zu extrahieren:

$ sudo tar -xzvf jdk-7u45-linux-x64.Teer.gz


6. Entfernen Sie die komprimierte Datei, die wir gerade extrahiert haben:

$ sudo rm jdk-7u45-linux-x64.Teer.gz

7. Bewegen Sie sich in Ihre Home/Benutzername/ Durch Ausführen des folgenden Befehls:

$ cd /home //

8. Fügen Sie das Java -Haus zum Pfad hinzu, indem Sie die folgenden Schritte ausführen:

Führen Sie den folgenden Befehl aus:

$ nano .Profil

Fügen Sie die folgenden zwei Zeilen am Ende des Profil dass wir gerade geöffnet haben.

Exportieren Sie java_home = "/usr/local/lib/jdk1.7.0_45 "
Export Path = "$ java_home/bin: $ path"


Maven -Installation

1. Mit einem jetzt installierten Java -JDK installieren wir jetzt Maven, was die zweite Anforderung ist, die auszuführen Mahout.

Führen Sie den folgenden Befehl im Terminal aus:

$ sudo apt-Get Installieren Sie Maven

Sie sollten eine Ausgabe sehen, die der folgenden Abbildung ähnelt:

Um zu überprüfen, ob Maven erfolgreich auf Ihrem Computer installiert wurde, führen Sie den folgenden Befehl im Terminal aus:

$ mvn -v



Subversion Installation

1. Wenn Maven jetzt erfolgreich installiert ist, installieren wir jetzt die Subversion. Die Subversion ist ein frei von Software Revision Control System verwendet. Es ermöglicht den Benutzern, verschiedene Versionen von Quellcode auf ihren Maschinen zu verfolgen.

Führen Sie den folgenden Befehl aus:

$ sudo apt-Get Installieren Sie die Subversion

Sie sollten eine ähnliche Ausgabe in Ihrem Terminal sehen:

Führen Sie den folgenden Befehl aus, um zu überprüfen, ob die Subversion erfolgreich installiert wurde:

$ svn -Verssion


2. Mit der jetzt installierten Subversion haben wir alle Abhängigkeiten für erfolgreich installiert Mahout.

Wir werden nun Mahout herunterladen und installieren.

Gehen Sie zunächst in das Verzeichnis, in dem Sie Mahout installieren möchten.

Führen Sie den folgenden Befehl aus:

$ svn co http: // svn.Apache.org/repos/ASF/Mahout/Trunk

Sie sollten einen ähnlichen Anschlussausgang sehen:

Wir bewegen uns jetzt in die Stamm Verzeichnis:

$ CD -Kofferraum

Führen Sie nun den folgenden Befehl aus:

$ mvn -dskiptests

Sie sollten jetzt Apache Mahout bereit haben, auf Ihrem Linux -Computer zu verwenden.

Benutzerhandbuch

Mahout verwendet eine Programmierschnittstelle, um das Potenzial des Mahout -verteilten Computers freizuschalten. Die Sprache, die verwendet wird, um mit diesem Framework zu interagieren, ist Java.

Mahout ist eine umfassende Lösung für komplexe maschinelle Lern- und Data -Mining -Aufgaben. Da es keine interaktive Benutzeroberfläche bietet, müssen Benutzer die Verwendung der Java -Sprache kennen, um das volle Potenzial dieses Frameworks auszulösen.

Dies bedeutet, dass Mahout nicht von Menschen verwendet werden kann, die Java nicht fließend sprechen. Dies bedeutet jedoch nicht, dass man es nicht versuchen muss. Eine neue Programmiersprache zu lernen ist heute nicht komplex. Mit leicht verfügbaren Ressourcen kann man leicht Java lernen und mit dem Mahout -Framework interagieren, um Algorithmen zu erstellen, die mit großen Datensätzen verwendet werden können, um die Lösungen und Muster für Probleme in einer verteilten Umgebung zu finden.

Abschluss

Es gibt viele Data Mining- und maschinelles Lernrahmen, die heute auf dem Markt verfügbar sind. Mahout von Apache ist eines dieser Frameworks. Mahout ist berühmt dafür, die Verwendung einer verteilten Umgebung mit Hadoop über der Cloud zu ermöglichen, um die komplexen Data -Mining -Aufgaben in kleinere Unteraufnahmen zu unterteilen, die an mehreren Instanzen der Anwendung ausgeführt werden können. Dies führt dazu, dass die größere Aufgabe in kürzerer Zeitspanne erledigt wird, und gleichzeitig die Gesamtbetragsleistung, die für kleinere Einheiten verwendet wird, skaliert.

Mahout wird verwendet, indem der Code in Java geschrieben wird, eine Sprache, die sich durch Überleben der Zeitprüfungen den Namen gemacht hat. Dies macht Java zu einer sehr nützlichen Fähigkeit zu haben. Java zu lernen, um diese von Apache angebotene Funktionalität zu nutzen, ist etwas, das die meisten Datenwissenschaftler irgendwann in ihrer Karriere tun. Während die meisten Fachleute des Data Mining niemals das verteilte Cloud -Computing im Bereich der Datenwissenschaft verwenden müssen, existiert dies jedoch für die geringe Anzahl von Aufgaben, die eine skalierbare verteilte Lösung erfordern.