Einrichten der Hadoop-Umgebung mit Apache Bigtop

Computer & Software / Große Daten / Datenmanagement

Wenn Sie bequem sind das Arbeiten mit virtuellen Maschinen und Linux, fühlen Sie sich frei Bigtop auf einem anderen VM als zu installieren, was zu empfehlen ist. Wenn Sie wirklich mutig sind und die Hardware haben, gehen Sie voran und versuchen Bigtop auf einem Cluster von Maschinen in vollständig verteilten Modus zu installieren!

Schritt 1: herunterladen einer vm
Schritt 2: herunterladen bigtop
Schritt 3: installieren von bigtop
Schritt 4: starten von hadoop

Schritt 5: laden der beispieldatensatz
Schritt 6: kopieren der beispieldaten in hdfs

Schritt 1: Herunterladen einer VM

Hadoop läuft auf allen gängigen Linux-Distributionen, so benötigen Sie einen Linux-VM. Es ist eine frei verfügbare (und legal!) CentOS 6 image erhältlich.

Sie erhalten eine 64-Bit-Betriebssystem auf Ihrem Laptop benötigen, um diese VM laufen. Hadoop braucht eine 64-Bit-Umgebung.

Nachdem Sie die VM heruntergeladen haben, entpacken Sie es aus der heruntergeladenen Zip-Datei in das Zielverzeichnis. Sie sicherstellen, dass Sie als Hadoop und Ihre Beispieldaten um 50 GB Speicherplatz wird es brauchen.

Wenn Sie nicht bereits über eine VM-Player, Sie kann man kostenlos herunterladen.

Nachdem Sie Ihre VM-Player einrichten, den Player zu öffnen, gehen Sie zu Datei-Öffnen, dann in das Verzeichnis, in dem Sie Ihre Linux-VM extrahiert. Suchen Sie nach einer Datei mit dem Namen und wählen Sie es. Sie werden sehen, Informationen darüber, wie viele Prozessoren und wie viel Speicher sie verwenden werden. Finden Sie heraus, wie viel Speicher Ihr Computer hat, und die Hälfte dieser Hilfe für die VM zu verwenden. Hadoop braucht viel Speicher.

Sobald Sie fertig sind, klicken Sie auf die Play-Taste und wird Ihre Linux-Instanz starten. Sie werden sehen, viele Nachrichten von Fliegen wie Linux bootet und Sie werden zu einem Login-Bildschirm kommen. Der Benutzername wird bereits auf # 147-Tom. # 148- Geben Sie das Kennwort als # 147-tomtom # 148- und melden Sie sich an.

Schritt 2: Herunterladen Bigtop

Von innerhalb Ihres Linux-VM, rechts, klicken Sie auf den Bildschirm und wählen Sie Öffnen im Terminal aus dem Kontextmenü, das angezeigt wird. Es öffnet sich ein Linux-Terminal, in dem Sie Befehle ausführen können. Klicken Sie in das Terminal, so dass Sie den Cursor zu blinken, und geben Sie den folgenden Befehl sehen kann: su -

Sie werden nach Ihrem Passwort gefragt werden, so geben Sie # 147-tomtom # 148- wie bereits weiter oben. Dieser Befehl schaltet den Benutzer root, der die Master-Account für einen Linux-Rechner ist - Sie dies benötigen, um Hadoop zu installieren.

Mit Ihrem Root-Zugriff (lassen Sie sich nicht die Macht an den Kopf bekommen), führen Sie den folgenden Befehl ein:

wget -O /etc/yum.repos.d/bigtop.repo 
https://apache.org/dist/bigtop/bigtop-
0.7.0 / repos / centos6 / bigtop.repo

Der Befehl ist im Wesentlichen eine Web-Anfrage, die eine bestimmte Datei in der URL-Anfragen können Sie es auf einen bestimmten Pfad zu sehen und schreibt - in diesem Fall, das ist /.

Schritt 3: Installieren von Bigtop

Die Genies hinter Linux haben das Leben ganz einfach für Menschen, die großen Software-Pakete wie Hadoop installieren. Was Sie im letzten Schritt heruntergeladen war nicht das gesamte Bigtop Paket und alle seine Abhängigkeiten. Es war nur ein Repository-Datei (Mit der Erweiterung), die ein Installationsprogramm sagt, welche Softwarepakete benötigt werden für die Bigtop Installation.

Wie jede große Software-Produkt, hat Hadoop viele Voraussetzungen, aber Sie brauchen sich keine Sorgen machen. Eine gut gestaltete Datei zu irgendwelchen Abhängigkeiten zeigen, und das Installationsprogramm ist intelligent genug, um zu sehen, ob sie auf Ihrem Computer sind vermisst und dann herunterladen und installieren.

Der Installer Sie hier verwenden heißt yum, die Sie jetzt in Aktion zu sehen bekommen:

yum install hadoop * Mahout * Oozie * hbase * hive * Farbton * Schwein * zookeeper *

Beachten Sie, dass Sie Kommissionierung und die Hadoop Auswahl Ihrer Komponenten zu installieren. Es gibt eine Reihe von anderen Komponenten in Bigtop, aber diese sind die einzigen, die Sie hier verwenden werden. Da die VM eine neue Linux installieren, werden Sie viele Abhängigkeiten benötigen, so dass Sie ein bisschen warten müssen werde.

Die yum-Installer ist sehr ausführlich, so dass Sie genau sehen können, was heruntergeladen und installiert ist wird die Zeit zu vertreiben. Wenn der Installationsvorgang abgeschlossen ist, sollten Sie eine Meldung, die besagt, # 147-Complete # 148!;

Schritt 4: Starten von Hadoop

Bevor Sie Anwendungen, die auf Hadoop anfangen zu laufen, gibt es ein paar grundlegende Konfiguration und Setup-Dinge, die Sie tun müssen. Hier sind sie in der Reihenfolge:

Downloaden und installieren Sie Java:

yum install java-1.7.0-openjdk-devel.x86_64

Formatieren Sie die NameNode:

sudo /etc/init.d/hadoop-hdfs-namenode init

Starten Sie die Hadoop Dienstleistungen für Ihre pseudodistributed Cluster:

für i in Hadoop-hdfs-NameNode hadoop-hdfs-DataNode - sudo Service beginne ich mit $ - fertig

Erstellen Sie eine Unterverzeichnisstruktur in HDFS:
```
sudo /usr/lib/hadoop/libexec/init-hdfs.sh
```
Starten Sie die GARN-Daemons:

sudo Service hadoop-Garn-Resourcemanager startsudo Service hadoop-Garn-NodeManager Start

Und damit sind Sie fertig. Herzliche Glückwünsche! Sie haben eine funktionierende Hadoop Bereitstellung installiert!

Schritt 5: Laden der Beispieldatensatz

Um die Beispieldatensatz herunterladen, öffnen Sie den Firefox-Browser innerhalb der VM, und gehen Sie auf die dataexpo Seite.

Sie werden den gesamten Datensatz nicht benötigen, so mit einem einzigen Jahr beginnen, 1987. Beim Herunterladen sind dabei zu, wählen Sie das Öffnen mit Archive Manager-Option.

Nachdem die Datei heruntergeladen wurde, entpacken Sie die Datei in Ihrem Home-Verzeichnis in dem Sie leicht in der Lage sein werden, sie zu finden. Klicken Sie auf die Schaltfläche Extrahieren und dann das Desktop-Verzeichnis auswählen.

Schritt 6: Kopieren der Beispieldaten in HDFS

Denken Sie daran, dass Ihre Hadoop-Programme können nur mit Daten arbeiten, nachdem es in HDFS gespeichert ist. Also, was du gehst jetzt zu tun ist, den Flugdatendatei für das Jahr 1987 in HDFS kopieren. Geben Sie den folgenden Befehl ein:

hdfs dfs -copyFromLocal 1987.csv / user / root