Wie Apache Oozie Einrichten in Hadoop Get

Apache Oozie ist in allen wichtigen Hadoop-Distribution enthalten, einschließlich Apache Bigtop. In Ihrem Hadoop-Cluster, installieren Sie den Oozie-Server auf einem Randknoten, in denen Sie auch andere Client-Anwendungen gegen den Cluster-Daten ausgeführt werden, wie dargestellt.

bild0.jpg

Randknoten sind entworfen, um die Hadoop Cluster ein Gateway für das externe Netzwerk zu sein. Das macht sie ideal für die Datenübertragungstechnologien (Flume, zum Beispiel), aber auch Client-Anwendungen und andere Anwendungsinfrastruktur wie Oozie. Oozie keinen dedizierten Server benötigen, und mit anderen Diensten leicht nebeneinander bestehen können, die sich ideal für Randknoten geeignet sind, wie Schwein und Hive.

Nach Oozie eingesetzt wird, sind Sie bereit, den Oozie Server zu starten. Oozie Infrastruktur wird im $ OOZIE_HOME Verzeichnis installiert. Von dort führen Sie den Befehl oozie-start.sh den Server zu starten. (Wie Sie vielleicht erwarten, beinhaltet den Server zu stoppen oozie-stop.sh eingeben.) Sie den Status Ihrer Oozie Instanz, indem Sie den Befehl testen

Oozie Admin -status

Nachdem Sie die Oozie Server implementiert und gestartet haben, können Sie Ihre verschiedenen Workflow, Koordinator oder Bündel Jobs Katalog und ausführen. Wenn Sie mit Ihrem Jobs arbeiten, speichert Oozie die Katalogdefinitionen - die Daten, die den alle Oozie Objekte (Workflow, Koordinator und Bündel Jobs) - sowie deren Zustände in einer speziellen Datenbank.

In der Standardeinstellung ist Oozie konfiguriert die eingebettete Derby-Datenbank verwenden, aber Sie können verwenden MySQL, Oracle oder PostgreSQL, wenn Sie benötigen.

Sie haben vier Möglichkeiten, um mit dem Oozie Server interagiert:

  • Die Java-API: Diese Option ist nützlich in Situationen, in denen Sie Ihre eigenen Scheduling-Code in Java-Anwendungen haben, und Sie müssen die Ausführung Ihrer Oozie Workflows, Koordinatoren zu steuern, oder Bündel aus Ihrer Anwendung.

  • Die REST-API: Auch hier funktioniert diese Option auch in jenen Fällen, in denen Sie Ihre eigenen Scheduling-Code als Grundlage Ihrer Oozie Workflows, Koordinatoren oder Bündel verwenden möchten, oder wenn Sie möchten, dass Ihre eigene Schnittstelle oder erweitern ein bestehendes für die Verwaltung des Oozie Server zu bauen .

  • Command Line Interface (CLI): Es ist die traditionelle Linux-Kommandozeilen-Schnittstelle für Oozie.

  • Die Oozie Web-Konsole: Okay, vielleicht können Sie nicht viel tun hier interagieren, aber die Oozie Web Console gibt Ihnen eine (schreibgeschützt) Blick auf den Zustand des Oozie-Server, der für die Überwachung Ihrer Oozie Jobs nützlich ist.

    image1.jpg

Hue, ein Hadoop-Administrations-Oberfläche, stellt ein weiteres Werkzeug, um mit Oozie arbeiten. Oozie Workflows, Koordinatoren und Bundles werden alle unter Verwendung von XML definiert, die langwierig sein kann, vor allem für komplexe Situationen zu bearbeiten. Hue bietet ein Tool GUI-Designer zur grafischen Workflows und andere Oozie Objekte zu bauen.

Unter den Abdeckungen umfasst Oozie einen eingebetteten Tomcat-Webserver, der seine Eingabe und Ausgabe behandelt.

Menü