Die Entwicklung Oozie Workflows in Hadoop

Oozie Workflows werden, in ihrem Kern, gerichteten Graphen, in dem Sie Aktionen (Hadoop-Anwendungen) und den Datenfluss zu definieren, aber ohne Looping - dh Sie können eine Struktur nicht definieren können, wo Sie über eine bestimmte Operation ausführen würde und über, bis einige Bedingung erfüllt ist (eine for-Schleife, zum Beispiel).

Oozie Workflows sind sehr flexibel, da Sie die zustandsorientierte Entscheidungen und gegabelt Wege für die parallele Ausführung definieren können. Sie können auch eine breite Palette von Aktionen auszuführen.

bild0.jpg

In dieser Figur sehen Sie einen Workflow die grundlegenden Fähigkeiten von Oozie Workflows zeigt. Zuerst wird ein Schwein Skript ausgeführt wird, und wird sofort von einem Entscheidungsbaum gefolgt. Je nach Zustand des Ausgangs kann der Steuerfluss entweder direkt zu einem HDFS (Hadoop Distributed File System) Dateioperation (beispielsweise ein copyToLocal Betrieb) oder auf einer Gabel Aktion.

Wenn der Steuerfluss an der Gabel Aktion geht, zwei Jobs gleichzeitig ausgeführt werden: eine MapReduce Job und eine Hive-Abfrage. Der Steuerungsablauf geht dann auf die HDFS Betrieb einmal sowohl die MapReduce Job und Hive Abfrage ausgeführt werden, beendet. Nach dem HDFS Betrieb ist der Workflow beendet.

Oozie Workflow-Definitionen werden in XML geschrieben, basierend auf dem Hadoop Process Definition Language (HPDL) Schema. Diese besondere Schema ist, die wiederum auf der Basis des XML Process Definition Language (XPDL) Schema, das zur Modellierung von Geschäftsprozessdefinitionen eine produktunabhängige Standard ist.

Ein Oozie Workflow besteht aus einer Reihe von Aktionen zusammen, die von XML-Knoten codiert sind. Es gibt verschiedene Arten von Knoten, die verschiedene Arten von Aktionen oder Steuerfluss-Richtlinien. Jeder Oozie Workflow verfügt über eine eigene XML-Datei, in dem jeder Knoten und seine Verbindungen definiert sind.

Workflow-Knoten benötigen alle eindeutigen Kennungen, weil sie verwendet, um den nächsten Knoten zu identifizieren, in dem Workflow verarbeitet werden. Dies bedeutet, dass die Reihenfolge, in der die Aktionen ausgeführt werden, hängt davon ab, wo Knoten eine Aktion des erscheint im Workflow-XML. Um zu sehen, wie dieses Konzept aussehen würde, überprüfen Sie die folgende Auflistung aus, die ein Beispiel für die Grundstruktur eines Oozie Workflow-XML-Datei zeigt.

......"Getötet Job."

In diesem Beispiel, abgesehen von Anfang, Ende und töten Knoten, Sie haben zwei Aktions Knoten. Jede Aktion Knoten repräsentiert eine Anwendung oder ein Befehl ausgeführt wird.

Menü