Das Schwein-Latein Anwendung Durchfluss in Hadoop

In seinem Kern ist Pig Latin ein Datenfluss Sprache, in der Sie einen Datenstrom und eine Reihe von Transformationen definieren, die auf die Daten angewendet werden, wenn es durch die Anwendung fließt. Dies steht im Gegensatz zu einer Kontrollfluss Sprache (wie C oder Java), wo Sie eine Reihe von Anweisungen schreiben.

In Kontrollfluss Sprachen verwenden Sie Konstrukte wie Schleifen und bedingte Logik (wie eine if-Anweisung). Sie werden nicht Loops finden und wenn Aussagen in Pig Latin.

Wenn Sie etwas überzeugt werden müssen, dass mit Schwein arbeiten, ist eine wesentlich einfacher Zeile Hacke als mit Karte zu schreiben und Programme reduzieren, beginnen, indem Sie einen Blick auf einige echte Pig Syntax unter:

A = LOAD 'data_file.txt' -.. B = GROUP ... -... C = FILTER ...- DUMP B-.STORE C IN 'Results'-

Einige der Text in diesem Beispiel sieht tatsächlich aus wie Englisch, nicht wahr? Nicht zu gruselig, zumindest an dieser Stelle. Mit Blick auf jede Zeile wiederum können Sie den grundlegenden Ablauf eines Pig-Programm zu sehen. (Beachten Sie, dass dieser Code entweder Teil eines Skripts oder ausgestellt auf der interaktiven Shell Grunt genannt werden kann.)

  1. Last: Sie erste Last (LOAD) die Daten, die Sie manipulieren möchten.

    Wie in einem typischen MapReduce Job, werden diese Daten in HDFS gespeichert. Für ein Schwein Programm auf die Daten zugreifen, sagen Sie zuerst Schwein, welche Datei oder Dateien zu verwenden. Für diese Aufgabe verwenden Sie die BELASTUNG 'Datendatei' Befehl.

    Hier, 'Datendatei' kann entweder eine HDFS-Datei oder ein Verzeichnis angeben. Wenn ein Verzeichnis angegeben, werden alle Dateien in diesem Verzeichnis werden in das Programm geladen.

    Wenn die Daten in einem Dateiformat gespeichert ist, die nicht nativ zugänglich Schwein ist, können Sie optional die mit Hilfe der Funktion zum LOAD-Anweisung hinzufügen, um eine benutzerdefinierte Funktion angeben, die in zu lesen (und zu interpretieren) die Daten.

  2. Transformation: Sie laufen die Daten durch eine Reihe von Transformationen, die Art und Weise unter der Haube und weit davon entfernt, was Sie entfernt haben, sich zu beschäftigen mit, in eine Reihe von Map übersetzt werden und Aufgaben reduzieren.

    Die Transformationslogik ist, wo alle Datenmanipulation passiert. Hier können Sie Zeilen herauszufiltern, die nicht von Interesse sind, verbinden Sie zwei Sätze von Datendateien, GROUP Daten Aggregationen zu bauen, um Resultate, und noch viel, viel mehr.

  3. Dump: Schließlich Sie dump (DUMP) die Ergebnisse auf den Bildschirm

    oder

    Geschäft (STORE) die Ergebnisse in einer Datei irgendwo.

    Sie würden normalerweise den Befehl DUMP verwenden, um die Ausgabe auf dem Bildschirm zu senden, wenn Sie Ihre Programme debuggen. in einer Datei gespeichert werden zur weiteren Verarbeitung oder Analyse Wenn Ihr Programm in die Produktion geht, ändern Sie einfach den DUMP Anruf zu einem Anruf speichern, so dass alle Ergebnisse Ihrer Programme laufen.

Menü