Lokale und verteilte Modi der Lauf Pig Scripts in Hadoop

Bevor Sie Ihr erstes Schwein Skript in Hadoop ausführen können, müssen Sie einen Griff zu haben, wie Schwein-Programme können mit dem Schwein Server verpackt werden.

Schwein verfügt über zwei Modi zum Ausführen von Skripts:

  • Lokalbetrieb: Alle Skripte werden auf einer einzigen Maschine laufen, ohne Hadoop MapReduce und HDFS erfordern. Dies kann zur Entwicklung und Prüfung Pig Logik nützlich sein. Wenn Sie eine kleine Menge von Daten an Entwickler verwenden oder testen Sie den Code, dann den lokalen Modus könnte schneller sein, als durch die MapReduce-Infrastruktur geht.

    Local-Modus nicht Hadoop erfordern. Wenn Sie im lokalen Modus ausführen, wird das Schwein Programm im Rahmen einer lokalen Java Virtual Machine und der Datenzugriff über das lokale Dateisystem von einer einzigen Maschine. Local-Modus ist eigentlich eine lokale Simulation von MapReduce in Hadoop der LocalJobRunner Klasse.

  • MapReduce-Modus (auch als Hadoop-Modus bekannt): Schwein auf der Hadoop-Cluster ausgeführt. In diesem Fall wird das Schwein Script in eine Reihe von MapReduce Jobs umgewandelt, die dann auf dem Hadoop-Cluster ausgeführt werden.

    bild0.jpg

Wenn Sie ein Terabyte Daten, die Sie auf Operationen ausführen wollen, und Sie wollen interaktiv ein Programm entwickeln, können Sie bald feststellen, Dinge zu verlangsamen erheblich, und Sie können das Wachstum Ihres Speicher starten. Local-Modus ermöglicht es Ihnen, mit einer Teilmenge der Daten in einer interaktiven Art und Weise zu arbeiten, so dass Sie die Logik herausfinden können (und die Fehler trainieren) Ihres Pig-Programm.

Nachdem Sie die Dinge eingerichtet haben, wie Sie wollen reibungslos laufen sie und Ihren Betrieb, können Sie dann das Skript für den vollständigen Daten laufen MapReduce-Modus eingestellt werden.

Menü