Das Schwein Architektur in Hadoop

# 147-Einfache # 148- oft bedeutet, # 147-elegant # 148-, wenn sie sich auf diese architektonischen Zeichnungen für das neue Silicon Valley Villa kommt sie geplant haben, wenn das Geld beginnt in rollen, nachdem Sie Hadoop implementieren. Das gleiche Prinzip gilt für Software-Architektur. Schwein ist aus zwei (count 'em, zwei) Komponenten:

  • Die Sprache selbst: Als Beweis dafür, dass Programmierer einen Sinn für Humor haben, ist die Programmiersprache für Schwein bekannt als Schwein-Latein, eine High-Level-Sprache, die Sie die Datenverarbeitung und Analyse-Programme zu schreiben.

  • The Pig Latin-Compiler: Das Schwein-Latein-Compiler wandelt die Pig Latin Code in ausführbaren Code. Der ausführbare Code ist entweder in Form von MapReduce-Jobs oder es kann ein Prozess erzeugen, wo eine virtuelle Hadoop-Instanz erstellt wird, um die Schwein-Code auf einem einzelnen Knoten laufen.

    Die Folge von MapReduce-Programme ermöglicht Pig Programme Datenverarbeitung und Analyse parallel zu tun, nutzt Hadoop MapReduce und HDFS. das Schwein Job in der virtuellen Hadoop-Instanz laufen zu lassen ist eine nützliche Strategie für Ihre Pig Skripte zu testen.

Die Abbildung zeigt, wie Schwein auf das Hadoop Ökosystem betrifft.

bild0.jpg

Pig-Programme können ohne Code-Änderungen auf MapReduce v1 oder MapReduce v2 laufen, unabhängig davon, in welchem ​​Modus der Cluster ausgeführt wird. Allerdings kann Pig Skripte stattdessen auch mit der Tez-API ausgeführt werden. Apache Tez stellt eine effizientere Ausführung Rahmen als MapReduce. GARN ermöglicht Anwendungs-Frameworks andere als MapReduce (wie Tez) auf Hadoop auszuführen. Hive gegen die Tez Rahmen laufen auch.

Menü