Hadoop Schwein und Schwein-Latein für Big Data

Die Leistungsfähigkeit und Flexibilität von Hadoop für große Daten sind sofort sichtbar an Software-Entwickler in erster Linie, weil die Hadoop-Ökosystem von Entwicklern gebaut wurde, für Entwickler. Doch nicht jeder ist ein Software-Entwickler. Schwein wurde entwickelt, Hadoop mehr zugänglich und nutzbar nondevelopers zu machen.

Schwein ist ein interaktives, oder Skript-basierte, Ausführungsumgebung unterstützen Schwein-Latein, die Sprache verwendet, um Daten zum Ausdruck fließt. Das Schwein lateinische Sprache unterstützt die Be- und Verarbeitung von Eingangsdaten mit einer Reihe von Operatoren, die die Eingangsdaten und erzeugen die gewünschte Ausgabe zu transformieren.

Das Schwein-Ausführungsumgebung verfügt über zwei Modi:

  • Lokalbetrieb: Alle Skripte werden auf einer einzigen Maschine laufen. Hadoop MapReduce und HDFS sind nicht erforderlich.

  • Hadoop: Auch MapReduce-Modus genannt, werden alle Skripte werden auf einem bestimmten Hadoop-Cluster ausgeführt werden.

Unter den Abdeckungen, schafft Schwein eine Reihe von Karte und reduzieren Arbeitsplätze. Der Benutzer wird von den Sorgen entbunden Code zu schreiben, der Zusammenstellung, Verpackung, einreichen, und die Ergebnisse abzurufen. In vielerlei Hinsicht ist Pig analog in der RDBMS Welt zu SQL.

Das Schwein lateinische Sprache stellt eine abstrakte Art und Weise, um Antworten von großen Daten, indem Sie auf die Daten konzentrieren und nicht die Struktur eines benutzerdefinierten Software-Programm. Schwein macht Prototyping sehr einfach. Zum Beispiel können Sie ein Schwein Skript auf einer kleinen Darstellung Ihrer großen Daten-Umgebung ausgeführt werden, um sicherzustellen, dass Sie die gewünschten Ergebnisse erhalten, bevor Sie auf die Verarbeitung aller Daten verpflichten.

Pig-Programme können auf drei verschiedene Arten ausgeführt werden, alle von ihnen kompatibel mit den lokalen und Hadoop-Modus:

  • Skript: Einfach eine Datei durch das Schwein-Latein-Befehle enthält, identifiziert .Schwein suffix (zB file.pig oder myscript.pig). Die Befehle werden von Pig interpretiert und in der angegebenen Reihenfolge ausgeführt.

  • Grunzen: Grunt ist ein Befehlsinterpreter. Sie können auf dem Grunzen Befehlszeile Pig Latin Typ und Grunt den Befehl in Ihrem Namen auszuführen. Dies ist sehr nützlich für das Prototyping und # 147-was, wenn # 148- Szenarien.

  • Eingebettet: Pig Programme können als Teil eines Java-Programm ausgeführt werden.

Schwein-Latein hat eine sehr reiche Syntax. Es unterstützt die Betreiber für die folgenden Operationen:

  • Laden und Speichern von Daten,

  • Streaming-Daten

  • Filtern von Daten

  • Gruppieren und Verbinden von Daten

  • Sortieren von Daten

  • Die Kombination und die Aufteilung Daten

Pig Latin unterstützt auch eine Vielzahl von Typen, Ausdrücke, Funktionen, Diagnose Operatoren, Makros und Dateisystembefehle.

Um weitere Beispiele zu erhalten, besuchen Sie die Pig Website innerhalb Apache.com.

Menü