Schwein-Latein in Hadoop Schweine Programme

Schwein-Latein ist die Sprache für Pig-Programme. Schwein übersetzt das Schwein lateinischer Schrift in MapReduce Jobs, die es innerhalb von Hadoop-Cluster ausgeführt werden können. Wenn mit Schwein-Latein kommen, folgte das Entwicklungsteam drei wichtigsten Design-Prinzipien:

  • Halte es einfach. Pig Latin bietet eine einfache Methode für mit Java MapReduce interagieren. Es ist eine Abstraktion, in anderen Worten, daß vereinfacht die Erstellung von parallel Programme auf dem Hadoop Cluster für Datenflüsse und Analyse. Komplexe Aufgaben können eine Reihe von miteinander verknüpften Datentransformationen erfordern - solche Serie codiert sind, als Datenfluss-Sequenzen.

    Das Schreiben von Daten Transformation und fließt als Pig Latin Skripte anstelle von Java MapReduce-Programme diese Programme leichter macht zu schreiben, zu verstehen und zu pflegen, weil a) Sie müssen den Job in Java nicht schreiben, b) Sie müssen nicht denken, in Begriffe von MapReduce, und c) Sie müssen nicht mit benutzerdefinierten Code zu entwickeln, um Rich-Datentypen unterstützen.

    Pig Latin bietet eine einfachere Sprache Ihrer Hadoop-Cluster zu nutzen, so dass es leichter für mehr Menschen die Macht von Hadoop zu nutzen und schneller, produktiver zu werden.

  • Machen Sie es smart. Vielleicht erinnern Sie sich, dass das Schwein-Latein-Compiler macht die Arbeit von einem Schwein-Latein-Programm in eine Reihe von Java-MapReduce Jobs verwandeln. Der Trick ist, um sicherzustellen, dass der Compiler automatisch die Ausführung dieser Java MapReduce Jobs zu optimieren, so dass der Benutzer auf Semantik zu konzentrieren, anstatt auf, wie die Daten zu optimieren und zuzugreifen.

    Für youSQL Arten gibt, wird diese Diskussion vertraut klingen. SQL ist als deklarative Abfrage einrichten, die Sie strukturierte Daten zugreifen können in einem RDBMS gespeichert. Die RDBMS Motor übersetzt zuerst die Abfrage zu einem Datenzugriffsverfahren, und dann auf die Statistik aussieht und erzeugt eine Reihe von Datenzugriffs Ansätzen. Der kostenbasierte Optimierer wählt die effizienteste Ansatz für die Ausführung.

  • Nicht Entwicklung begrenzen. Machen Sie Schwein erweiterbar, so dass Entwickler Funktionen hinzufügen können ihre speziellen Geschäftsprobleme zu lösen.

Traditionelle RDBMS Data Warehouse nutzen die ETL-Datenverarbeitungsmuster, in dem Sie eXtract Daten aus externen Quellen, transform es Ihre betrieblichen Bedürfnisse anzupassen, und dann lOAD es in das Ende Ziel, ob es sich um ein Betriebsdatenspeicher, ein Data Warehouse oder eine andere Variante der Datenbank.

Doch mit großen Datenmengen, möchten Sie in der Regel um die Datenmenge zu reduzieren, Sie haben zu bewegen, so dass Sie am Ende der Verarbeitung auf die Daten zu bringen selbst.

Die Sprache für Schweinedatenflüsse nimmt daher einen Pass auf den alten ETL-Ansatz, und geht mit ELT statt: EXtract die Daten aus Ihren verschiedenen Quellen, load es in HDFS, und dann transform es als notwendig, die Daten für die weitere Analyse vorzubereiten.

Menü