Data Transformation in Hadoop

Die Idee von Hadoop-inspirierten ETL-Motoren hat viel Traktion in den letzten Jahren an Bedeutung gewonnen. Schließlich ist Hadoop eine flexible Datenspeicher und Verarbeitungsplattform, die große Mengen von Daten und Operationen an diesen Daten unterstützen kann. Zur gleichen Zeit, es ist fehlertolerant und bietet die Möglichkeit, Kapital und Software Kostensenkungen.

Trotz Hadoop Popularität als ETL-Engine, aber viele Leute (einschließlich einer berühmten Firma Analysten) nicht Hadoop empfehlen als einziges Stück Technik für Ihre ETL-Strategie. Dies ist vor allem, weil die Entwicklung fließt ETL viel Know-how über Ihre Organisation bestehenden Datenbanksystemen benötigt, die Art der Daten selbst, und die Berichte und Anwendungen abhängig.

Mit anderen Worten, müssten die DBAs, Entwickler und Architekten in Ihrer IT-Abteilung mit Hadoop vertraut genug zu werden, um die benötigten ETL Ströme zu implementieren. Zum Beispiel, viele intensive Hand-Codierung mit Schwein, Hive oder sogar MapReduce können selbst die einfachsten Daten zu schaffen, die erforderlich sein fließt - was auf den Haken für die Fähigkeiten Ihres Unternehmens setzt, wenn sie diesen Weg folgt.

Sie müssen Elemente wie parallel Debugging, Application Management Services (wie Check zeigen und Fehler- und Ereignisbehandlung) codieren. Bedenken Sie auch Unternehmensanforderungen wie glossarization und in der Lage, Ihre Daten Erblinie zu zeigen.

Es gibt regulatorischen Anforderungen für viele Industrie-Standard-Reports, in denen die Herkunft der Daten die Berichterstattung Organisation needed- muss in der Lage sein zu zeigen, wo die Datenpunkte in dem Bericht kommen, wie die Daten bekommen Sie, und was mit den Daten geschehen ist.

Auch für relationale Datenbanksysteme, ist ETL komplex genug, dass es beliebt spezialisierte Produkte, die Schnittstellen für die Verwaltung und Entwicklung von ETL Ströme liefern. Einige dieser Produkte unterstützen jetzt in Hadoop-basierten ETL und andere Hadoop-basierte Entwicklung. Allerdings, je nach Ihren Anforderungen, müssen Sie einige Ihrer eigenen Code schreiben, um Ihre Transformationslogik unterstützen.

Menü