Hadoop als Datenvorverarbeitung Motor

Eines der frühesten Anwendungsfälle für Hadoop im Unternehmen war als programmatische Transformation Engine zur Vorverarbeitung von Daten verwendet für ein Data Warehouse gebunden. Im Wesentlichen nutzt dieser Anwendungsfall die Leistung des Hadoop Ökosystem-Transformationen, um Daten zu manipulieren und anwenden Vor es ist in einem Data Warehouse geladen.

Obwohl die eigentliche Umwandlung Motor neu ist (es ist Hadoop, so Transformationen und Datenflüsse in Schwein oder MapReduce kodiert werden, unter anderen Sprachen), den Ansatz selbst eine Weile mit dem Extract, Transform, Load (ETL) Prozesse im Einsatz ist.

Denken Sie über die Entwicklung der OLTP und ROLAP-Datenbanken. Viele Organisationen mit operationalen Datenbanken auch Data Warehouse im Einsatz. So, wie die IT-Abteilungen erhalten Daten aus ihren operativen Datenbanken in ihre Data Warehouse? (Denken Sie daran, dass die Betriebsdaten ist in der Regel nicht in einer Form, die sich auf die Analyse verleiht.)

Die Antwort ist ETL, und als Data Warehouse im Einsatz und Bedeutung zugenommen, wurden die Schritte im Prozess gut verstanden und Best Practices entwickelt wurden. Außerdem begann eine Reihe von Software-Unternehmen mit interessanten ETL-Lösungen, so dass IT-Abteilungen ihre eigenen Code-Entwicklung minimieren könnte.

Der grundlegende ETL-Prozess ist recht einfach: Sie EXtract Daten aus einer operativen Datenbank, Transform es in das Formular, das Sie für Ihre Analyse benötigen und Reporting-Tools, und dann sind Sie LOAD diese Daten in Data Warehouse.

Eine häufige Variante zu ETL ist ELT - Extract, Load und Transformation. Im ELT Prozess führen Sie Transformationen (im Gegensatz zu ETL) nach Laden der Daten in den Ziel-Repository. Dieser Ansatz wird häufig verwendet, wenn die Transformation steht stark auf strukturierte Daten aus einem sehr schnellen SQL-Processing-Engine profitieren. (Relationale Datenbanken können bei der Verarbeitung von unstrukturierten Daten nicht übertreffen, aber sie führen sehr schnelle Verarbeitung von - erraten, was -?. Strukturierten Daten)

Wenn die Daten sind verwandeln Sie für ein Data Warehouse bestimmt ist, und viele dieser Transformationen können in SQL getan werden, können Sie wählen, um die Veränderungen in der Data-Warehouse selbst zu laufen. ELT ist besonders attraktiv, wenn der Großteil Ihrer Fähigkeiten liegt mit SQL-basierten Werkzeugen.

Mit Hadoop nun in der Lage von SQL-Abfragen zu verarbeiten, können sowohl ETL und ELT-Workloads auf Hadoop gehostet werden. Die Abbildung zeigt ETL Dienstleistungen für die Referenzarchitektur hinzugefügt.

bild0.jpg

Wenn Sie eine Hadoop-basierte Landezone im Einsatz haben, haben Sie fast alles, was man an Ort und Stelle brauchen bekam Hadoop zu verwenden als Transformations-Engine. Sie landen bereits Daten aus dem operativen Systemen in Hadoop mit Sqoop, die den Extraktionsschritt abdeckt. An dieser Stelle müssen Sie Ihre Transformationslogik in MapReduce oder Schwein-Anwendungen zu implementieren. Nachdem die Daten umgewandelt wird, können Sie die Daten in das Data Warehouse mit Sqoop laden.

Mit Hadoop als Daten Transformation Engine wirft auch Möglichkeiten. Wenn Ihr Data Warehouse nicht seine Daten ändern (es ist nur für die Berichterstattung), können Sie einfach die Daten halten Sie mit dem Transformationsprozess zu generieren. In diesem Modell fließt nur Daten von links, nach rechts in der Figur, in der Daten aus den operativen Datenbanken extrahiert wird, in der Landezone umgewandelt und dann in das Data Warehouse geladen.

Mit all den transformierten Daten bereits in der Landezone, gibt es keine Notwendigkeit, es wieder zu Hadoop zu kopieren - es sei denn, natürlich, wird die Daten im Warehouse geändert.

Menü