Die Rolle der traditionellen ETL in Big Data

ETL-Tools kombinieren drei wichtige Funktionen (Extract, Transform, Load) benötigten Daten aus einer großen Datenumgebung zu erhalten und in ein anderes Datenumgebung setzen. Traditionell ETL wurde mit Batch-Verarbeitung in Data Warehouse-Umgebungen eingesetzt. Data Warehouse bieten Business-Anwender eine Möglichkeit, Informationen zu konsolidieren und auf Daten, die für ihre Geschäftsausrichtung berichten zu analysieren. ETL-Tools werden verwendet, um Daten in das Format von Data Warehouse erforderlich zu machen.

Die Transformation wird tatsächlich in einer Zwischenposition durchgeführt, bevor die Daten in das Datenlager geladen wird. Viele Software-Anbieter wie IBM, Informatica, Pervasive, Talend und Pentaho, bieten ETL-Software-Tools.

ETL stellt die zugrunde liegende Infrastruktur für die Integration von drei wichtige Funktionen ausführen:

  • Extrakt: Lesen von Daten aus der Quelldatenbank.

  • Verwandeln: Konvertieren das Format der extrahierten Daten, so dass sie den Anforderungen der Zieldatenbank entspricht. Die Transformation wird unter Verwendung von Regeln oder Zusammenführen von Daten mit anderen Daten durchgeführt.

  • Belastung: Schreiben von Daten in die Zieldatenbank.

Allerdings ETL entwickelt sich die Integration über viel mehr als herkömmliche Data Warehouse zu unterstützen. ETL kann die Integration über Transaktionssysteme, Betriebsdaten speichert, BI-Plattformen, MDM-Hubs, die Cloud und Hadoop-Plattformen unterstützen. ETL-Software-Anbieter erweitern ihre Lösungen große Datenextraktion, Transformation und Laden zwischen Hadoop und traditionellen Datenmanagement-Plattformen zur Verfügung zu stellen.

ETL und Software-Tools für andere Datenintegrationsprozesse wie Datenbereinigung, Profilierung und Prüfung alle Arbeiten zu verschiedenen Aspekten der Daten zu gewährleisten, dass die Daten vertrauenswürdig angesehen werden. ETL-Tools integrieren mit Datenqualitätstools und viele integrieren Werkzeuge zur Datenbereinigung, Datenzuordnung und Identifizierung von Datenherkunft. Mit ETL, extrahieren Sie nur die Daten, die Sie für die Integration benötigen.

ETL-Tools sind für das Laden und Umsetzung von strukturierten und unstrukturierten Daten in Hadoop benötigt. Advanced ETL-Tools können mehrere Dateien parallel von und zu Hadoop zu vereinfachen lesen und zu schreiben, wie die Daten in einen gemeinsamen Transformationsprozess zusammengeführt wird. Einige Lösungen integrieren Bibliotheken mit vordefinierten ETL-Transformationen sowohl für die Transaktion und Interaktion Daten, die auf Hadoop oder einem traditionellen Netzinfrastruktur führen.

Datenumwandlung ist das Verfahren das Format der Daten zu ändern, so dass es von verschiedenen Anwendungen verwendet werden kann. Dies kann eine Änderung von dem Format bedeuten die Daten in in das Format von der Anwendung benötigt gespeichert ist, die die Daten verwenden. Dieser Prozess beinhaltet auch Kartierung Anweisungen, so dass Anwendungen erzählt, wie die Daten, die sie verarbeiten müssen zu bekommen.

Der Prozess der Datentransformation wird wesentlich komplexer wegen des schwank Wachstum in der Menge von unstrukturierten Daten. Ein Business-Anwendung wie ein Customer Relationship Management hat spezifische Anforderungen, wie Daten gespeichert werden sollen. Die Daten sind wahrscheinlich zu sein strukturiert in der organisierten Reihen und Spalten einer relationalen Datenbank. Die Daten sind halbstrukturierten oder unstrukturierten wenn es folgt nicht starren Formatanforderungen.

Die Informationen in einer E-Mail-Nachricht enthalten ist unstrukturiert betrachtet, zum Beispiel. Einige einer wichtigsten Informationen des Unternehmens ist in unstrukturierten und semistrukturierten Formen wie Dokumente, E-Mail-Nachrichten, komplexe Messaging-Formate, Kunden-Support-Interaktionen, Transaktionen und Informationen von Standardanwendungen wie ERP und CRM kommen.

Datentransformation Werkzeuge sind nicht mit unstrukturierten Daten zu arbeiten, gut gestaltet. Als Ergebnis benötigen Unternehmen unstrukturierte Informationen in ihre Geschäftsprozesse Entscheidungsfindung einzubeziehen wurden mit einer signifikanten Menge von manuellen Kodierung zu erreichen die erforderliche Datenintegration konfrontiert.

das Wachstum und die Bedeutung von unstrukturierten Daten zur Entscheidungsfindung, ETL-Lösungen von großen Anbietern gegeben beginnen standardisierte Ansätze zur Umwandlung von unstrukturierten Daten zu bieten, so dass es leichter mit operativen strukturierte Daten integriert werden kann.

Menü