Datenextraktion, Bewegung und Laden für Data Warehouse-Deluxe

Data-Warehouse-Deluxe-Implementierungen sind groß - und die ganze Zeit immer größer. Implementierungen, die Hunderte von Gigabyte (ein Gigabyte entspricht 1 Milliarde Byte) und sogar Terabytes (1 Billion Byte) sind zunehmend häufiger verwenden. Um diese Datenmenge und Benutzerzugriff verwalten, benötigen Sie einen sehr robusten Server und Datenbank.

Bereiten Sie sich auf die Herausforderung! Mit einem Data Warehouse lite können Sie in der Regel Source-Lager Bewegung von Daten in einem einfachen, Low-Tech-Art und Weise handhaben - aber mit dem Data-Warehouse-Deluxe, sind Sie nun die Schwierigkeit Zone eintritt, wo viele Data-Warehousing-Projekte erfüllen ihre Waterloo.

Du bist wahrscheinlich Schwierigkeiten in diesem Bereich aus verschiedenen Gründen auftreten:

  • Sie sind mit vielen verschiedenen Datenquellen zu tun, überlappende Daten, von denen einige enthalten könnten. Zum Beispiel Informationen "kann zwar aus zwei verschiedenen Beschaffungssysteme kommen, und einige Ihrer Lieferanten haben Einträge in beiden Systemen.

    Sie werden wahrscheinlich in verschiedene Sätze von Identifikatoren ausführen, die Sie zusammenlaufen müssen (zum Beispiel sechs alphanumerischen Zeichen, die als SUPPLIER_ID in einem der Systeme und eine eindeutige ganze Zahl bekannt als SUP_NUM in der anderen identifiziert werden).

  • Wenn Ihr Data Warehouse groß ist (mehr als etwa 250 Gigabyte Messung), sind Sie wahrscheinlich Schwierigkeiten haben bei der Gewinnung, Verschieben und Batch-Fenster zu laden. Batch-Fenster, die Zeitrahmen, in dem Aktualisierungen an das Lager hergestellt werden, werden durch die Anzahl der Datenquellen kompliziert Sie handhaben müssen.

  • Die Chancen, mit einer verkorksten Extraktion, Bewegung, Transformation und Ladevorgang wird auf die Anzahl von Datenelementen im Zusammenhang exponentiell in das Data-Warehouse geladen werden.

    Wenn Sie Schwierigkeiten Faktor zuweisen könnte (eine ganze Zahl, zum Beispiel), um den Prozess der Daten in das Lager bekommen, würden die folgenden Maßnahmen für wahr halten: Sie haben n Datenelemente, die Sie in das Data Warehouse mit einem Schwierigkeitsfaktor berücksichtigt werden sollen von x. Wenn Sie jetzt 2n Datenelemente, Ihre Schwierigkeit Faktor ist nicht 2x- Es ist vielmehr x kariert.

    Um diese Schwierigkeit Faktor leichter verständlich zu machen, weisen einige Zahlen n und x. Sagen Sie, dass Ihre Data Warehouse hat 100 Elemente (N) und die Schwierigkeit Faktor (X) 5. ist Wenn Sie die Anzahl der Elemente verdoppeln (n = 200), Ihre Schwierigkeit Faktor 25 (5 zum Quadrat), nicht mehr als 10 (5 x 2).

  • Der Prozess mit so vielen Datenquellen zu tun, die alle in Richtung einer Stelle geleitet (Data Warehouse deluxe), hat alle Elemente zu viele Köche in der Küche, oder was auch immer das Wort ist.

    Um die Extraktion, Bewegung, Transformation zu machen, und Ladevorgang glatt gehen, werden Sie wahrscheinlich mit vielen verschiedenen Anwendungsbesitzer, offizielle Hüter der Datenbank und andere Menschen aus einer Vielzahl von verschiedenen Organisationen, von denen alle zusammenarbeiten müssen, wie sie zu tun haben bist Teil eines professionellen Symphonieorchester.

    Die Realität ist jedoch, dass sie eher wie eine Gruppe von Kindergarten Studenten durchführen, die jeweils ein Musikinstrument aus dem Spielzeug bin holen und erzählt, # 147-Now etwas spielen! # 148- Obwohl der Prozess nicht zwangsläufig zum Scheitern verurteilt, eine Anzahl von Iterationen erwarten, bis Sie das Data Warehouse Deluxe genau richtig geladen bekommen.

Ein Data-Warehouse-Deluxe können drei Ebenen (wie ein Data-Warehouse lite), mit Ausnahme mit mehreren Datenquellen und vielleicht mehr als eine Art von Benutzer Werkzeug, um das Lager zugreifen. Aber die Architektur für ein Data-Warehouse-Deluxe sieht wahrscheinlich mehr wie das, was in dieser Figur dargestellt ist, mit vielen verschiedenen Sammelstellen für Daten.

bild0.jpg

Zusätzlich zu anderen notwendigen # 147-Wege-Stationen # 148- für Ihre Umgebung, Ihre Umgebung könnte diese Elemente haben:

  • Datenmarkt: Erhält Subsets von Informationen aus dem Data Warehouse Deluxe und dient als Hauptzugangspunkt für die Benutzer.

  • Zwischen Transformation Station: Ein Bereich, in dem Sätze von Daten extrahiert aus einigen der Quellen eine Art Transformationsprozess durchlaufen, bevor die Pipeline in Richtung Lager des Datenbank nach unten bewegen.

  • Qualitätssicherung Station: Ein Bereich, in dem Gruppen von datenintensiven Qualitätsprüfungen unterzogen werden, bevor Sie sie in das Data Warehouse bewegen lassen.

Menü