Middleware-Dienste: Datenauswahl und Extraktionen

Der primäre Zweck der Datenselektion und -extraction Service steht wählen von (zu finden in) die Daten, die Sie eine Datenquelle wollen in das Data Warehouse zu bewegen und dann Extrakt (Herausziehen), dass die Daten in einer Form, die für die Qualitätssicherung Dienstleistungen bereit gemacht werden kann.

Sie können für Ihre Data-Warehousing-Umgebung eines von zwei verschiedenen Arten von Auswahl und Extraktion Dienste nutzen:

  • Get 'em all und sortieren sie heraus später: Suchen und extrahieren Sie alle Datenelemente in einer Quelle, die Sie in Ihrem Data Warehouse geladen werden soll, unabhängig davon, ob ein bestimmtes Element zuvor extrahiert wurde.

  • Ändern orientiert: Finden und nur die Datenelemente extrahieren, wurden entweder neu mit der Datenquelle hinzugefügt oder aktualisiert seit der letzten Extraktion.

Die erste Art von Dienst benötigt weniger komplexe Logik, um die Extraktion durchzuführen. Aber Sie müssen mit größeren Volumina zu bewältigen (manchmal viel größere Volumen) von Daten als mit dem zweiten Typ, der Änderung orientierten Service.

Die Änderung orientierte Methode der Auswahl und Extraktion ist recht einfach, wenn Ihre Quelle eine relationale Datenbank, die einen Zeitstempel hat, können Sie zu erkennen, verwenden, wenn eine Reihe von Daten hinzugefügt wurde oder zuletzt aktualisiert wurden.

Sie können eine Zeile der Daten vor dem Datum und der Uhrzeit der letzten Extraktionsprozesses zu vergleichen, um zu bestimmen, ob Daten ausgewählt und extrahiert werden muss. Aber, wenn die Daten in einer Datei gespeichert wird, die nicht mit einem Zeitstempel hat (eine VSAM-Datei, zum Beispiel), kann dieser Vorgang erheblich schwieriger.

Sie könnten auch vor eine Herausforderung, wenn die Quelldaten entweder aus einer Datei oder einer Datenbank gelöscht. Wenn die Geschäftsregeln für Data-Warehousing-Umfeld erfordern für die Löschung der entsprechenden Daten aus dem Lager, müssen Sie eine Möglichkeit haben, Deletionen erkennen, die seit dem letzten Extraktionsverfahren hergestellt wurden, um sicherzustellen, dass geeignete Deletionen in Ihrem Lager hergestellt werden.

Das Ergebnis der Auswahl und Extraktion ist, na ja, ein Extrakt aus Daten, die bereit ist, zusätzliche Verarbeitung zu unterziehen: die Datenqualität Check-out.

Menü