Middleware-Dienste: Datenqualitätssicherung

Sie sollten zwei verschiedene Qualitätssicherung (QA) Dienstleistungen im Fluss der Middleware-Dienste aufzubauen. Sie haben die ersten QA Aufgaben gegen den Auszug aus der Datenquelle durchzuführen, bevor Sie weitere Middleware-Dienste ausführen.

Datenqualitätssicherung: Teil I

Versuchen Sie zu fangen (und richtig) Fehler und Probleme so früh in den Prozess wie möglich. Das Verschieben von Daten auf der Pipeline in Richtung des Data Warehouse ist sinnlos, wenn Probleme so bedeutend sind, dass sie entweder deutlich mehr Aufwand erfordern später im Prozess zu korrigieren oder einfach nicht korrigiert werden kann.

Also, welche Art von Problemen sollten Sie suchen? Hier sind ein paar:

  • Die Werte in Datenelemente, die einen vernünftigen Bereich überschreiten: Ein Kunde hat 150 Millionen Bestellungen im letzten Monat eingereicht, zum Beispiel, oder ein Mitarbeiter mit dem Unternehmen für 4297 Jahre arbeitete, nach der Mitarbeiterdatenbank und dem gespeicherten Einstellungsdatum.

  • Die Werte in Datenelemente, die nicht die offizielle und vollständige Liste der zulässigen Werte passen: Ein Wert haben könnte ein Code zu spielen, zum Beispiel, wenn die einzigen zulässigen Werte für dieses Feld sind M und F. (Wenn das Feld GENDER markiert wurden, A könnte für androgyne stehen!)

  • Kreuztisch Inkonsistenzen: Für Einträge in der Tabelle CUSTOMER_ORDER, keine entsprechenden Einträge (wie durch CUSTOMER_ID identifiziert) gibt es in der CUSTOMER_MASTER_TABLE.

  • Kreuzfeld-Inkonsistenzen: Datensätze, die einen falschen Zustand oder Postleitzahl für die Stadt haben angegeben.

  • Fehlende Werte: Datensätze, die fehlenden Werte in bestimmten Bereichen haben, wo sie sollten Inhalt haben.

  • Datenlücken: Zum Beispiel sollte eine Quelle Tabelle eine Zeile von Daten enthalten, die für jeden Monat in den letzten zwei Jahren insgesamt verkauften Einheiten und Umsatz-Dollar umfasst. Für eine große Anzahl von Kunden gibt es jedoch keine Zeilen für wenigstens eine dieser Monate.

  • Unvollständige Daten: Wenn Informationen über jedes Produkt verkauft das Unternehmen soll zur Verfügung stehen, zum Beispiel, werden alle Produkte in dem Extrakt enthalten?

  • Verletzungen von Geschäftsregeln: Wenn ein Unternehmen Regel besagt, dass nur ein Großhändler Produkte zu einem der Kunden des Unternehmens verkaufen können, sollten Sie überprüfen, ob alle Kundendaten Umsatz durch mehr als ein Großhändler aus anzuzeigen, die falsche Daten in der Quelle hinweisen könnte.

  • Beschädigung von Daten seit dem letzten Auszug: Wenn Extraktion beispielsweise monatlich, auftritt, sollten Sie den Überblick über die Datenwerte oder Summen halten, die konstant sein sollte, wie Umsatz pro Kunde pro Monat. Wenn in einem darauffolgenden Monat, wird der Wert von Umsatz pro Kunde pro Monat Änderungen für einen bestimmten Kunden für einen vorhergehenden Monat die zugrunde liegenden Daten möglicherweise beschädigt wurde.

  • Rechtschreibung Inkonsistenzen: Ein Kundenname wird verschiedene Weise geschrieben, zum Beispiel.

Was tun Sie, wenn Sie Probleme finden? Sie können eine der folgenden Techniken versuchen:

  • Tragen Sie eine automatische Korrektur Regel. Wenn Sie eine inkonsistente Schreibweise, zum Beispiel zu finden, machen eine Suche in einer Haupttabelle früherer Rechtschreibkorrekturen und automatisch die Änderung der Daten zu machen.

  • Nehmen Sie sich den Rekord für ein Teammitglied zu analysieren und später zu korrigieren. In diesem Fall könnten Sie den menschlichen Teil des QA in Verbindung mit automatischer Korrektur tun.

    Zum Beispiel werden automatische Korrekturen vorgenommen, wenn möglich, und ein Bericht über andere Probleme werden in eine separate Datei setzen und an den QA Person gesendet. Wenn der QA Person alle manuellen Korrekturen macht, verschmelzen Sie die Korrekturen wieder in den Daten, die durch die automatische QA-Prozess gegangen ist.

  • Kühlen Sie Ihre Jets. Wenn Sie genug Probleme entdecken, die es ernst meinen oder erfordern eine unbestimmte Menge an Forschung, betrachten den gesamten Prozess zu stoppen, bis Sie das Problem zu finden und zu beheben.

Sie können die QA-Prozess wesentlich effizienter machen, und viel weniger problematisch, wenn Sie eine gründliche Quellensystemanalyse durchführen. Wenn Sie eine ziemlich gute Vorstellung davon, welche Arten von Daten Probleme haben Sie in jeder Datenquelle finden können, können Sie Ihre QA-Prozess zu erkennen umprogrammieren und (hoffentlich) zu beheben diese Probleme, bevor Sie fortfahren.

Historisch gesehen, behandelt Organisationen die Data Warehouse-QA-Prozess als eine unidirektionale Strömung. Probleme werden korrigiert, bevor die Daten weiter in den Fluss der Middleware-Prozesse bewegt wird, aber niemals in den Datenquellen korrigiert. Die meisten neuen Data Warehouse haben eine integrierte Feedback-Schleife aus dem QA-Prozess, die Datenqualität in den Quelldaten korrigiert.

Datenqualitätssicherung: Teil II

Nach Abschluss der Transformationsprozesse müssen Daten QA'd werden - wieder. Man kann nie wissen, welche Art von Fehler oder Unstimmigkeiten der Transformationsprozess in die Daten eingeführt haben könnte. Nach Änderungen aufgetreten sind, sind alle früheren QA-Prozesse nicht mehr gültig.

Führen Sie die konsolidierte, transformierten Daten durch die gleiche Art von QA Schritte, die hier diskutiert. Obwohl Sie wahrscheinlich nicht so viele rudimentäre Fehler (wie zB Rechtschreibfehler oder Werte, die außerhalb des Bereichs liegen), wenn Sie eine gründliche Arbeit geleistet haben auf Ihrer QA ersten Ebene, möchten Sie immer noch sicher zu machen. Darüber hinaus gewährleisten, dass der Code oder Skripte für die Datentransformation verwendet nicht versehentlich neue Fehler verursachen einschleichen.

Das Ziel dieser zweiten Ebene QA ist, um sicherzustellen, dass der konsolidierten und transformierten Daten ist bereit, in das Data Warehouse zu laden - sobald ein weiterer Schritt erfolgt, falls erforderlich.

Menü