Die Hadoop-basierte Landing Zone

Wenn Sie versuchen, herauszubekommen, was eine Analyse-Umgebung wie in der Zukunft aussehen könnte, stoßen Sie auf das Muster der Hadoop-basierten Landezone immer und immer wieder. In der Tat ist es nicht einmal mehr ein Terminorientierte Diskussion, weil die Landezone geworden ist das Art und Weise, dass zukunftsgerichtete Unternehmen versuchen jetzt zu sparen IT-Kosten und eine Plattform für innovative Datenanalyse zur Verfügung stellen.

Was genau ist die Landezone? Auf der untersten Ebene, die Landezone ist nur der zentrale Ort, an dem Daten in Ihrem Unternehmen landen - wöchentlich Extraktionen von Daten aus den operativen Datenbanken, zum Beispiel, oder von Systemen Erstellen von Protokolldateien. Hadoop ist ein nützliches Repository in dem Daten aus diesen Gründen zu landen:

  • Es können alle Arten von Daten umgehen.

  • Es ist leicht skalierbar.

  • Es ist preiswert.

  • Nachdem Sie die Daten in Hadoop landen, haben Sie die Flexibilität, die Abfrage, Analyse oder die Daten in einer Vielzahl von Arten verarbeiten.

    bild0.jpg

Dieses Diagramm zeigt nur einen Teil der Geschichte und ist keineswegs vollständig. Schließlich müssen Sie, wie die Daten bewegt sich von der Landezone zu dem Data Warehouse zu wissen, und so weiter.

Der Ausgangspunkt für die Diskussion über ein Data Warehouse Modernisierung muss sein, wie Unternehmen Data Warehouse nutzen und die Herausforderungen, die IT-Abteilungen mit ihnen konfrontiert.

In den 1980er Jahren einmal Organisationen wurde gut an ihren operativen Informationen in relationalen Datenbanken speichern (Verkaufstransaktionen, zum Beispiel, oder Supply-Chain-Status), begann Führungskräfte Berichte aus dieser relationalen Daten generiert werden soll. Die frühesten relationalen Geschäfte waren operationalen Datenbanken und wurden für Online Transaction Processing (OLTP) ausgelegt, so dass Datensätze eingefügt werden konnten, aktualisiert oder so schnell wie möglich gelöscht.

Dies ist eine unpraktische Architektur für große Berichte und Analysen, so Relational Online Analytical Processing (ROLAP) Datenbanken wurden entwickelt, um diesen Bedarf zu erfüllen. Dies führte zu der Entwicklung eines völlig neuen Art von RDBMS: a Data Warehouse, Das ist eine separate Einheit und lebt neben einer operativen Datenspeicher des Unternehmens.

Dies kommt nach unten speziell gebaute Werkzeuge für mehr Effizienz zu verwenden: Sie Betriebsdaten speichert haben, die effizient gestaltet sind Transaktionen zu verarbeiten und Datenlager, die so gestaltet sind, um wiederholte Analyse und Reporting zu unterstützen.

Data Warehouse sind unter obwohl Stress steigt, aus den folgenden Gründen:

  • Die gestiegene Nachfrage Online längere Zeiträume von Daten zu halten.

  • Die gestiegene Nachfrage nach Verarbeitungsressourcen Daten für in anderen Lagern und Data Marts Gebrauch zu machen.

  • Die gestiegene Nachfrage nach innovativen Analytik, die Analysten erfordert Fragen zu den Lagerdaten zu stellen, auf der Oberseite der regelmäßigen Berichterstattung, die bereits getan wird. Dies kann erhebliche zusätzliche Verarbeitung anfallen.

In der Abbildung können Sie das Data Warehouse zu sehen als die primäre Ressource für die verschiedenen Arten der Analyse auf der rechten Seite der Figur aufgelistet dargestellt. Hier sehen Sie auch das Konzept einer Landezone repräsentiert, in dem Hadoop-Daten aus einer Vielzahl von eingehenden Datenquellen gespeichert werden.

Um eine Hadoop Landezone zu aktivieren, müssen Sie sicherstellen, dass Sie Daten aus den verschiedenen Datenquellen HDFS schreiben kann. Für relationale Datenbanken wäre eine gute Lösung zu verwenden Sqoop sein.

Aber die Daten der Landung ist nur der Anfang.

Wenn Sie Daten aus vielen Quellen in die Landezone zu bewegen, ein Problem, dass Sie in zwangsläufig laufen müssen, ist die Datenqualität. Es ist üblich, dass Unternehmen viele operative Datenbanken müssen, wo wichtige Details unterschiedlich sind, zum Beispiel, dass ein Kunde bekannt sein könnte als # 147-D. DeRoos # 148- in einer Datenbank und # 147-Dirk DeRoos # 148- in einem anderen.

Ein weiteres Qualitätsproblem liegt in Systemen, in denen es eine starke Abhängigkeit von der manuellen Dateneingabe, entweder von Kunden oder Mitarbeiter - hier ist es nicht ungewöhnlich, Vornamen und Nachnamen vertauscht oder andere Fehlinformationen in den Datenfeldern zu finden.

Datenqualitätsprobleme sind eine große Sache für Data-Warehouse-Umgebungen, und das ist, warum eine Menge Aufwand geht in die Reinigung und Validierungsschritte wie Daten aus anderen Systemen verarbeitet werden, da sie in das Lager geladen wird. Es kommt alles auf Vertrauen: Wenn die Daten, die Sie Fragen gegen verschmutzt sind zu fragen, können Sie die Antworten in Ihren Berichten nicht vertrauen.

So, während es ein enormes Potenzial, den Zugang zu vielen verschiedenen Datensätzen in mit aus unterschiedlichen Quellen in Ihrer Hadoop Landezone, müssen Sie in der Datenqualität Faktor und wie viel können Sie die Daten vertrauen.

Menü