Big Data Analysis und die Data Warehouse

Sie werden zusammen Wert bringen die Fähigkeiten des Data Warehouse und die große Datenumgebung finden. Sie benötigen eine Hybridumgebung zu schaffen, in denen große Daten Hand in Hand mit dem Data Warehouse arbeiten können.

Menu

Zunächst ist es wichtig, dass die Data-Warehouse zu erkennen, wie es heute nicht die kurzfristig ändern ausgelegt ist.

Daher ist es eher pragmatisch das Data Warehouse für die Verwendung, was es konzipiert wurde, zu tun - eine wohlüberprüft Version der Wahrheit über ein Thema, dass das Geschäft zu analysieren will. Das Lager kann Informationen über ein bestimmtes Unternehmen die Produktlinie, die Kunden, die Lieferanten, und die Einzelheiten der ein Jahr im Wert von Transaktionen umfassen.

Die Informationen im Data Warehouse oder Abteilungs Data Mart verwaltet sorgfältig konstruiert wurde, so dass Metadaten korrekt ist. Mit dem Wachstum der neuen webbasierten Informationen, ist es praktisch und oft notwendig, um diese enorme Menge an Daten in Zusammenhang mit den historischen Daten zu analysieren. Dies ist, wo das Hybridmodell kommt.

Bestimmte Aspekte des Data-Warehouse mit großen Daten heiraten kann relativ einfach sein. Zum Beispiel kommen viele der großen Datenquellen aus Quellen, die ihre eigenen gut gestalteten Metadaten enthalten. Komplexe E-Commerce-Sites sind gut definierte Datenelemente. Deshalb wird, wenn zwischen dem Lager und der großen Datenquelle, die Informations-Management-Organisation arbeitet mit zwei Datensätze mit sorgfältig gestalteten Metadatenmodelle Durchführung Analyse, die es zu rationalisiert haben.

Natürlich kann in manchen Situationen fehlt den Informationsquellen expliziten Metadaten. Bevor ein Analyst die historischen Transaktionsdaten mit den weniger strukturierten großen Daten kombinieren kann, hat viel zu tun. Typischerweise werden erste Analyse von Petabytes von Daten interessante Muster zeigen, dass subtile Veränderungen in der Wirtschaft oder mögliche Lösungen helfen können, die Diagnose der eines Patienten vorherzusagen.

Die erste Analyse können Tools wie MapReduce mit der Hadoop Distributed File System Rahmen abgeschlossen werden, nutzen. An dieser Stelle können Sie beginnen zu verstehen, ob es in der Lage ist, das Problem angegangen, um zu bewerten ist.

Bei dem Verfahren der Analyse ist es ebenso wichtig, unnötige Daten zu eliminieren, da sie Daten zu identifizieren, die für die Unternehmenskontext ist. Wenn diese Phase abgeschlossen ist, muss die verbleibende Daten transformiert werden, so dass Metadaten-Definitionen genau sind. Auf diese Weise, wenn der große Daten mit traditionellen, historischen Daten aus dem Lager kombiniert wird, werden die Ergebnisse genau und sinnvoll sein.

Die große Datenintegration lynchpin

Dieses Verfahren erfordert eine gut definierte Datenintegrationsstrategie. Während die Datenintegration ein kritisches Element für die Verwaltung großer Daten ist, ist es ebenso wichtig, wenn eine Hybrid-Analyse mit dem Data-Warehouse zu schaffen. In der Tat ist die Prozessdaten zu extrahieren und es in einer Hybridumgebung Umwandlung sehr ähnlich wie dieser Prozess in einem herkömmlichen Datenlager ausgeführt.

Im Data Warehouse werden Daten aus traditionellen Quellsystemen wie CRM oder ERP-Systemen extrahiert. Es ist wichtig, dass die Elemente aus diesen verschiedenen Systemen richtig abgestimmt werden.

Rethink Extraktion, Transformation und Belastungen für Data Warehouse

Im Data Warehouse finden Sie häufig eine Kombination von relationalen Datenbanktabellen, Flat Files, und nicht relationale Quellen. Eine gut konstruierte Data Warehouse wird architected werden, so dass die Daten in ein gemeinsames Format konvertiert wird, so dass Abfragen genau und konsistent verarbeitet werden. Die extrahierten Dateien müssen die Geschäftsregeln und Prozesse des Fachgebiets zu entsprechen umgewandelt werden, dass das Data Warehouse zu analysieren konzipiert.

Mit anderen Worten, die Daten aus den großen Datenquellen extrahiert werden, so dass diese Quellen sicher zusammenarbeiten können und aussagekräftige Ergebnisse zu erzielen. Darüber hinaus haben die Quellen umgewandelt werden, so dass sie bei der Analyse der Beziehung zwischen der historischen Daten und der dynamischer und Echtzeit-Daten hilfreich sind, die von großen Datenquellen kommt.

Informationen in der großen Datenmodell geladen wird anders sein als das, was Sie in einem traditionellen Data Warehouse erwartet. Mit Data Warehouse, nachdem Daten kodifiziert worden ist, es ändert sich nie. Ein typisches Data Warehouse wird das Geschäft mit einem Snapshot von Daten liefern, basierend auf der Notwendigkeit eines bestimmten Business-Thema zu analysieren, die Überwachung, wie Inventur oder Vertrieb erfordert.

Die verteilte Struktur von großen Daten werden oft Organisationen zum ersten Ladedaten in eine Reihe von Knoten führen und dann die Extraktion und Transformation durchführen. Wenn eine Mischung aus dem traditionellen Data Warehouse und der großen Datenumgebung zu schaffen, kann die verteilte Natur der großen Datenumgebung dramatisch die Fähigkeit von Organisationen verändern sich mit dem Unternehmen große Mengen an Daten im Kontext zu analysieren.

Menü