Layer 4 des Big Data Stack: Analytical Data Warehouse

Das Data Warehouse, Schicht 4 des großen Datenstapel, und seine Begleiter die Data-Mart, sind seit langem die primären Techniken gewesen, die Unternehmen verwenden, um Daten zu optimieren Entscheidungsträger zu helfen. Typischerweise enthalten, Data Warehouse und Marts normalisierte Daten aus einer Vielzahl von Quellen gesammelt und zusammengebaut Analyse des Unternehmens zu erleichtern.

Data Warehouse und Marts vereinfachen die Erstellung von Berichten und die Visualisierung von unterschiedlichen Datenelemente. im wesentlichen jeder Speicherarchitektur - Sie sind im Allgemeinen aus relationalen Datenbanken, multidimensionale Datenbanken, Flat Files, und Objektdatenbanken erstellt. In einer traditionellen Umgebung, in denen die Leistung nicht die höchste Priorität ist, die Wahl der zugrunde liegenden Technologie durch die Anforderungen für die Analyse, Reporting und Visualisierung der Unternehmensdaten angetrieben werden können.

Da die Organisation der Daten und ihre Bereitschaft zur Analyse Schlüssel sind, sind die meisten Data-Warehouse-Implementierungen Strom über die Stapelverarbeitung gehalten. Das Problem ist, dass Batch-geladenen Daten Lagerhallen und Data Marts können für viele große Datenanwendungen unzureichend sein. Die Belastung auferlegt durch Hochgeschwindigkeits-Datenströme erfordert wahrscheinlich eine Echtzeit-Ansatz für große Data Warehouse.

Dies bedeutet nicht, dass Sie nicht ein analytisches Data Warehouse oder Data Mart mit Batch-Prozesse werden die Erstellung und Fütterung. Vielmehr können Sie mehrere Data Warehouse oder Data Marts aufweist und die Leistung und Umfang widerspiegelt die zeitlichen Anforderungen der Analysten und Entscheider enden.

Da viele Data Warehouse und Data Marts von Daten bestehen aus verschiedenen Quellen innerhalb eines Unternehmens gesammelt, damit verbundenen Kosten im Zusammenhang mit der Reinigung und Normalisierung der Daten muss auch angesprochen werden. Mit großen Daten, finden Sie einige wichtige Unterschiede:

  • Traditionelle Datenströme (aus Transaktionen, Anwendungen, usw.) kann eine Menge unterschiedlicher Daten zu erzeugen.

  • Dutzende von neuen Datenquellen bestehen auch, von denen jeder eine gewisse Manipulation benötigt, bevor es an der Zeit und nützlich für das Geschäft sein kann.

  • Inhaltsquellen müssen auch gereinigt werden, und diese können unterschiedliche Techniken erfordern, als Sie mit strukturierten Daten verwenden können.

Historisch gesehen wurden die Inhalte von Data Warehouse und Data Marts organisiert und Führungskräfte verantwortlich für Strategie und Planung geliefert. Mit großen Daten sind eine neue Reihe von Teams nutzt Daten für die Entscheidungsfindung.

Viele große Daten Implementierungen bieten Echtzeit-Fähigkeiten, so Unternehmen in der Lage sein sollte, Inhalte zu liefern Personen mit operativen Aufgaben zu ermöglichen, Themen wie Kundenbetreuung, Verkaufschancen zu adressieren, und Service-Ausfälle nahezu in Echtzeit. Auf diese Weise hilft große Daten Aktion aus dem Back-Office zum Front-Office verschieben.

Bestehende Analysetools und Techniken wird sehr hilfreich sein im Sinne der großen Daten. Allerdings gibt es einen Haken. Die Algorithmen, die ein Teil dieser Werkzeuge sind in der Lage sein mit großen Mengen an potentiell Echtzeit und unterschiedliche Daten zu arbeiten. Die Infrastruktur muss vorhanden sein, dies zu unterstützen.

Und Anbieter Analysetools bieten müssen auch sicherstellen, dass ihre Algorithmen in verteilten Implementierungen arbeiten. Aufgrund dieser Komplexität, eine neue Klasse von Werkzeugen erwarten zu helfen, Sinn für große Datenmengen zu machen.

Es gibt drei Klassen von Werkzeugen in dieser Schicht der Referenzarchitektur. Sie können unabhängig oder gemeinsam von den Entscheidungsträgern verwendet werden, um das Geschäft zu helfen steuern. Die drei Klassen von Werkzeugen sind wie folgt:

  • Berichte und Dashboards: Diese Tools bieten eine "benutzerfreundliche" Darstellung der Informationen aus verschiedenen Quellen. Obwohl eine tragende Säule in der traditionellen Datenwelt ist dieser Bereich noch in der Entwicklung für große Datenmengen. Einige der Werkzeuge, die verwendet werden, sind traditionell diejenigen, die jetzt die neuen Arten von Datenbanken zugreifen können kollektiv NoSQL (und nicht nur SQL) genannt.

  • Visualisierung: Diese Werkzeuge sind der nächste Schritt in der Evolution der Berichterstattung. Die Ausgabe neigt sehr interaktiv und dynamisch in der Natur zu sein. Ein weiterer wichtiger Unterschied zwischen den Berichten und visualisiert Ausgabe Animation. Business-Anwender können die Änderungen in den Daten, die eine Vielzahl von verschiedenen Visualisierungstechniken nutzen, einschließlich Mindmaps, Heat Maps, Infografiken, und Anschlusspläne sehen. Reporting und Visualisierung erfolgen am Ende der Geschäftstätigkeit.

  • Analytics und erweiterte Analyse: Diese Tools reichen bis in das Data Warehouse und verarbeiten die Daten für den menschlichen Verzehr. Advanced-Analysen sollten Trends oder Ereignisse explizieren sind transformierende, einzigartig, oder revolutionär zu bestehenden Geschäftspraxis. Prädiktive Analysen und Stimmungsanalysen sind gute Beispiele für diese Wissenschaft.

Menü