Hadoop als Archivdatenziel

Die preiswerte Speicherkosten für Hadoop sowie die Möglichkeit, die wichtigste Destination für Archivdaten Hadoop-Daten mit SQL macht Hadoop abzufragen. Dieser Anwendungsfall hat einen geringen Einfluss auf Ihre Organisation, weil Sie Ihre Hadoop Geschick Gebäude aus auf Daten beginnen können, die auf leistungsunternehmenskritische Systeme nicht gespeichert ist.

Was mehr ist, müssen Sie auf die Daten schwer zu bekommen nicht funktionieren. (Da in der Regel die archivierten Daten auf Systemen gespeichert, die geringe Nutzung haben, ist es einfacher auf als Daten zu erhalten, die in ist # 147-Rampenlicht # 148- auf leistungsunternehmenskritische Systeme, wie Data Warehouse.) Wenn Sie bereits Hadoop als Landezone verwenden, haben Sie den Grundstein für Ihr Archiv! Sie halten einfach das, was Sie archivieren und löschen möchten, was Sie nicht tun.

Wenn Sie sich über die Hadoop der Landezone denken, die abfragbaren Archiv, in der Figur gezeigt, erstreckt sich der Wert von Hadoop und beginnt Stücke zu integrieren, die wahrscheinlich schon in Ihrem Unternehmen existieren. Es ist ein großartiges Beispiel für Skalen- und Kosten take-out Möglichkeiten mit Hadoop zu finden.

bild0.jpg

Hier verbindet sich das Archiv-Komponente die Landezone und das Data Warehouse. Wobei die Daten ihren Ursprung im Lager archiviert und wird dann in der Hadoop Cluster gespeichert, die auch die Landezone ist die Bereitstellung. Kurz gesagt, können Sie die gleiche Hadoop-Cluster verwenden, um Daten und fungieren als Ihre Landezone zu archivieren.

Der Schlüssel Hadoop-Technologie Sie verwenden würden die Archivierung durchzuführen Sqoop, die die Daten bewegen können aus dem Data Warehouse in Hadoop archiviert werden. Sie müssen sich überlegen, welche Form Sie die Daten in Ihrem Hadoop Cluster nehmen wollen. Im Allgemeinen sind komprimierte Hive-Dateien eine gute Wahl.

Sie können natürlich, transformieren die Daten von den Lagerstrukturen in eine andere Form (beispielsweise ein normierter Form Redundanz zu verringern), aber dies ist im Allgemeinen keine gute Idee. Halten Sie die Daten in der gleichen Struktur wie das, was im Lager ist wird es viel einfacher, einen vollständigen Datensatz Abfrage über die archivierten Daten in Hadoop und der aktiven Daten durchzuführen, die im Lager ist.

Das Konzept der Abfrage sowohl die aktiven und archivierten Datensätze bringt eine weitere Überlegung auf: Wie viele Daten sollten Sie archivieren? Es gibt wirklich zwei gemeinsame Möglichkeiten: Archiv alles als Daten hinzugefügt werden und in das Data Warehouse geändert oder Archivierung nur die Daten, die Sie halten kalt.

Archivierung alles, um den Nutzen von denen Sie muss einfach Anfragen von einer einzigen Schnittstelle über den gesamten Datensatz ausgeben - ohne eine vollständige Archiv, die Sie benötigen, um eine föderierte Abfrage Lösung herauszufinden, wo Sie zur Vereinigung, die Ergebnisse aus dem Archiv haben würde und die aktive Data-Warehouse.

Aber der Nachteil hier ist, dass regelmäßige Updates Ihrer heißen Daten des Data-Warehouse würde dazu führen, Kopfschmerzen für die Hadoop-basierten Archiv. Dies liegt daran, alle Änderungen an Daten in den einzelnen Zeilen und Spalten würden Großhandel Löschung verlangen und Wieder Katalogisierung der vorhandenen Datensätze.

Nun, da Archivierung von Daten in Ihrem Hadoop-basierten Landezone gespeichert wird (vorausgesetzt, Sie eine Option wie die komprimierten Dateien Hive zuvor erwähnt verwenden), können Sie es abfragen. Dies ist, wo die SQL auf Hadoop-Lösungen interessant.

Ein hervorragendes Beispiel dafür, was möglich ist, ist für die Analyse-Tools (auf der rechten Seite in der Figur), um direkt Berichte oder Analysen zu den archivierten Daten gespeichert in Hadoop auszuführen. Dies ist nicht das Data Warehouse zu ersetzen - schließlich würde Hadoop nicht das Lager des Leistungseigenschaften für die Unterstützung Hunderte oder mehr gleichzeitige Benutzer fragen, komplexe Fragen können übereinstimmen.

Der Punkt hier ist, dass Sie Reporting-Tools gegen Hadoop können mit neuen Fragen zu experimentieren und kommen in einem eigenen Lager oder Mart zu beantworten.

Wenn Sie Ihren ersten Hadoop-basierte Projekt für die Archivierung von Lagerdaten beginnen, brechen nicht die aktuellen Prozesse, bis Sie sie vollständig auf dem neuen Hadoop-Lösung getestet haben. Mit anderen Worten, wenn Ihre aktuelle Warehousing-Strategie auf Band zu archivieren, halten Sie diesen Prozess an Ort und Stelle, und Dual-Archivierung der Daten in Hadoop und Band, bis Sie das Szenario vollständig getestet haben (die typischerweise würden die Lagerdaten im Falle der Wiederherstellung ein Lagerversagen).

Auch wenn Sie (auf kurze Sicht) zwei Archiv-Repositories sind beibehalten, werden Sie eine robuste Infrastruktur verfügen und getestet, bevor Sie eine erprobte und wahre Prozess außer Betrieb nehmen. Dieser Prozess kann sicherstellen, dass Sie beschäftigt bleiben - mit Ihrem derzeitigen Arbeitgeber.

Dieser Anwendungsfall ist einfach, weil es keine Änderung des bestehenden Lagers. Das Geschäftsziel ist immer noch das gleiche: billiger Lagerung und Lizenzkosten durch die Migration selten genutzte Daten in ein Archiv. Der Unterschied in diesem Fall ist, dass die Technologie, die hinter dem Archiv ist Hadoop eher als Offline-Speicher, wie Band.

Darüber hinaus haben verschiedene Archiv-Anbieter gestartet Hadoop in ihre Lösungen zu integrieren (zum Beispiel, so dass ihre proprietären Archivdateien auf HDFS residieren), also erwarten Fähigkeiten in diesem Bereich bald zu erweitern.

Wie Sie Hadoop Fähigkeiten zu entwickeln (wie Daten zwischen Hadoop und relationalen Datenbanken und Abfragen von Daten in HDFS Austausch) können Sie verwenden, um größere Probleme zu lösen, wie die Analyse-Projekte, die in Ihrem Unternehmen einen Mehrwert bieten könnte Investitionen Hadoop für.

Menü