Hadoop als Abfragbare Archiv von Cold Lagerdaten

Eine Vielzahl von Studien zeigen, dass die meisten Daten in einem Enterprise Data Warehouse wird nur selten abgefragt. Datenbank-Anbieter haben auf solche Beobachtungen reagiert, indem sie ihre eigenen Methoden der Umsetzung für die Sortierung, welche Daten wird dort platziert, wo.

Ein Verfahren ordnet die Datenuniversum in Bezeichnungen heiß, warm oder kalt, wo heiß Daten (manchmal auch als aktiv Daten) wird oft verwendet, warm Daten werden von Zeit genutzt, um zeit- und kalt Daten werden nur selten verwendet. Die vorgeschlagene Lösung für viele Anbieter ist die kalten Daten auf langsameren Festplatten innerhalb der Data-Warehouse-Gehäuse zu speichern oder cleveren Caching-Strategien zu schaffen, unter anderem im Speicher, die heißen Daten zu halten.

Das Problem bei diesem Ansatz ist, dass, obwohl langsamer Speicher verwendet wird, ist es immer noch teuer ist kalt zu speichern, selten verwendete Daten in einem Lagerhaus. Die Kosten hier ergibt sich aus sowohl Hardware als auch Software-Lizenzierung. Zur gleichen Zeit, Kälte und dormant Daten oft auf Band archiviert.

Das traditionelle Modell der Archivierung von Daten zusammenbricht, wenn Sie alle kalten Daten in einem kostengünstigen und relativ effizient abfragen wollen - ohne alten Bänder zu beantragen, mit anderen Worten.

Wenn man sich die Kosten und die Betriebseigenschaften von Hadoop aussehen, in der Tat scheint es, dass es gilt das neue Backup-Band zu werden. Hadoop ist kostengünstig vor allem, weil Hadoop-Systeme ausgelegt sind, als eine niedrigere Klasse von Hardware zu verwenden, was normalerweise in Data-Warehouse-Systeme im Einsatz. Eine weitere erhebliche Kosteneinsparungen ist eine Software-Lizenzierung.

Kommerzielle Hadoop Vertriebslizenzen benötigen einen Bruchteil der Kosten von relationalen Data Warehouse-Software-Lizenzen, die für die teuer ist berüchtigt sind. Aus betriebswirtschaftlicher Sicht ist Hadoop entwickelt, um einfach durch Hinzufügen zusätzlicher Slave-Knoten zu einem vorhandenen Cluster nur zu skalieren. Und als Slave-Knoten hinzugefügt und Datensätze wachsen im Volumen, Hadoop des Datenverarbeitungs Frameworks ermöglichen Ihre Anwendungen nahtlos an den gestiegenen Arbeitsaufwand bewältigen.

Hadoop stellt eine einfache, flexible und kostengünstige Weise die Verarbeitung über buchstäblich Tausende von Servern zu drücken.

Mit seiner skalierbaren und kostengünstige Architektur würde Hadoop scheinen eine perfekte Wahl für die Archivierung von Lagerdaten sein. . . mit Ausnahme einer kleinen Sache: Die meisten der IT-Welt läuft auf SQL und SQL auf eigene spielt nicht gut mit Hadoop.

Sicher, die mehr Hadoop freundliche NoSQL Bewegung ist lebendig und gut, aber die meisten Power-User nutzen jetzt SQL durch eine gemeinsame, off-the-shelf-Toolsets, die SQL-Abfragen unter der Haube erzeugen - Produkte wie Tableau, Microsoft Excel und IBM Cognos BI.

Es ist wahr, dass das Hadoop Ökosystem Hive beinhaltet, ist aber Hive unterstützt nur eine Teilmenge von SQL, und obwohl die Leistung (zusammen mit SQL-Unterstützung) verbessert sich, es ist nicht annähernd so schnell bei kleineren Beantwortung von Anfragen als relationale Systeme sind. Vor kurzem gab es zu Hadoop große Fortschritte rund um SQL-Zugriff gewesen, die den Weg für Hadoop geebnet hat für Online-Data-Warehouse-Archive das neue Ziel zu werden.

Je nach Hadoop Anbieter, SQL (oder SQL-ähnliche) APIs sind immer zur Verfügung, so dass die häufigeren off-the-shelf Reporting- und Analyse-Tools nahtlos SQL ausgeben kann, die in Hadoop gespeicherten Daten ausführt. Zum Beispiel IBM seine Big SQL-API hat, hat Cloudera Impala und Hive selbst, über die Hortonworks Stinger Initiative wird zunehmend SQL-konform zu werden.

Obwohl verschiedene Standpunkte gibt (einige einige zu verbessern Hive- Ziel, zu erweitern Hive- und andere, eine Alternative zu schaffen), alle diese Lösungen versuchen, zwei Probleme zu lösen: MapReduce für die Ausführung kleinerer Abfragen eine schlechte Lösung ist, und SQL-Zugriff für jetzt - - ist der Schlüssel IT-Mitarbeiter zu ermöglichen, ihre vorhandenen SQL-Fähigkeiten zu nutzen Wert in Hadoop gespeicherten Daten zu erhalten.

Menü