SQL-Zugang und Apache Hive

Apache Hive ist unbestreitbar die am weitesten verbreitete Datenabfrage-Schnittstelle in der Hadoop-Community. Ursprünglich waren die Designziele für Hive nicht für die vollständige SQL-Kompatibilität und hohe Leistung, waren aber eine einfache, etwas vertraute Schnittstelle für Entwickler zur Verfügung zu stellen, um Batch-Abfragen für Hadoop zu erteilen.

Diese eher fragmentarische Ansatz nicht mehr funktioniert, so wächst die Nachfrage nach realen SQL-Unterstützung und gute Leistung. Hortonworks reagiert auf diese Nachfrage durch die Stinger-Projekt zu schaffen, wo es bei der Verbesserung der Hive seine Entwickler-Ressourcen investiert, schneller zu sein, zu einem Petabyte-Ebene skalieren und nachgiebiger zu SQL-Standards zu sein. Diese Arbeit wurde in drei Phasen geliefert werden.

In den Phasen 1 und 2 haben Sie eine Reihe von Optimierungen, wie Abfragen für herkömmliche SQL-Daten Typen- der Zugabe des ORCFile Format für eine effizientere Verarbeitung und Lagerungs- und Integration mit GARN für eine bessere Leistung sowie zusätzliche Unterstützung verarbeitet wurden.

In Phase 3, nehmen Sie die wirklich wichtigen Entwicklungen statt, die Hive von MapReduce entkoppeln. Konkret geht es um die Veröffentlichung von Apache Tez, die eine alternative Verarbeitungsmodell für Hadoop ist, für interaktive Workloads konzipiert.

Neben dem Stinger-Projekt anführt Hortonworks eine ehrgeizige Initiative Hive zu ermöglichen Bearbeitung von Daten auf Zeilenebene mit voller Übereinstimmung mit den ACID-Eigenschaften für Datenbanksysteme zu unterstützen: Unteilbarkeit, Konsistenz, Isolation Ebenen und Haltbarkeit.

Menü