Key HiveQL Eigenschaften

Die lebendige und aktive Apache Hive-Community ständig hinzufügens zu einem bereits umfangreichen Feature-Set, das noch schwieriger vollständige Abdeckung macht. Die folgende Liste fasst einige der wichtigsten HiveQL Funktionen für Sie:

  • Sicherheit: Apache Hive bietet ein Sicherheits-Subsystem, das bei der Verhinderung von zufälligen Datenkorruption oder Kompromiss zwischen vertrauenswürdigen Mitgliedern der Arbeitsgruppen sehr hilfreich sein kann. Allerdings heißt es in der Hive Sprache Handbuch deutlich, dass das Hive Security Subsystem nicht ruchlosen Benutzer ausgelegt ist, zu verhindern, dass ein Hive-System zu gefährden.

    Hive Sicherheit kann für einzelne Benutzer, Gruppen und administrative Rollen festgelegt werden. Hive bietet Privilegien, die erteilt oder entzogen für die Nutzer werden können, Gruppen oder administrative Rollen. The Hive 0.10 Release verbessert die Sicherheit in Multi-User-Umgebungen durch Ermächtigung des Metastore Bereitstellung und zukünftige Hive Versionen liefert die Integration mit dem Hadoop Sicherheitsrahmen zu erhöhen. Kerberos zeichnet sich als die Technologie der Wahl Apache Hadoop für die Sicherung.

  • Multi-User-Verriegelung: Hive unterstützt Multi-User-Warehouse-Zugang, wenn sie mit Apache Zookeeper konfiguriert. Ohne diese Unterstützung kann ein Benutzer eine Tabelle zur gleichen Zeit lesen, ein anderer Benutzer die Tabelle löscht - was offensichtlich unannehmbar.

    Multi-User-Zugriff wird über Konfigurationsvariablen in der Struktur-Datei site.xml aktiviert. Einmal konfiguriert, Hive erwirbt implizit Schleusung durch Zookeeper für bestimmte Tabellenoperationen. Benutzer können auch explizit verwalten Sperren in der Hive CLI. Schlösser und zugehörigen Konfigurationseigenschaften / Variablen werden in der Hive Sprache Manual.

  • Kompression: Datenkomprimierung kann nicht nur Platz auf der HDFS sparen, sondern auch die Leistung zu verbessern, indem die Gesamtgröße des Eingabe / Ausgabe-Operationen reduziert werden. Zusätzlich Kompression zwischen den Hadoop-Mapper und Reduzierungen können die Leistung verbessern, da weniger Daten zwischen den Knoten im Cluster übergeben wird.

    Hive unterstützt Zwischenkompression zwischen den Mapper und Reduzierungen sowie Tabellenausgabe Kompression. Hive auch versteht, wie komprimierte Daten in das Lager zu sich zu nehmen. Dateien werden komprimiert mit gzip oder bzip2 kann durch Hive der gelesen werden LADE DATEN Befehl.

  • Funktionen: HiveQL bietet eine breite Palette an integrierten Operatoren, integrierte Funktionen, eingebaute in Aggregatfunktionen und integrierte Tabelle erzeugenden Funktionen. Mehrere Beispiele in diesem Kapitel Verwendung integrierten Operatoren sowie Einbau-Aggregatfunktionen (AVG, MIN, und GRAF, beispielsweise).

    Um alle integrierten Funktionen für einen bestimmten Hive Release, verwenden Sie die Funktionen HiveQL Befehl. Sie können auch Informationen über eine integrierte Funktion abrufen, indem Sie die HiveQL Befehle DESCRIBE FUNCTION function_name und DESCRIBE FUNCTION VERLÄNGERT function_name.

    Verwendung der VERLÄNGERT Stichwort manchmal gibt Anwendungsbeispiele für die angegebene integrierte Funktion. Darüber hinaus ermöglicht Hive Benutzer ihre eigenen Funktionen zu erstellen, die so genannte benutzerdefinierte Funktionen oder benutzerdefinierte Funktionen. Mit Hive des Java-basierten UDF Framework, können Sie zusätzliche Funktionen zu erstellen, einschließlich Aggregate und Tabelle erzeugenden Funktionen. Diese Funktion ist einer der Gründe, die Hive als ETL-Tool funktionieren kann.

Menü