Mine Big Data mit Hive

Hive ist eine chargenorientierte, Data-Warehousing-Schicht auf den Kernelementen von Hadoop gebaut (HDFS und MapReduce) und ist in großen Daten sehr nützlich. Es bietet dem Anwender die HiveQL namens SQL mit einer einfachen SQL-lite Implementierung kennen, ohne den Zugriff über Mapper und Reduzierungen zu opfern. Mit Hive, können Sie das Beste aus beiden Welten: SQL-ähnlichen Zugriff auf strukturierte Daten und anspruchsvolle große Datenanalyse mit MapReduce.

Anders als die meisten Data Warehouse wird Hive nicht für schnelle Antworten auf Anfragen entwickelt. In der Tat können Abfragen mehrere Minuten oder sogar Stunden dauern je nach Komplexität. Als Ergebnis wird am besten Hive für Data Mining und tiefere Analysen verwendet, die Echtzeit-Verhalten nicht benötigen. Weil es auf der Hadoop Grundlage beruht, ist es sehr erweiterbare, skalierbare und elastische, etwas, das die durchschnittliche Data Warehouse nicht.

Hive verwendet drei Mechanismen für die Datenorganisation:

  • Tabellen: Bienenstock-Tabellen sind die gleichen wie RDBMS Tabellen, bestehend aus Zeilen und Spalten. Da Hive auf dem Hadoop HDFS geschichtet ist, sind Tabellen auf Verzeichnisse im Dateisystem abgebildet. Darüber hinaus unterstützt Hive Tabellen in anderen nativen Dateisystemen gespeichert.

  • Partitionen: Ein Hive Tabelle kann eine oder mehrere Partitionen unterstützen. Diese Trennwände sind an Verzeichnisse in dem zugrunde liegenden Dateisystem zugeordnet sind und für die Verteilung von Daten in der gesamten Tabelle. Zum Beispiel wird, wenn eine Tabelle mit dem Namen autos, mit einem Schlüsselwert 12345 und ein Hersteller Wert Ford, der Pfad zu der Partition wäre / Hivewh / Autos / kv = 12345 / Ford.

  • Schaufeln: Im Gegenzug können die Daten in Eimern geteilt. Buckets werden als Dateien in der Partitionsverzeichnis in dem zugrunde liegenden Dateisystem gespeichert. Die Schaufeln sind an der Hash einer Spalte in der Tabelle basiert. Im vorherigen Beispiel, haben Sie vielleicht einen Eimer genannt Fokus, enthält alle Attribute eines Auto Ford Focus.

Hive Metadaten wird extern in die gespeicherte # 147-Metastore. # 148- Die Metastore ist eine relationale Datenbank, die detaillierte Beschreibungen des Hive-Schema, einschließlich Spaltentypen, Eigentümer, Schlüssel und Wertdaten, Tabellenstatistiken, und so weiter enthalten. Die Metastore ist in der Lage die Synchronisierung von Katalogdaten mit anderen Metadatendienste im Hadoop Ökosystem.

Hive unterstützt eine SQL-ähnliche Sprache namens HiveQL. HiveQL unterstützt viele der SQL-Primitiven, wie wählen, verbinden, Aggregat, Union alle, und so weiter. Es unterstützt auch Multitable-Abfragen und Einsätze durch die Eingangsdaten in einem einzigen HiveQL Aussage zu teilen. HiveQL kann erweitert werden, benutzerdefinierte Aggregation, Spalte Transformation und Embedded-MapReduce-Skripte zu unterstützen.

Menü