Hadoop und Hive

Um eine lange Geschichte kurz zu machen, Hive bietet Hadoop mit einer Brücke zum RDBMS Welt und stellt eine SQL-Dialekt bekannt als Hive Query Language (HiveQL), die verwendet werden können, um SQL-ähnliche Aufgaben ausführen. Das ist die große Nachricht, aber es gibt mehr zu Hive als das Auge sieht, wie sie sagen, oder mehrere Anwendungen dieser neuen Technologie, als Sie in einem Standard-Elevator Pitch präsentieren können.

Zum Beispiel Hive macht es auch möglich, das Konzept bekannt als Enterprise Data Warehouse (EDW) Augmentation, einem führenden Anwendungsfall für Apache Hadoop, wo Data Warehouse werden wie RDBMS speziell für die Datenanalyse und das Reporting aufgebaut.

Nun werden einige Experten argumentieren, dass Hadoop (mit Hive, HBase, Sqoop und seine verschiedenen Buddies) können die EDW ersetzen. Allerdings ist Apache Hadoop eine große Zusatz dem Unternehmen und dass es vermehren und Ergänzung bestehender EDW-Modelle. Hive, HBase und Sqoop EDW Augmentation ermöglichen.

Eng verbunden mit RDBMS / EDW-Technologie verbunden ist, Extrahieren, Transformieren und Laden (ETL) Technologie. Zu verstehen, was ETL ist, hilft es, zu wissen, dass in vielen Anwendungsfällen können die Daten nicht unmittelbar in die relationale Datenbank geladen werden - es muss zunächst aus seiner nativen Quelle extrahiert werden, in ein geeignetes Format umgewandelt und dann in das RDBMS geladen oder EDW.

Zum Beispiel kann ein Unternehmen oder eine Organisation könnte unstrukturierten Textdaten aus einem Internet-Forum zu extrahieren, um die Daten in einem strukturierten Format umwandeln, die beide wertvolle und nützlich ist, und dann die strukturierten Daten in seine EDW laden.

Sie können sehen, dass Hive ein leistungsstarkes ETL-Tool in seinem eigenen Recht ist, zusammen mit der großen Player in diesem Bereich: Apache Pig. Auch hier können Benutzer versuchen, Hive und Pig einzurichten als das neue ETL-Tools für das Rechenzentrum. (Lassen Sie sie versuchen.)

Wie bei der Debatte über die EDW im Vergleich zu Apache Hadoop, sind direkte diese Apache Hadoop-Technologien nicht Ersatzs ETL-Tools für bestehende, sondern sind leistungsstarke neue ETL-Tools bei Bedarf eingesetzt werden.

Last but not least, Apache Hive bietet Ihnen leistungsstarke Analyse-Tools, die alle im Rahmen der HiveQL. Diese Werkzeuge sollten aussehen und fühlen sich sehr vertraut an IT-Profis, die wissen, wie SQL zu verwenden.

Menü