Cloudera Impala und Hadoop

Cloudera ist ein führender Apache Hadoop Software und Services-Anbieter in den großen Datenmarkt. Wie Apache Drill, der Cloudera sucht Impala-Technologie interaktive Abfrage-Antwortzeit für Hadoop Benutzer zu verbessern. Apache Hive hat eine vertraute und leistungsfähige Abfragemechanismus für Hadoop Benutzer zur Verfügung gestellt, aber Abfrageantwortzeiten sind oft nicht akzeptabel aufgrund Hive Vertrauen auf MapReduce. Cloudera Antwort auf dieses Problem ist Impala.

Cloudera hat einen MPP-Abfrage-Engine, geschrieben in C ++, entwickelt, um die MapReduce Schicht von Apache Hive Leveraged zu ersetzen. Im Gegensatz zu Dremel und Drill, entschied Cloudera, dass eine native C ++ MPP-Motor - anstelle eines Java-Engine - war die Antwort für die schnelle, interaktive Hadoop Abfragen.

Beachten Sie, dass Impala HiveQL als Programmierschnittstelle verwendet, und Query Exec Engines des Impala sind co-located mit HDFS Datenknoten, mit dem Hadoop Ansatz von Co-Ortungsdaten mit Verarbeitungsaufgaben zu halten. Impala kann auch HBase als Datenspeicher verwenden. In diesem Sinne ist Impala eine Erweiterung Apache Hadoop, eine sehr leistungsstarke Alternative zu den Hive-on-top-of-MapReduce-Modell bietet.

Cloudera und Twitter führte die Entwicklung des neuen Hadoop-Dateiformat, das mit Impala verwendet werden kann, und ist als Open Source auf GitHub verfügbar. Das Parkett-Dateiformat bietet eine robuste säulenMedium für Daten in Hadoop zu speichern. Es unterstützt die hocheffiziente Kompression und Kodierung und ist wirksam für verschachtelte Datenstrukturen zu speichern.

Sie können finden Cloudera Impala-Technologie, die auch von Google-Dremel Erfindung inspiriert.

Menü