Google Dremel und Hadoop

Für die meisten Menschen der Begriff Dremel bringt eine praktische High-Speed-, Low-Drehmomentwerkzeug in den Sinn, die gut für eine Vielzahl von Aufgaben rund um das Haus funktioniert. Aber wussten Sie, dass Google eine Dremel erstellt? Anstatt produzieren ein anderer Hand mechanisches Werkzeug, aber entschied sich Google eine schnelle Software-Tool für die interaktive Analyse von großen Datenmengen gedacht.

Wie auch bei anderen Google-Technologien, die Teile des Hadoop Ökosystem, wie MapReduce, Google File System (HDFS) und BigTable (siehe HBase) inspiriert, entwickelt Google Dremel für die interne Nutzung und veröffentlichte dann ein Papier beschreibt den Zweck und die Gestaltung der Technik . (Mit anderen Worten, ist Dremel nicht etwas, das Sie herunterladen und verwenden können auf Hadoop-Cluster.)

Google verwendet Dremel für eine Vielzahl von Arbeitsplätzen, Web-durchforsteten Dokumente einschließlich der Analyse, Erkennung E-Mail-Spam, Arbeiten durch Berichte Absturz der Anwendung, und vieles mehr. Google BigQuery Dienst nutzt tatsächlich Dremel.

Google entwickelt MapReduce-Technologie für die Stapelverarbeitung über massiven Datenmengen. Wie ihre Bedürfnisse entwickelt, so hat ihre Technologie und Google entschieden Dremel zu erstellen Leistung für interaktive Abfragen für große Datenmengen zu verbessern.

Die MapReduce Ansatz bietet Skalierbarkeit und Abfragefehlertoleranz, aber es ist im Grunde ein Batch-basiertes System, so die Reaktionszeiten für kleinere Abfragen (Abfragen, die nur einen kleinen Teil des gesamten Datensatzes, zum Beispiel) sind oft nicht, was die Nutzer erwarten.

So entwickelt Google eine Abfrageausführungs Technologie für interaktive Abfragen entwickelt, die auf dem Google File System auf Zwischen Servern ausgeführt wird (GVS). (Denken Sie daran, GFS war die Inspiration für Apache HDFS, das Dateisystem Hadoop ist ist.)

Ähnlich wie Hive verwendet Dremel eine SQL-ähnliche Sprache (kennen die meisten Programmierer) und beschäftigt eine säulenDatenLayout. Dremel bietet eine schnelle, interaktive Abfrageantwort während die Skalierbarkeit und Fehlertoleranz in Apache Hive gefunden zu erhalten. In der Dremel White Paper, erklärt Google, wie es die Aggregation-Anfragen innerhalb von Sekunden über Tabellen mit einer Billion Zeilen durchführen können - gar nicht schlecht.

So hat Google seine Dremel-Technologie, die es intern verwendet, aber dann gibt es alle Technologien # 147-inspiriert von # 148- Dremel (eine Art, wie all jene Parfums # 147-inspiriert von # 148- Drakkar Noir).

Menü