Massively Parallel Processing Datenbanken

Um ein besseres Verständnis für die SQL-on-Hadoop Hive Alternativen zu bieten könnte es hilfreich sein, eine Grundierung auf Massively Parallel Processing (MPP) zu überprüfen erste Datenbanken.

Apache Hive geschichtet auf dem Hadoop Distributed File System (HDFS) und dem MapReduce-System und stellt eine SQL-ähnliche Programmierschnittstelle, um Ihre Daten (HiveQL, um genau zu sein). Diese Kombination von Hadoop-Technologien auf einem Cluster implementiert ist ähnlich wie MPP-Datenbanken, die für eine Weile in der IT-Markt existiert haben.

MPP-Datenbanken in der Regel eine SQL-Schnittstelle zur Verfügung stellen und eine relationale Datenbank-Management-System (RDBMS) durch eine Hochgeschwindigkeitsverbindung miteinander vernetzt sind auf einem Cluster von Servern ausgeführt werden. Die Abbildung zeigt die Komponenten eines RDBMS, die typischerweise enthalten sind, in SQL-on-Hadoop-Lösungen.

bild0.jpg

Relationale Datensysteme haben sich zu einem Punkt entwickelt, an dem besten Praktiken bei den meisten Angeboten im Hinblick auf eine optimale Ausführung der Abfrage-Infrastruktur entstanden. Die Figur zeigt, dies in Bezug auf die Strömung einer Abfrage, wie sie von einem RDBMS Engine verarbeitet wird.

Zunächst wird der Abfragetext analysiert und verstanden werden. Dann wird der Syntaxbaum für die Abfrage wird in eine logische Ausführungsplan zusammengestellt, die dann optimiert wird, um die endgültigen physikalischen Ausführungsplan zu bilden, die dann von der Laufzeit ausgeführt wird. Für viele der SQL-on-Hadoop-Lösungen, die Sie sehen ähnliche Komponenten in Hadoop Einsatz.

MPP-Cluster werden in der Regel als mit einer Shared-Nothing-Architektur bezeichnet, da jedes System seine eigene CPU, Speicher und Festplatte hat. Jedoch durch die Datenbanksoftware und Hochgeschwindigkeitsverbindungen, die Systemfunktionen als Ganzes und kann als neue Server zu dem Cluster hinzugefügt werden skalieren. Das Gesamtsystem wird explizit auf schnelle, interaktive Abfrage-Antwort abgestimmt.

MPP-Datenbanken sind oft flexibler, skalierbarer und kostengünstiger als die traditionellen RDBMS, auf einem Multi-Prozessor-Server gehostet werden.

Menü