Der Apache Hadoop Ökosystem

Hadoop ist mehr als MapReduce und HDFS (Hadoop Distributed File System): Es ist auch eine Familie verwandter Projekte (ein Ökosystem, wirklich) für Distributed Computing und große Datenverarbeitung. Die meisten (aber nicht alle) dieser Projekte werden von der Apache Software Foundation gehostet. In der Tabelle sind einige dieser Projekte.

Verwandte Hadoop-Projekte
ProjektnameBeschreibung
AmbariEin integrierter Satz von Hadoop-Verwaltungstools forinstalling, Überwachung und ein Hadoop-Cluster erhalten. Alsoincluded sind Werkzeuge hinzufügen oder Slave-Knoten zu entfernen.
AvroEin Rahmen für die effiziente Serialisierung (eine Art oftransformation) von Daten in eine kompakte Binärformat
FlumeEin Datenflussdienst für die Bewegung großer Mengen von Logdaten in Hadoop
HBaseEine verteilte Datenbank, die säulen HDFS für itsunderlying Speicher verwendet. Mit HBase, können Sie speichern Daten in extremelylarge Tabellen mit variabler Säulenstrukturen.
HCatalogEin Service für eine relationale Sicht auf die Daten gespeichert inHadoop, einschliesslich einen Standardansatz für tabellarische Daten
BienenstockEin verteiltes Data-Warehouse für Daten, die gespeichert ist HDFS-auch eine Abfragesprache bereitstellt, die auf SQL (HiveQL) basiert
FarbtonEine Hadoop Administrationsoberfläche mit praktischem GUI-Tools forbrowsing Dateien, Ausgabe Hive und Pig-Abfragen und Entwicklung Oozieworkflows
MahautEine Bibliothek von Maschinen statistische Algorithmen lernen, die in MapReduce wereimplemented und nativ auf Hadoop laufen kann
OozieEin Workflow-Management-Tool, das die Terminierung verarbeiten kann andchaining gemeinsam von Hadoop-Anwendungen
SchweinEine Plattform für die Analyse von sehr großen Datenmengen, die HDFS und mit einer Infrastruktur-Schicht runson eines compilerthat bestehend erzeugt Sequenzen von MapReduce-Programme und die Sprache layerconsisting der Abfragesprache namens Schwein-Latein
SqoopEin Werkzeug für effizient große Datenmengen betweenrelational Datenbanken und HDFS Bewegen
ZooKeeperEine einfache Schnittstelle an die zentrale Koordinierung der Dienste (wie Namensgebung, Konfiguration und Synchronisation) verwendet bydistributed Anwendungen

Das Hadoop Ökosystem und seine kommerziellen Distributionen weiterentwickeln, mit neuen oder verbesserten Technologien und Werkzeuge Schwellen die ganze Zeit.

Die Abbildung zeigt die verschiedenen Hadoop Ökosystem-Projekte und wie sie sich auf einem anderen:

bild0.jpg

Menü