Die Bedeutung von MapReduce in Hadoop

Für die meisten der Geschichte Hadoop hat MapReduce das einzige Spiel in der Stadt, wenn es um die Datenverarbeitung kommt. Die Verfügbarkeit von MapReduce war ein wichtiger Faktor bei der Begrenzung der weiteren Annahme der Grund für Hadoop Erfolg und zugleich.

MapReduce ermöglicht erfahrene Programmierer verteilte Anwendungen zu schreiben, ohne über die zugrunde liegenden verteilten Computing-Infrastruktur kümmern zu müssen. Dies ist eine sehr große Sache: Hadoop und MapReduce Framework alle möglichen Komplexität handhaben, dass Anwendungsentwickler brauchen nicht zu handhaben.

Zum Beispiel skalieren die Fähigkeit, transparent den Cluster aus durch Knoten und die automatische Failover sowohl die Datenspeicherung und Datenverarbeitung Subsysteme passieren mit Null Auswirkungen auf die Anwendungen hinzufügen.

Die andere Seite der Medaille ist hier, dass, obwohl MapReduce eine enorme Menge an Komplexität verbirgt, können Sie nicht zu vergessen leisten, was es ist: eine Schnittstelle für die parallele Programmierung. Dies ist eine erweiterte Fähigkeit - und ein Hindernis für eine weitere Verbreitung. Es gibt einfach noch nicht viele MapReduce-Programmierer, und nicht jeder hat die Fähigkeit, es zu meistern.

In Hadoop frühen Tagen (Hadoop 1 und vor), können Sie nur MapReduce-Anwendungen auf dem Cluster laufen. In Hadoop 2 änderte sich die Garnkomponente, dass alle von über Ressourcenmanagement zu nehmen und die Planung aus dem MapReduce-Framework und bietet eine generische Schnittstelle Anwendungen zu erleichtern, auf einem Hadoop-Cluster ausgeführt werden.

Kurz gesagt bedeutet dies, MapReduce jetzt können Sie nur eine von vielen Anwendungs-Frameworks ist verwenden, um Anwendungen, die auf Hadoop entwickeln und zu betreiben. Obwohl es durchaus möglich ist, Anwendungen mit anderen Frameworks auf Hadoop zu laufen, bedeutet es nicht, dass wir vergessen, über MapReduce beginnen können.

MapReduce ist derzeit das einzige produktionsfertige Datenverarbeitungs-Framework für Hadoop. Obwohl andere Frameworks schließlich zur Verfügung stehen werden, MapReduce fast ein Jahrzehnt der Reife unter seinem Gürtel hat (mit fast 4.000 JIRA Fragen abgeschlossen, Hunderte von Entwicklern beteiligt, wenn Sie den Überblick zu halten sind).

Es gibt keinen Streit: MapReduce ist den meisten der Hadoop reifen Rahmen für die Datenverarbeitung. Darüber hinaus ist eine erhebliche Menge an MapReduce-Code im Einsatz, die überall bald unwahrscheinlich ist, zu gehen. Lange Rede kurzer Sinn: MapReduce ist ein wichtiger Teil der Hadoop Geschichte.

Die Apache Hive und Apache Pig-Projekte sind sehr beliebt, weil sie einfacher Einstiegspunkte für die Datenverarbeitung auf Hadoop sind. Für viele Probleme, vor allem die Art, die Sie mit SQL lösen können, Hive und Pig sind hervorragende Werkzeuge. Aber für eine weiterreichenden Aufgabe wie statistische Verarbeitung oder Textextraktion und insbesondere für Verarbeitung von unstrukturierten Daten, müssen Sie MapReduce zu verwenden.

Menü