Verwalten von Big Data mit Hadoop: HDFS und MapReduce

Hadoop, eine Open-Source-Software-Framework, verwendet HDFS (das Distributed File System Hadoop) und MapReduce große Daten auf Cluster von Standard-Hardware-in einer verteilten Rechnerumgebung ist, zu analysieren.

Das Hadoop Distributed File System (HDFS) wurde Unternehmen leichter zu ermöglichen, entwickelt, um große Datenmengen auf einfache und pragmatische Art und Weise zu verwalten. Hadoop können große Probleme in kleinere Elemente zerlegt werden, so daß die Analyse schnell durchgeführt werden kann und kostengünstig. HDFS ist ein vielseitiger, robust, Clustered-Ansatz, um Dateien in einem großen Datenumgebung zu verwalten.

HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr ist es eine Daten "Service", die eine einzigartige Kombination von Fähigkeiten bietet erforderlich, wenn Datenvolumen und Geschwindigkeit hoch sind.

MapReduce ist ein Software-Framework, mit dem Entwickler Programme schreiben können, die in einer verteilten Gruppe von Prozessoren große Mengen an unstrukturierten Daten parallel verarbeiten kann. MapReduce wurde von Google als eine Möglichkeit entwickelt effizient eine Reihe von Funktionen gegen eine große Datenmenge im Batch-Modus ausgeführt wird.

Die "Karte" Komponente verteilt die Programmierproblem oder Aufgaben über eine große Anzahl von Systemen und übernimmt die Platzierung der Aufgaben in einer Weise, die die Last und verwaltet Wiederherstellung nach Fehlern ausgleicht. Nachdem die verteilte Berechnung abgeschlossen ist, aggregiert die Elemente alle eine andere Funktion "reduzieren" genannt wieder zusammen ein Ergebnis zu liefern. Ein Beispiel für MapReduce Nutzung wäre, um zu bestimmen, wie viele Seiten eines Buches in jeder der 50 verschiedenen Sprachen geschrieben sind.

Menü