Die MapReduce Anwendung Durchfluss in Hadoop

In seinem Kern ist MapReduce ein Programmiermodell für die Datenmengen verarbeitet werden, die in einer verteilten Weise über eine Hadoop-Cluster der Slave-Knoten gespeichert sind. Der Schlüsselbegriff ist hier Teile und herrsche. Insbesondere möchten Sie eine große Daten in viele kleinere Stücke gesetzt zu brechen und verarbeiten sie parallel mit dem gleichen Algorithmus.

Mit dem Hadoop Distributed File System (HDFS), werden die Dateien bereits aufgeteilt in mundgerechte Stücke schneiden. MapReduce ist das, was Sie alle Stücke zu verarbeiten verwenden.

MapReduce-Anwendungen haben mehrere Phasen, wie in dieser Liste ausgeschrieben:

  1. Bestimmen Sie die genauen Datensätzen aus den Datenblöcken zu verarbeiten. Dies beinhaltet die Berechnung, wo die Datensätze verarbeitet werden sollen, werden innerhalb der Datenblöcke entfernt.

  2. Führen Sie den angegebenen Algorithmus gegen jeden Datensatz in der Datenmenge, bis alle Datensätze verarbeitet werden.

    Die einzelnen Instanz der Anwendung ausgeführt wird gegen einen Block von Daten in einem Datensatz wird als bekannt Mapper Aufgabe. (Dies ist die Abbildungs ​​Teil MapReduce.)

  3. Vor Ort durchführen jeder Mapper eine vorläufige Reduktion des Ausgangs.

    (Die Ausgänge werden vorläufig in Kombination mit anderen Worten.) Diese Phase optional ist, weil in einigen Fällen üblich, ist es nicht wünschenswert ist.

  4. Basierend auf Partitionierungsanforderungen, gruppieren Sie die geltenden Partitionen von Daten von jedem Ergebnismengen des Mapper.

  5. Kochen Sie die Ergebnismengen aus den Mapper in einem einzigen Ergebnismenge nach unten - der Teil von MapReduce reduzieren.

    Eine einzelne Instanz der Anwendung ausgeführt wird gegen Mapper Ausgangsdaten werden als bekannt Minderer Aufgabe. (So ​​seltsam es scheinen mag, da # 147-Reduce # 148- Teil des MapReduce Name ist, kann diese Phase optional- Anwendungen ohne Minderer sind bekannt als map-nur Jobs, welche kann nützlich sein, wenn es keine Notwendigkeit ist, die Ergebnismengen aus den Karten Aufgaben zu kombinieren.)

Menü