Checkpointing Updates in Hadoop Distributed File System

Hadoop Distributed File System (HDFS) ist ein Journaling-Dateisystem, in dem neue Änderungen an Dateien in HDFS werden in einem Bearbeitungsprotokoll erfasst, die auf dem NameNode in einer Datei mit dem Namen gespeichert ist. Von Zeit zu Zeit, wenn erreicht die Datei eine bestimmte Schwelle oder nach einer bestimmten Frist abgelaufen ist, müssen die protokollierten Einträge in die Master-Datei begangen werden.

Die NameNode selbst tut dies nicht, weil es Anwendungsanfragen zu beantworten, so schnell wie möglich gestaltet wird. Noch wichtiger ist, ist erhebliches Risiko in mit diesen Metadaten Update-Operation durch einen einzigen Master-Server verwaltet beteiligt.

Wenn die Metadaten wird die Zuordnung zwischen den Datenblöcken und ihre entsprechenden Dateien beschädigt zu beschreiben, ist die Originaldaten so gut wie verloren.

Checkpointing Dienstleistungen für eine Hadoop-Cluster werden durch eine von vier möglichen Dämonen behandelt, die neben den NameNode Daemon Master-Knoten auf ihren eigenen dedizierten Master-Knoten ausführen müssen:

  • Sekundäre NameNode: Vor Hadoop 2, war dies der einzige Checkpointing-Daemon, der von Prüfpunkten Verfahren in diesem Abschnitt beschriebenen Funktionen ausführen kann. Der Sekundär NameNode hat eine notorisch ungenau Namen, weil es in keiner Weise # 147-Sekundär # 148- oder ein # 147-Standby # 148- für die NameNode.

  • Checkpoint Knoten: Der Checkpoint Knoten ist der Ersatz für den sekundären NameNode. Es führt von Prüfpunkten und nichts mehr.

  • Backup-Knoten: Bietet Prüfpunktverfahren Service, sondern unterhält auch eine Sicherung der und Änderungen Datei.

  • Standby NameNode: Führt Prüfpunktverfahren Service und, im Gegensatz zu den alten Secondary NameNode, die Standby-NameNode ist ein echter Standby-Server, ein Hot-Swap des NameNode Prozess ermöglicht Ausfallzeiten zu vermeiden.

Der Prüfpunktverfahren Prozess

Die folgenden Schritte beschreiben den Prozess von Prüfpunkten, wie sie von der NameNode und der Checkpointing Dienst durchgeführt hat (beachten Sie, dass vier möglichen Dämonen für Prüfpunktverfahren verwendet werden kann):

  1. Wenn es Zeit ist, den Checkpoint zu erfüllen, schafft die NameNode eine neue Datei, die Journaling-Dateisystemänderungen zu akzeptieren.

    Er benennt die neue Datei.

  2. Als Ergebnis nimmt die Datei keine weiteren Änderungen und wird dem Checkpointing Dienst kopiert, zusammen mit der Datei.

  3. Die Checkpointing Service verbindet diese beiden Dateien, Erstellen einer Datei mit dem Namen.

  4. Die Checkpointing Dienst kopiert die Datei in der NameNode.

  5. Die NameNode überschreibt die Datei mit.

  6. Die NameNode benennt die Datei zu.

    bild0.jpg

Backup-Knoten Überlegungen

Darüber hinaus Prüfpunktverfahren Funktionalität zur Bereitstellung unterhält der Backup-Knoten den aktuellen Zustand aller Metadaten HDFS Block im Speicher, genauso wie die NameNode. In diesem Sinne hält es eine Echtzeit-Backup der staatlichen NameNode.

Als Ergebnis der Block Metadaten im Speicher zu halten, ist der Backup-Knoten wesentlich effizienter als der Checkpoint Knoten an der Checkpointing Aufgabe durchführen, weil die und Dateien nicht übertragen werden müssen und fusionierte dann. Diese Änderungen sind bereits im Speicher zusammengeführt.

Ein weiterer Vorteil der Backup-Knoten ist, dass die NameNode konfiguriert werden kann der Backup-Knoten zu übertragen, so dass es Journaldaten auf die Festplatte weiterhin besteht.

Wenn Sie das Backup-Knoten verwenden, können Sie nicht den Checkpoint Knoten laufen. Es gibt keine Notwendigkeit, dies zu tun, weil der Checkpointing Prozess bereits im Gange ist gepflegt.

Standby NameNode Überlegungen

Die Standby-NameNode ist der designierte Hot-Standby-Master-Server für die NameNode. Während seiner Tätigkeit als Standby dient, führt er auch den Prüfpunktverfahren Prozess. Als solche können Sie die Backup-Knoten oder Standby-Knoten nicht ausgeführt werden.

Sekundäre NameNode, Checkpoint Knoten, Backup-Knoten und Standby NameNode Master-Server-Design

Der Master-Server des sekundären NameNode, Checkpoint Knoten, Backup-Knoten oder Standby NameNode Dämonen haben die gleichen Hardware-Anforderungen wie die, die im Einsatz für den NameNode Master-Server ausgeführt wird. Der Grund dafür ist, dass diese Server auch in den Speicher laden alle Metadaten und Standortdaten über alle Datenblöcke in HDFS gespeichert.

Menü