Randknoten in Hadoop-Clustern

Randknoten sind die Schnittstelle zwischen dem Hadoop Cluster und dem externen Netzwerk. Aus diesem Grund sind sie manchmal bezeichnet als Tor

Menu

Knoten. Am häufigsten Randknoten verwendet werden, um Client-Anwendungen und Cluster-Verwaltungs-Tools ausgeführt werden.

Sie sind oft auch als Bereitstellungsbereiche für Daten verwendet in den Cluster Hadoop übertragen werden. Als solche Oozie, Schwein, Sqoop und Management-Tools wie Hue und Ambari dort gut laufen. Die Abbildung zeigt die Prozesse, die Sie auf Edge-Knoten ausgeführt werden können.

bild0.jpg

Edge-Knoten werden oft in Hadoop-Hardware-Architektur Diskussionen übersehen. Diese Situation ist bedauerlich, weil Randknoten einen wichtigen Zweck in einem Hadoop Cluster dienen, und sie haben Anforderungen Hardware, die anders sind Master-Knoten und Slave-Knoten.

Im Allgemeinen ist es eine gute Idee, Implementierungen von Administrationstools auf dem Master-Knoten und Slave-Knoten zu minimieren, dass kritische Hadoop-Dienste wie die NameNode, um sicherzustellen, so wenig Wettbewerb um Ressourcen wie möglich haben.

Sie sollten vermeiden, dass ein Datentransfer-Dienstprogramm wie Sqoop auf alles andere als ein Randknoten auf, da die hohen Datentransfervolumen die Fähigkeit von Hadoop-Dienste auf dem gleichen Knoten zu kommunizieren riskieren könnte. Die Nachrichten Hadoop Dienste Austausch sind ihr Blut, so hohe Latenz bedeutet, dass der gesamte Knoten aus dem Cluster abgeschnitten werden könnte.

Die Abbildung zeigt zwei Randknoten, sondern auch für viele Hadoop-Cluster eine einzige Randknoten würde genügen. Zusätzliche Randknoten werden am häufigsten benötigt, wenn das Datenvolumen in den oder aus dem Cluster-zu viel übertragen wird für einen einzelnen Server zu handhaben.

Empfohlene Lager

Für Randknoten in einem Hadoop-Cluster verwenden Enterprise-Class-Speicher. Für Randknoten konzentrierte sich auf Verwaltungs-Tools und Lauf Client-Anwendungen verwenden vier 900GB SAS-Laufwerke, zusammen mit einem RAID-Festplatten-Controller für RAID konfiguriert 1 + 0.

Edge-Knoten orientiert Daten offensichtlich brauchen viel mehr Speicherplatz Einnahme, so dass Sie Laufwerke an den Randknoten hinzufügen. verwenden LFF SAS-Laufwerke in diesem Fall, weil viel höhere Kapazitäten zur Verfügung stehen, als auf kleinere Formfaktor SAS-Laufwerke im Vergleich.

Empfohlene Prozessoren

Insbesondere wird ein Dual-Socket-Server mit Ivy-Bridge-Prozessoren getaktet zwischen 2 und 2,5 GHz - Ein Universal-Edge-Knoten auch durch einen Prozessor Konfiguration ähnlich einer verwendet für Slave-Knoten bedient würden.

Empfohlene Speicher

Für die meisten Workloads auf Randknoten, 48GB RAM ist ausreichend.

Empfohlene Vernetzung

Um die Kommunikation zwischen dem externen Netzwerk ermöglichen und die Hadoop-Cluster, müssen Randknoten multi-homed in den privaten Subnetz des Hadoop-Cluster sowie in das Firmennetz werden.

Ein mehrfach vernetzter Computer ist eine, die Verbindungen zu mehreren Netzwerken gewidmet hat. Dies ist ein praktisches Beispiel dafür, warum Randknoten sind hervorragend geeignet für die Interaktion mit der Welt außerhalb des Hadoop-Cluster. Halten Sie Ihre Hadoop-Cluster in seinen eigenen privaten Subnetz ist eine ausgezeichnete Übung, so dass diese Randknoten dienen als gesteuerte Fenster innerhalb des Clusters.

Für Randknoten, die den Zweck der laufenden Client-Anwendungen oder Verwaltungsprogramme, zwei Paare von gebundenen 1 GbE-Netzwerkverbindungen dienen, sind zu empfehlen: ein Paar auf dem Hadoop-Cluster und ein weiteres Paar für das externe Netzwerk zu verbinden.

Edge-Knoten orientiert die Handhabung hoch eingehenden und ausgehenden Datentransferraten benötigen zwei (oder mehr) Paaren verbunden 10GbE Netzwerkanschlüsse: ein Paar auf dem Hadoop-Cluster und ein weiteres Paar für das externe Netzwerk oder bestimmte Daten aufnehmen Quellen zu verbinden.

Menü