Bestimmen der Größe der Hadoop-Cluster

jede Datenverarbeitungssystem Sizing ist ebenso eine Wissenschaft, wie sie eine Kunst. Mit Hadoop, betrachten Sie die gleichen Informationen, wie Sie es mit einer relationalen Datenbank, zum Beispiel. Am wichtigsten ist, müssen Sie wissen, wie viele Daten Sie haben, schätzen den erwarteten Wachstumsraten und eine Aufbewahrungsrichtlinie schaffen (wie lange die Daten zu halten).

Die Antworten auf diese Fragen dienen als Ausgangspunkt, die aus irgendwelchen technologiebezogenen Anforderungen unabhängig ist.

Nachdem Sie bestimmen, wie viele Daten Sie speichern müssen, können Sie Factoring in Hadoop spezifischen Überlegungen beginnen. Nehmen wir an, dass Sie ein Telekom-Unternehmen haben, und Sie haben festgestellt, dass Sie benötigen 750 Terabyte (TB) Speicherplatz für seine Call Detail Record (CDR) Log-Dateien.

Sie behalten diese Aufzeichnungen staatlichen Vorschriften zu gehorchen, aber man kann sie auch Abwanderungs Muster und überwachen Netzwerk Gesundheit sehen analysieren, zum Beispiel. Um zu ermitteln, wie viel Speicherplatz Sie benötigen, und, als Folge, wie viele Racks und Slave-Knoten, die Sie benötigen, können Sie führen Ihre Berechnungen mit diesen Faktoren im Auge:

  • Replikation: Der Standardreplikationsfaktor für Daten in HDFS ist 3. Die 500 Terabytes von CDR-Daten für die Telekommunikationsunternehmen im Beispiel dann verwandelt sich in 1500 Terabyte.

  • Swap-Speicher: Jede Analyse und Verarbeitung der Daten, die von MapReduce benötigt eine zusätzliche 25 Prozent der Fläche zu speichern alle Zwischen- und Endergebnis Sets. (Das Telekommunikationsunternehmen muss nun 1875 Terabyte Speicherplatz.)

  • Kompression: Das Telekommunikationsunternehmen speichert die CDRs in einer komprimierten Form, wo die durchschnittliche Kompressionsrate erwartet wird, 3: 1 sein. Sie müssen nun 625 Terabyte.

  • Anzahl der Slave-Knoten: Unter der Annahme, dass jeder Slave-Knoten zwölf 3TB-Laufwerke hat auf HDFS gewidmet, jeder Slave-Knoten verfügt über 36 Terabyte an rohen HDFS Lagerung zur Verfügung, so muss das Unternehmen 18 Slave-Knoten.

  • Anzahl der Regale: Da jeder Slave-Knoten verwendet 2HE und das Unternehmen im Beispiel braucht drei Master-Knoten (1HE pro Stück) und zwei ToR-Switches (1 HE pro Stück), müssen Sie insgesamt 41RU. Es ist 1HE weniger als die Gesamtkapazität eines Standard-Rack, so dass ein einzelnes Rack ist für diesen Einsatz ausreichend.

    Unabhängig davon, bleibt kein Raum für Wachstum in diesem Cluster, so ist es ratsam, eine zweite Zahnstange (und zwei zusätzliche ToR-Switches) und teilen Sie die Slave-Knoten zwischen den beiden Gestellen zu kaufen.

  • Testen: einen Test-Cluster pflegen, die in kleinerem Maßstab Darstellung der Produktionscluster ist eine gängige Praxis. Es muss nicht riesig sein, aber Sie wollen mindestens fünf Datenknoten, so dass Sie eine genaue Darstellung von Hadoop Verhalten bekommen. Wie bei jeder Testumgebung, sollte es in einem anderen Netzwerk aus dem Produktions cluster isoliert werden.

  • Backup und Disaster Recovery: Wie jedes Produktionssystem, wird die Telekom-Unternehmen auch Backup und Disaster Recovery benötigen Anforderungen zu berücksichtigen. Dieses Unternehmen könnte so weit gehen, einen Spiegel-Cluster zu erstellen, um sie einen Hot-Standby für ihre gesamte System gewährleistet haben. Das ist natürlich die teuerste Option, aber eignet sich für Umgebungen, in denen konstante Verfügbarkeit entscheidend ist.

    Am wenigsten teure Ende des Spektrums (über die Daten nicht überhaupt zu sichern), konnte die Telekom-Unternehmen regelmäßig Backup aller Daten (einschließlich der Daten selbst, Anwendungen, Konfigurationsdateien und Metadaten) in ihrer Produktionscluster auf Band gespeichert. Mit Band, sind die Daten nicht unmittelbar zugänglich ist, aber es wird eine Disaster-Recovery-Aufwand in dem Fall, dass die gesamte Produktion Hadoop Cluster ausfällt ermöglichen.

Wie bei Ihrem eigenen PC, wenn der Hauptfestplatte mit Platz füllt, verlangsamt das System erheblich. Hadoop ist keine Ausnahme. Auch eine Festplatte zu besseren Ergebnissen führt, wenn es weniger als 85 bis 90 Prozent voll. Mit diesen Informationen im Hinterkopf, wenn die Leistung für Sie wichtig ist, sollten Sie den Swap-Raumfaktor von 25 bis 33 Prozent stoßen.

Menü