Alternative Deployment Formfaktoren für Hadoop

Obwohl Hadoop am besten funktioniert, wenn es auf einem physischen Computer installiert ist, in dem die Verarbeitung direkten Zugriff auf dedizierte Storage und Networking, hat Hadoop alternative Implementierungen. Und obwohl sie weniger effizient als die dedizierte Hardware sind in bestimmten Fällen Alternativen sind sinnvolle Optionen.

Menu

virtualisierte Server

Ein wichtiger Trend in der IT-Zentren in der letzten Dekade Virtualisierung ist, wo ein großer Server mehrere Host kann # 147-virtuellen Maschinen # 148-, die wie einzelne Maschinen aussehen und handeln. Anstelle von dedizierter Hardware, eine ganze Reihe von Anwendungen und Repositorys Organisation auf virtualisierte Hardware eingesetzt.

Dieser Ansatz hat viele Vorteile: Durch die Zentralisierung der IT-Wartung vereinfacht, IT-Investitionen, da es weniger ungenutzt CPU-Zyklen maximiert wird und die gesamte Hardware-Bilanz niedriger ist, in einer niedrigeren Total Cost of Ownership.

Organisationen, in denen IT-Implementierungen vollständig virtualisiert werden manchmal Mandat, dass jede neue Anwendung dieses Modell folgen. Obwohl Hadoop können auf diese Weise eingesetzt werden, im Wesentlichen als virtueller Cluster (mit einem virtuellen Master-Knoten und virtuellen Slave-Knoten), leidet die Leistung, zum Teil, weil für die meisten virtualisierten Umgebungen, Storage SAN-basierte und nicht lokal gebunden.

Da Hadoop ausgelegt ist am besten, wenn alle verfügbaren CPU-Kerne der Lage sind, einen schnellen Zugriff zu haben, um unabhängig Scheiben dreht, ist ein Engpass, da alle der Karte erstellt und Aufgaben starten Datenverarbeitung reduzieren über die begrenzte Vernetzung zwischen den CPUs und dem SAN. Da der Grad der Trennung zwischen virtualisierten Server-Ressourcen begrenzt ist (virtuelle Server auf die Ressourcen miteinander) können Hadoop-Workloads auch durch andere Aktivität beeinflusst werden.

Wenn Sie Ihre virtuellen Performance des Servers von einem anderen Server Arbeitsbelastung betroffen ist, bekannt, dass ist eigentlich in IT als Kreise # 147-lauten Nachbarn # 148- Problem!

Virtualisierte Umgebungen kann sehr nützlich sein, obwohl in einigen Fällen. Zum Beispiel, wenn Ihr Unternehmen eine einmalige explorative Analyse einer großen Datenmenge fertig sein muss, können Sie einfach eine temporäre Cluster in Ihrer virtualisierten Umgebung erstellen. Diese Methode ist oft ein schneller Weg, interne Zustimmung zu gewinnen, als die bürokratischen Ärger der Beschaffung neuer dedizierter Hardware zu ertragen.

Wie Sie mit Hadoop experimentieren, laufen Sie oft es auf Ihrem Laptop-Computern über eine virtuelle Maschine (VM). Hadoop ist extrem langsam in dieser Art von Umgebung, aber wenn Sie kleine Datensätze verwenden, es ist ein wertvolles Lernen und Test-Tool.

Cloud-Lösungen

Variationen von virtualisierten Umgebungen sind Cloud-Computing-Anbieter wie Amazon, Rackspace und IBM Softlayer. Die meisten großen öffentlichen Cloud-Anbieter jetzt MapReduce oder Hadoop-Angebote zur Verfügung haben. Auch hier ist ihre Leistung schlechter Ihr Cluster auf dedizierter Hardware zur Bereitstellung, aber es ist zu verbessern.

Cloud-Anbieter machen Hadoop-optimierte Umgebungen zur Verfügung, wo Slave-Knoten lokal Speicherung und dedizierten Netzwerken angeschlossen haben. Auch Hypervisors sind wesentlich effizienter, mit reduziertem Aufwand und Latenz zu werden.

Verwenden Sie keine Cloud-Lösung für langfristige Anwendungen betrachten, weil die Kosten für Cloud-Computing-Ressourcen für die Anmietung, die deutlich höher ist als der Besitz und ein vergleichbares System beibehalten wird. Mit einem Cloud-Anbieter, sind Sie zahlen für die Bequemlichkeit und für die Möglichkeit, den Aufwand für die Bereitstellung von Hardware auszulagern. Allerdings ist die Cloud eine ideale Plattform für die Prüfung, Bildung und einmalige Datenverarbeitungsaufgaben.

Abgesehen von Leistung und Kostenerwägungen, haben Sie regulatorischen Überlegungen mit öffentlichen Cloud-Implementierungen. Wenn Sie sensible Daten haben, die entweder im Haus oder in den einzelnen Ländern gespeichert werden müssen, eine öffentliche Cloud-Bereitstellung ist keine Option. In Fällen wie diesem, wo Sie den Komfort eines Cloud-basierten Bereitstellung benötigen, ist eine Private Cloud eine gute Option, wenn es verfügbar ist.

Menü