Leistung und Big Data

Nur einen schnelleren Computer haben ist nicht genug, um das richtige Maß an Leistung zu gewährleisten, um große Datenmengen verarbeiten. Sie müssen in der Lage, Komponenten Ihres großen Datendienst zu verteilen über eine Reihe von Knoten. In verteilten Computing, ein Knoten ist ein Element in einem Cluster von Systemen oder in einem Gestell enthalten ist.

Ein Knoten umfaßt typischerweise CPU, einen Speicher und eine Art von Festplatte. Jedoch kann ein Knoten auch eine Klinge CPU und Speicher sein, der in einem Rack auf nahe gelegenen Speicher verlassen.

bild0.jpg

Innerhalb eines großen Datenumgebung werden diese Knoten typischerweise zusammen gruppierten Maßstab bereitzustellen. Zum Beispiel könnten Sie mit einem großen Datenanalyse beginnen und weiterhin mehr Datenquellen hinzuzufügen. Um das Wachstum anzupassen, fügt eine Organisation einfach mehr Knoten in einem Cluster, so dass es skalieren kann wachsenden Anforderungen gerecht zu werden.

Es ist jedoch nicht ausreichend, einfach die Anzahl der Knoten in dem Cluster zu erweitern. Vielmehr ist es wichtig, in der Lage sein ein Teil der großen Datenanalyse zu unterschiedlichen physikalischen Umgebungen zu senden. Wo Sie diese Aufgaben senden und wie Sie verwalten sie macht den Unterschied zwischen Erfolg und Misserfolg.

In einigen komplexen Situationen, können Sie viele verschiedene Algorithmen parallel, sogar innerhalb der gleichen Cluster auszuführen, um die Geschwindigkeit der Analyse erforderlich zu erreichen. Warum würden Sie verschiedene große Daten Algorithmen parallel im selben Rack ausführen? Je näher zusammen die Verteilungen der Funktionen sind, desto schneller können sie ausführen.

Obwohl es möglich ist, große Datenanalyse in Netzwerken zu verteilen Vorteil der verfügbaren Kapazitäten zu nutzen, müssen Sie diese Art der Verteilung auf Anforderungen an die Leistung auf Basis tun. In einigen Fällen nimmt die Geschwindigkeit der Verarbeitung eines Rücksitz. Aber auch in anderen Situationen, schnell Ergebnisse zu erhalten ist die Voraussetzung. In dieser Situation wollen Sie sicherstellen, dass die Netzwerkfunktionen sind in unmittelbarer Nähe zueinander.

Im Allgemeinen hat die große Datenumgebung für die Art der Analytik Aufgabe optimiert werden. Daher Skalierbarkeit ist der Dreh- und Angelpunkt machen große Daten erfolgreich zu betreiben. Obwohl es theoretisch möglich wäre, eine große Datenumgebung in einem einzigen großen Umgebung zu arbeiten, ist es nicht praktikabel.

Um den Anforderungen an Skalierbarkeit in großen Daten zu verstehen, muss man nur auf Cloud Skalierbarkeit zu betrachten und zu verstehen, sowohl die Anforderungen und den Ansatz. Wie Cloud Computing, erfordert große Daten die Aufnahme von schnellen Netzwerken und kostengünstige Cluster von Hardware, die in Racks miteinander kombiniert werden können, um die Leistung zu erhöhen. Diese Cluster werden durch Software-Automatisierung unterstützt, die dynamische Skalierung und Load Balancing ermöglicht.

Das Design und die Implementierung von MapReduce sind hervorragende Beispiele dafür, wie Distributed Computing können große Daten operativ sichtbar und erschwinglich zu machen. Im Wesentlichen sind die Unternehmen in einem der einzigartigen Wendepunkte in der Informatik, in der Technologie-Konzepte zusammen kommen zur richtigen Zeit die richtigen Probleme zu lösen. Distributed Computing, verbesserte Hardware-Systeme vereint und praktische Lösungen wie MapReduce und Hadoop ist das Datenmanagement in einer tiefen Weise zu verändern.

Menü