Distributed Computing Basics für Big Data

Wenn Ihr Unternehmen ein großes Daten Projekt unter Berücksichtigung, ist es wichtig, dass Sie einige verteilte Rechengrundlagen zuerst verstehen. Es gibt nicht eine einzige verteilte Computing-Modell, weil IT-Ressourcen können auf vielfältige Weise verteilt werden.

Zum Beispiel können Sie eine Reihe von Programmen auf dem gleichen physischen Server zu verteilen und Messaging-Dienste verwenden, um es ihnen ermöglichen, und Informationen weitergeben zu kommunizieren. Es ist auch möglich, viele verschiedene Systeme oder Server zu haben, jede mit ihrem eigenen Speicher, die zusammen ein Problem zu lösen, arbeiten kann.

Warum Distributed Computing ist für große Datenmengen benötigt

Nicht alle Probleme erfordern verteilte Computing. Wenn eine große Zeitbeschränkung nicht existiert, komplexe Verarbeitung kann aus der Ferne über einen spezialisierten Dienst. Wenn Unternehmen benötigt die Analyse komplexer Daten zu tun, wäre es Daten an einen externen Dienstleister oder Unternehmen zu bewegen, wo viele Ersatz-Ressourcen für die Verarbeitung zur Verfügung standen.

Es war nicht, dass die Unternehmen die Ergebnisse zu erhalten, zu warten wollten sie needed- es war einfach nicht wirtschaftlich machbar ist, um genügend Rechenressourcen kaufen diese neuen Anforderungen zu bewältigen. In vielen Situationen würde erfassen Organisationen nur Auswahlen von Daten, anstatt zu versuchen, alle Daten zu erfassen, weil der Kosten. Analysten wollten die Daten alle hatten aber für Schnappschüsse zu regeln, die richtigen Daten zur richtigen Zeit zu erfassen hoffen.

Key-Hardware und Software-Durchbrüche revolutioniert die Datenmanagement-Industrie. Erstens, Innovation und Nachfrage erhöht die Leistung und verringert den Preis der Hardware. Neue Software entstanden, die es verstanden, die Vorteile dieser Hardware zu nehmen, indem Prozesse wie Load-Balancing und Optimierung über einen großen Cluster von Knoten zu automatisieren.

Die Software integrierten Regeln enthalten, die verstehen, dass bestimmte Workloads einen gewissen Leistungsniveau erforderlich. Die Software alle Knoten behandelt, als wären sie nur ein großer Pool von Computer-, Speicher- und Netzwerkanlagen und bewegte Prozesse auf einen anderen Knoten ohne Unterbrechung, wenn ein Knoten ausgefallen, die Technologie der Virtualisierung.

Die sich verändernden Ökonomie von Computing und Big Data

Schneller Vorlauf und viel hat sich geändert. In den letzten Jahren hat sich dramatisch verringert die Kosten für Computing und Storage-Ressourcen zu erwerben. Mit Hilfe von Virtualisierung, Commodity-Server, die gruppiert werden können und Klingen, die in einem Rack vernetzt werden könnten verändert die Wirtschaftlichkeit von Computing. Diese Änderung fiel mit Innovationen in der Software-Automatisierungslösungen, die drastisch die Handhabbarkeit dieser Systeme verbessert.

Die Fähigkeit zu nutzen, Distributed Computing und parallel Verarbeitungstechniken drastisch die Landschaft verändert und dramatisch Latenz reduzieren. Es gibt spezielle Fälle, wie High Frequency Trading (HFT), bei denen niedrige Latenz nur durch physikalische Ortung von Servern in einem einzigen Standort aus erreicht werden kann.

Das Problem mit der Latenz für große Daten

Eine der ewigen Probleme mit Verwaltung von Daten - vor allem große Datenmengen - hat die Auswirkungen der Latenz gewesen. Latenz ist die Verzögerung innerhalb eines Systems zu Verzögerungen bei der Ausführung einer Aufgabe zugrunde. Die Latenz ist ein Problem in allen Bereichen der Informatik, einschließlich der Kommunikation, Datenmanagement, die Systemleistung und mehr.

Wenn Sie jemals ein Mobiltelefon verwendet haben, haben Sie Latenz aus erster Hand erfahren. Es ist die Verzögerung bei den Übertragungen zwischen Ihnen und Ihrem Anrufer. Manchmal hat Latenz wenig Einfluss auf die Kundenzufriedenheit, wie wenn die Unternehmen müssen die Ergebnisse hinter den Kulissen zu analysieren für eine neue Produkt-Release zu planen. Dies ist wahrscheinlich nicht erforderlich sofortige Reaktion oder Zugang.

Jedoch ist, desto näher ist die Antwort auf einen Kunden zum Zeitpunkt der Entscheidung, je mehr Latenz Angelegenheiten.

Verteiltes Rechnen und Parallelverarbeitungstechniken können einen signifikanten Unterschied in der Latenz von Kunden, Lieferanten und Partner erlebt zu machen. Viele große Datenanwendungen sind abhängig von geringer Latenzzeit aufgrund der großen Datenanforderungen für die Geschwindigkeit und das Volumen und die Vielfalt der Daten.

Es kann nicht möglich sein, eine große Datenanwendung in Umgebungen mit hoher Latenz zu konstruieren, wenn eine hohe Leistung benötigt wird. Die Notwendigkeit, die Daten in nahezu Echtzeit zu überprüfen, kann auch durch Latenz beeinflusst. Wenn Sie Daten in Echtzeit zu tun haben, mit, bedeutet ein hohes Maß an Latenz den Unterschied zwischen Erfolg und Misserfolg.

Große Daten Nachfrage trifft Lösungen

Das Wachstum des Internet als Plattform für alles von Commerce Medizin transformiert, um die Nachfrage nach einer neuen Generation von Datenmanagement. In den späten 1990er Jahren, Motor und Internet-Unternehmen wie Google, Yahoo !, und Amazon.com konnten ihre Geschäftsmodelle zu erweitern, kostengünstige Hardware für Computing und Storage nutzen.

Als nächstes mussten diese Unternehmen eine neue Generation von Software-Technologien, die ihnen die große Mengen an Daten zu monetarisieren erlauben würde, sie von Kunden erfassen waren. Diese Unternehmen könnten nicht für die Ergebnisse der analytischen Verarbeitung warten. Sie brauchten die Fähigkeit zu verarbeiten und diese Daten nahezu in Echtzeit zu analysieren.

Menü