Leistung zählt in Big Data Management-Architektur

Ihr großer Datenarchitektur muss auch mit Ihrer Organisation unterstützende Infrastruktur im Konzert durchzuführen. Zum Beispiel könnten Sie in laufenden Modellen interessiert sein, um festzustellen, ob es für Öl zu bohren, in einem Offshore-Bereich gegeben Echtzeitdaten von Temperatur, Salzgehalt, Sediment Aufwirbelung und vielen anderen biologischen, chemischen und physikalischen Eigenschaften sicher ist die Wassersäule.

Es könnte Tage dauern, dieses Modell mit einem herkömmlichen Server-Konfiguration zu laufen. Um jedoch eine verteilte Computing-Modell, was dauerte Tage könnte jetzt Minuten dauern.

Die Leistung könnte sich auch die Art der Datenbank, die Sie verwenden würden. Zum Beispiel kann in einigen Situationen, können Sie verstehen, wie zwei sehr unterschiedliche Datenelemente in Zusammenhang stehen. Wie ist das Verhältnis zwischen Summen in einem sozialen Netzwerk und das Umsatzwachstum? Dies ist nicht der typische Abfrage, die Sie von einer strukturierten, relationalen Datenbank fragen konnte.

Eine grafische Darstellung Datenbank könnte eine bessere Wahl sein, da es speziell zu trennen die ausgelegt ist, # 147-Knoten # 148- oder Einrichtungen von ihrer # 147-Eigenschaften # 148- oder die Informationen, die das Unternehmen definiert, und die # 147-Rand # 148- oder Beziehung zwischen den Knoten und Eigenschaften. Mit der richtigen Datenbank wird auch die Performance verbessern. Typischerweise wird die Graph-Datenbank in wissenschaftlichen und technischen Anwendungen eingesetzt werden.

Weitere wichtige operative Datenbank Ansätze umfassen säulen Datenbanken, die in Spalten Informationen effizient zu speichern, anstatt Reihen. Dieser Ansatz führt zu einer schnelleren Leistung, da Eingabe / Ausgabe extrem schnell. Wenn geographische Datenspeicherteil der Gleichung ist, wird eine räumliche Datenbank zu speichern, und Abfragedaten optimiert basierend auf wie Objekte im Raum verbunden sind.

Organisieren Sie große Datendienste und Tools

Nicht alle Daten, die Organisationen verwenden ist betriebsbereit. Eine zunehmende Menge an Daten stammen aus einer Vielzahl von Quellen, die nicht ganz so organisiert sind oder einfach, einschließlich der Daten, die von Maschinen oder Sensoren kommt, und massive öffentlichen und privaten Datenquellen. In der Vergangenheit waren die meisten Unternehmen entweder nicht in der Lage erfassen oder speichern Sie diese große Menge an Daten. Es war einfach zu teuer oder zu überwältigend.

Auch wenn Unternehmen in der Lage waren, die Daten zu erfassen, sie haben nicht die Werkzeuge, um etwas dagegen zu tun. Nur sehr wenige Instrumente könnten Sinne dieser riesigen Datenmengen zu machen. Die Werkzeuge, die haben waren komplex existieren zu verwenden und nicht Ergebnisse in einem angemessenen Zeitrahmen erzeugen.

Am Ende gehen diejenigen, die wirklich wollte der enormen Anstrengungen der Analyse dieser Daten gezwungen wurden, mit Snapshots von Daten zu arbeiten. Dies hat den unerwünschten Effekt, wichtige Ereignisse fehlen, weil sie nicht in einem bestimmten Snapshot waren.

MapReduce, Hadoop und Big Table für große Datenmengen

Mit der Entwicklung der Computertechnologie ist es nun möglich, immense Datenmengen zu verwalten. Preise von Systemen fallen gelassen, und als Ergebnis, neue Techniken für verteiltes Rechnen sind Mainstream. Der wirkliche Durchbruch kam, wie Unternehmen wie Yahoo !, Google und Facebook kam zu der Erkenntnis, dass sie Hilfe brauchte, um die großen Datenmengen monetarisieren sie zu schaffen wurden.

Diese aufstrebenden Unternehmen benötigt, um neue Technologien zu finden, die ihnen erlauben würde, zugreifen, sie speichern und zu analysieren, große Mengen an Daten nahezu in Echtzeit, so dass sie die Vorteile der Besitz dieses viele Daten über die Teilnehmer in ihren Netzwerken zu monetarisieren können.

Ihre resultierenden Lösungen verändern die Daten-Management-Markt. Insbesondere die Innovationen MapReduce, Hadoop und Big Table bewiesen die Funken zu sein, die zu einer neuen Generation von Datenmanagement geführt. Diese Technologien adressieren eines der grundlegenden Probleme - die Fähigkeit, große Datenmengen zu verarbeiten, effizient, kostengünstig, und in einer angemessenen Frist.

Karte verkleinern

MapReduce wurde von Google als eine Möglichkeit entwickelt effizient eine Reihe von Funktionen gegen eine große Datenmenge im Batch-Modus ausgeführt wird. Das # 147-Karte # 148- Komponente verteilt die Programmierproblem oder Aufgaben über eine große Anzahl von Systemen und übernimmt die Platzierung der Aufgaben. Es gleicht auch die Belastung und schafft Ausfallbeseitigung. Eine weitere Funktion aufgerufen # # 147 reduzieren 148- alle Elemente zusammen Aggregate wieder ein Ergebnis zu liefern.

Großer Tisch

Big Tabelle wurde von Google entwickelt ein verteiltes Speichersystem sein soll hoch skalierbare strukturierte Daten zu verwalten. Die Daten werden mit Zeilen und Spalten in Tabellen organisiert. Im Gegensatz zu einem herkömmlichen relationalen Datenbank-Modell, ist Big Table eine spärliche, verbreitet, persistent mehrdimensionale sortierten Karte. Es ist beabsichtigt, große Mengen von Daten über Rohstoff Server zu speichern.

Hadoop

Hadoop ist ein Apache-Managed Software-Framework abgeleitet von MapReduce und Big Table. Hadoop ermöglicht es, Anwendungen auf Basis von MapReduce auf große Cluster von Standard-Hardware zu laufen. Das Projekt ist die Grundlage für die Computing-Architektur unterstützen Yahoo! 'S-Geschäft. Hadoop ist für die Datenverarbeitung über Rechenknoten zu parallelisieren Berechnungen und ausblenden Latenz zu beschleunigen.

Zwei wichtige Komponenten von Hadoop existieren: eine massiv skalierbaren Dateisystem verteilt werden, die Petabytes von Daten und einer massiv skalierbaren MapReduce-Engine unterstützen kann, die Ergebnisse in Batch berechnet.

Menü