Big Data für Dummies

Computer & Software / Große Daten

Big Daten ermöglicht es Organisationen, zu speichern, zu verwalten und zu manipulieren, große Mengen an unterschiedlichen Daten mit der richtigen Geschwindigkeit und zur richtigen Zeit. Um die richtigen Erkenntnisse, große Datenmengen zu gewinnen ist in der Regel aufgeschlüsselt nach drei Merkmale:

Das verständnis unstrukturierter daten
Die rolle der traditionellen betriebsdaten im big data environment
Grundlagen der big data infrastructure
Verwalten von big data mit hadoop: hdfs und mapreduce

Legen den grundstein für ihre big data-strategie

Volumen: Wie viele Daten
Geschwindigkeit: Wie schnell Daten verarbeitet
Vielfalt: Die verschiedenen Arten von Daten,

Während es bequem ist, große Datenmengen in den drei Vs zu vereinfachen, kann es irreführend und zu einfach sein. Zum Beispiel können Sie eine relativ kleine Menge von sehr unterschiedlichen, komplexen Daten verwalten werden oder Sie können eine riesige Menge von sehr einfachen Daten werden verarbeitet. Diese einfache Daten können alle strukturierten oder unstrukturierten alle sein.

Noch wichtiger ist die vierte V, Richtigkeit. Wie genau ist das Datengeschäft Wert bei der Vorhersage? Entsprechen die Ergebnisse einer großen Datenanalyse tatsächlich sinnvoll? Die Daten müssen in der Lage sein, überprüft werden auf der Grundlage sowohl Genauigkeit und Kontext. Ein innovatives Unternehmen möchten massive Mengen von Daten in Echtzeit zu analysieren zu können, den Wert dieser Kunden und dem Potential schnell zu beurteilen, an diesen Kunden, um zusätzliche Angebote. Es ist notwendig, die richtige Menge und Arten von Daten zu identifizieren, die in Echtzeit analysiert werden können, um Geschäftsergebnisse auswirken.

Big Daten enthält alle Sorten von Daten, einschließlich strukturierte Daten als auch unstrukturierte Daten aus E-Mails, Social Media, Text-Streams, und so weiter. Diese Art der Datenverwaltung verlangt von den Unternehmen sowohl ihre strukturierten und unstrukturierten Daten zu nutzen.

Das Verständnis unstrukturierter Daten

Unstrukturierten Daten ist anders als strukturierte Daten, dass seine Struktur ist nicht vorhersehbar. Beispiele für unstrukturierte Daten sind beispielsweise Dokumente, E-Mails, Blogs, digitale Bilder, Videos und Satellitenbilder. Es enthält auch einige durch Maschinen oder Sensoren erzeugten Daten. In der Tat macht unstrukturierter Daten für die Mehrzahl der Daten, die als auch externe auf Ihrem Firmengelände ist für Ihr Unternehmen in der Online-privaten und öffentlichen Quellen wie Twitter und Facebook.

In der Vergangenheit waren die meisten Unternehmen entweder nicht in der Lage erfassen oder speichern Sie diese große Menge an Daten. Es war einfach zu teuer oder zu überwältigend. Auch wenn Unternehmen in der Lage waren, die Daten zu erfassen, sie haben nicht die Werkzeuge, um die Daten einfach analysieren und die Ergebnisse nutzen, um Entscheidungen zu treffen. Nur sehr wenige Instrumente könnten Sinne dieser riesigen Datenmengen zu machen. Die Werkzeuge, die haben waren komplex existieren zu verwenden und nicht Ergebnisse in einem angemessenen Zeitrahmen erzeugen.

Am Ende gehen diejenigen, die wirklich wollte der enormen Anstrengungen der Analyse dieser Daten gezwungen wurden, mit Snapshots von Daten zu arbeiten. Dies hat den unerwünschten Effekt, wichtige Ereignisse fehlen, weil sie nicht in einem bestimmten Snapshot waren.

Ein Ansatz, der zunehmend als eine Möglichkeit, bewertet wird immer Geschäftswert zu gewinnen, aus unstrukturierten Daten Textanalyse, der Prozess der Analyse von unstrukturierten Texten, relevante Informationen zu extrahieren und sie in strukturierte Informationen umzuwandeln, die dann auf verschiedene Weise genutzt werden können. Die Analyse- und Extraktionsprozesse Vorteil von Techniken nehmen, die in der Computerlinguistik entstanden, Statistiken und anderen Disziplinen der Informatik.

Die Rolle der traditionellen Betriebsdaten im Big Data Environment

Zu wissen, welche Daten gespeichert sind und wo es kritische Bausteine in Ihrem großen Daten Implementierung gespeichert sind. Es ist unwahrscheinlich, dass Sie RDBMS für den Kern der Implementierung verwendet werden, aber es ist sehr wahrscheinlich, dass Sie auf den in RDBMS gespeicherten Daten verlassen müssen wird die höchste Wert für das Unternehmen mit großen Daten zu erstellen.

Die meisten großen und kleinen Unternehmen lagern wahrscheinlich die meisten ihrer wichtigen operativen Informationen in relationalen Datenbankmanagementsysteme (RDBMS), die von Tabellen auf einer oder mehreren Beziehungen und dargestellt aufgebaut sind. Diese Tabellen werden durch die Art und Weise definiert die Daten stored.The Daten in Datenbankobjekten gespeichert Tabellen genannt - gegliedert in Reihen und Spalten. RDBMS-Systeme folgen einem einheitlichen Ansatz in der Art und Weise, dass die Daten gespeichert und abgerufen werden.

Um den maximalen geschäftlichen Nutzen aus Ihrer Echtzeit-Analyse von unstrukturierten Daten zu bekommen, müssen Sie mit Ihrem historischen Daten über Kunden, Produkte, Transaktionen und Operationen, die Daten im Kontext zu verstehen. Mit anderen Worten, müssen Sie Ihre unstrukturierten Daten mit Ihrem traditionellen Betriebsdaten zu integrieren.

Grundlagen der Big Data Infrastructure

Big Daten ist über die hohe Geschwindigkeit, große Volumen und breite Daten Vielfalt, so dass die physische Infrastruktur wird buchstäblich "machen oder brechen", um die Umsetzung. Die meisten großen Daten Implementierungen müssen hochverfügbar, so dass die Netzwerke, Server zu sein, und physischen Speicher müssen belastbar und redundant sein.

Ausfallsicherheit und Redundanz sind miteinander verknüpft. Eine Infrastruktur, oder ein System, ist elastisch zu einem Ausfall oder ändert sich, wenn genügend redundante Ressourcen sind vorhanden, bereit, in Aktion zu springen. Resiliency hilft einzelne Fehlerquellen in Ihrer Infrastruktur zu beseitigen. wenn nur eine Netzwerkverbindung zwischen Ihrem Unternehmen und dem Internet besteht, haben Sie kein Netzwerk zum Beispiel Redundanz, und die Infrastruktur ist in Bezug auf einen Netzwerkausfall nicht belastbar.

In großen Rechenzentren mit Anforderungen Business Continuity, ist der größte Teil der Redundanz vorhanden und können genutzt werden, um eine große Datenumgebung zu schaffen. Bei neuen Implementierungen haben die Designer die Verantwortung, die Bereitstellung auf die Bedürfnisse der Unternehmen auf Kosten und Leistung auf Basis abzubilden.

Verwalten von Big Data mit Hadoop: HDFS und MapReduce

Hadoop, eine Open-Source-Software-Framework, verwendet HDFS (das Distributed File System Hadoop) und MapReduce große Daten auf Cluster von Standard-Hardware-in einer verteilten Rechnerumgebung ist, zu analysieren.

Das Hadoop Distributed File System (HDFS) wurde Unternehmen leichter zu ermöglichen, entwickelt, um große Datenmengen auf einfache und pragmatische Art und Weise zu verwalten. Hadoop können große Probleme in kleinere Elemente zerlegt werden, so daß die Analyse schnell durchgeführt werden kann und kostengünstig. HDFS ist ein vielseitiger, robust, Clustered-Ansatz, um Dateien in einem großen Datenumgebung zu verwalten.

HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr ist es eine Daten "Service", die eine einzigartige Kombination von Fähigkeiten bietet erforderlich, wenn Datenvolumen und Geschwindigkeit hoch sind.

MapReduce ist ein Software-Framework, mit dem Entwickler Programme schreiben können, die in einer verteilten Gruppe von Prozessoren große Mengen an unstrukturierten Daten parallel verarbeiten kann. MapReduce wurde von Google als eine Möglichkeit entwickelt effizient eine Reihe von Funktionen gegen eine große Datenmenge im Batch-Modus ausgeführt wird.

Die "Karte" Komponente verteilt die Programmierproblem oder Aufgaben über eine große Anzahl von Systemen und übernimmt die Platzierung der Aufgaben in einer Weise, die die Last und verwaltet Wiederherstellung nach Fehlern ausgleicht. Nachdem die verteilte Berechnung abgeschlossen ist, aggregiert die Elemente alle eine andere Funktion "reduzieren" genannt wieder zusammen ein Ergebnis zu liefern. Ein Beispiel für MapReduce Nutzung wäre, um zu bestimmen, wie viele Seiten eines Buches in jeder der 50 verschiedenen Sprachen geschrieben sind.

Legen den Grundstein für Ihre Big Data-Strategie

Die Unternehmen schwimmen in großen Datenmengen. Das Problem ist, dass sie oft nicht wissen, wie pragmatisch zu nutzen, dass die Daten der Lage sein, die Zukunft vorherzusagen, wichtige Geschäftsprozesse ausführen, oder einfach nur neue Erkenntnisse gewinnen. Das Ziel Ihres großen Datenstrategie und Plan sollte eine pragmatische Art und Weise zu nutzen, Daten für berechenbarer Geschäftsergebnisse finden sein.

Beginnen Sie Ihre große Datenstrategie, indem Sie auf eine Entdeckungsprozess einsteigen. Sie benötigen einen den Griff zu bekommen, welche Daten Sie bereits haben, wo es ist, wer besitzt und kontrolliert sie, und wie es zurzeit verwendet wird. Zum Beispiel, was sind die Drittanbieter-Datenquellen, die Ihr Unternehmen stützt sich auf? Dieser Prozess kann Ihnen eine Menge Einblicke geben:

Sie können bestimmen, wie viele Datenquellen, die Sie haben und wie viel Überlappung besteht.
Sie können Lücken identifizieren, in das Wissen über diesen Datenquellen vorhanden sind.
Sie könnten feststellen, dass Sie viele doppelten Daten in einem Bereich des Unternehmens und fast keine Daten in einem anderen Bereich.
Sie könnten feststellen, dass Sie auf fremden Daten abhängig sind, die nicht so genau, wie es sein sollte ist.

Verbringen Sie die Zeit, die Sie brauchen diese Discovery-Prozess zu tun, weil es die Grundlage für Ihre Planung und Durchführung Ihrer großen Datenstrategie sein wird.