Strukturierte Daten in einem Big Data Environment

Der Begriff strukturierte Daten

im Allgemeinen bezieht sich auf Daten, die eine definierte Länge und das Format für große Daten hat. Beispiele für strukturierte Daten umfassen Zahlen, Daten und Gruppen von Wörtern und Zahlen genannt Streicher. Die meisten Experten sind sich einig, dass diese Art von Daten für etwa 20 Prozent der Daten-Konten, die da draußen ist. Strukturierte Daten sind die Daten, die Sie wahrscheinlich gewohnt sind zu tun haben. Es ist in der Regel in einer Datenbank gespeichert.

Quellen strukturierter großen Daten

Obwohl dies wie wie gewohnt erscheinen mag, in der Realität, strukturierte Daten über eine neue Rolle in der Welt der großen Daten stattfindet. Die Entwicklung der Technologie bietet neuere Quellen strukturierter Daten erzeugt wird - oft in Echtzeit und in großen Mengen. Die Datenquellen sind in zwei Kategorien unterteilt:

  • Computer- oder maschinengenerierte: Maschine erzeugten Daten bezieht sich im Allgemeinen auf Daten, die von einer Maschine ohne menschlichen Eingriff erzeugt wird.

  • Mensch-generiert: Das sind Daten, die den Menschen, in Interaktion mit Computern, Versorgung.

Einige Experten argumentieren, dass eine dritte Kategorie besteht, dass ist ein Hybrid zwischen Mensch und Maschine. Hier aber haben wir es mit den ersten beiden Kategorien betroffen.

Maschinengenerierten strukturierten Daten können, gehören die folgenden:

  • Sensordaten: Beispiele sind ID Radiofrequenz-Tags, Smart Meter, medizinische Geräte und Global Positioning System Daten. Die Unternehmen sind daran interessiert, diese für das Supply Chain Management und Lagerverwaltung.

  • Web-Log-Daten: Wenn Server, Anwendungen, Netzwerke und so weiter arbeiten, sie alle Arten von Daten über ihre Tätigkeit zu erfassen. Dies kann zu großen Datenmengen betragen, die nützlich sein können, beispielsweise mit Service Level Agreements zu behandeln oder Sicherheitsverletzungen zu prognostizieren.

  • Point-of-Sale-Daten: Wenn der Kassierer den Barcode eines Produkts klaut, die Sie kaufen, die alle, dass die Daten mit dem Produkt verbunden ist, erzeugt.

  • Finanzdaten: Viele Finanzsysteme sind jetzt programmatic- sie betrieben werden, auf Basis von vordefinierten Regeln, die Prozesse zu automatisieren. Aktienhandelsdaten ist ein gutes Beispiel dafür. Es enthält strukturierte Daten wie Firmensymbol und Dollar-Wert. Einige dieser Daten ist in der Maschine erzeugt, und einige ist menschlich erzeugt.

Beispiele von strukturierter menschlichen erzeugten Daten können gehören die folgenden:

  • Eingabedaten: Dies ist ein Stück von Daten, die eine menschliche Macht in einen Computer eingegeben, wie Name, Alter, Einkommen, nicht frei-Form Antworten auf die Umfrage, und so weiter. Diese Daten können nützlich sein, um grundlegende Kundenverhalten zu verstehen.

  • Click-Stream-Daten: Die Daten werden jedes Mal, wenn Sie auf einen Link auf einer Webseite generiert. Diese Daten können analysiert werden, das Kundenverhalten und Kaufverhalten zu bestimmen.

  • Gaming-Daten: Jede Bewegung, die Sie machen in einem Spiel aufgenommen werden kann. Dies kann nützlich sein, zu verstehen, wie Endanwender durch ein Gaming-Portfolio bewegen.

Wenn zusammen mit Millionen anderer Benutzer die gleichen Informationen einreichen, die Größe ist astronomisch. Zusätzlich viele dieser Daten hat eine Echtzeit-Komponente, um es für das Verständnis Muster kann nützlich sein, die das Potential der Vorhersage Ergebnisse haben.

Unterm Strich ist, dass diese Art von Informationen stark sein können und können für viele Zwecke verwendet werden.

Die Rolle von relationalen Datenbanken in großen Daten

Datenpersistenz eine Datenbank behält Versionen von sich selbst an, wie wenn modifiziert. Die große Urvater persistente Datenspeicher ist die Relationales Datenbank Management System. In den Kinderschuhen steckt, verwendet die IT-Industrie, was nun primitive Techniken für die Daten Persistenz betrachtet.

Das relationale Modell wurde von Edgar Codd, einem IBM-Wissenschaftler erfunden, in den 1970er Jahren und wurde von IBM, Oracle, Microsoft und anderen verwendet. Es ist immer noch in weiten Gebrauch heute und spielt eine wichtige Rolle bei der Entwicklung von großen Datenmengen. die relationale Datenbank zu verstehen, ist wichtig, weil andere Arten von Datenbanken, die mit großen Datenmengen verwendet werden.

In einem relationalen Modell werden die Daten in einer Tabelle gespeichert. Diese Datenbank enthalten würde ein Schema - das heißt, eine strukturelle Darstellung von dem, was in der Datenbank ist. Beispielsweise in einer relationalen Datenbank definiert das Schema die Tabellen, die Felder in den Tabellen und die Beziehungen zwischen den beiden.

Die Daten werden in den Spalten gespeichert sind, jeweils eine für jede spezifische Attribut. Die Daten werden auch in der Zeile gespeichert. Die erste Tabelle speichert Produkt die zweite speichert demografische Informationen informations. Jeder hat verschiedene Attribute. Jede Tabelle kann mit neuen Daten aktualisiert werden, und Daten können gelöscht, gelesen und aktualisiert. Dies wird oft in einem relationalen Modell erreicht eine strukturierte Abfragesprache (SQL).

bild0.jpg

Ein weiterer Aspekt des relationalen Modells SQL ist, dass Tabellen mit einem gemeinsamen Schlüssel abgefragt werden können. Der gemeinsame Schlüssel in den Tabellen ist CustomerID.

Sie können eine Abfrage, zum Beispiel, senden Sie das Geschlecht der Kunden zu ermitteln, die ein bestimmtes Produkt gekauft haben. Es könnte wie folgt aussehen:

Wählen Sie CustomerID, Bundesland, Geschlecht, die Produktion von "demographischen Tabelle", "Produkttabelle", wo Produkt = XXYY

Menü