Big data: Die Notwendigkeit für Metadaten in Data Streams

Die meisten großen Datenmanagement-Profis sind vertraut mit der Notwendigkeit von Metadaten in strukturierten Datenbank-Management-Umgebungen zu verwalten. Diese Datenquellen sind stark typisiert (zum Beispiel die ersten zehn Zeichen sind der erste Name) und entwickelt mit Metadaten zu arbeiten. Sie könnten, dass Metadaten nicht existent in unstrukturierten Daten übernehmen, aber das ist nicht wahr.

Menu

Typischerweise finden Sie Struktur in jeder Art von Daten. Nehmen wir das Beispiel des Videos. Obwohl Sie genau den Inhalt eines bestimmten Video wissen vielleicht nicht in der Lage sein, existiert eine Menge Struktur in das Format dieses videobasierte Daten. Wenn Sie bei unstrukturierten Text suchen, wissen Sie, dass die Worte in Englisch geschrieben sind, und dass, wenn man die richtigen Werkzeuge anwenden, können Sie den Text zu interpretieren.

Aufgrund dieser impliziten Metadaten von unstrukturierten Daten, ist es möglich, die Informationen unter Verwendung eXtensible Markup Language (XML) zu analysieren. XML ist eine Technik für die Präsentation von unstrukturierten Textdateien mit sinnvollen Tags. Die zugrunde liegende Technologie ist nicht neu und war eine der grundlegenden Technologien für die Umsetzung Serviceorientierung.

Beispiele für Produkte, für die Streaming-Daten umfassen IBM InfoSphere Streams, Twitter Storm und S4 Yahoo.

Big Daten und IBM InfoSphere Streams

InfoSphere Streams ermöglicht eine kontinuierliche Analyse von massiven Datenmengen. Es ist beabsichtigt, komplexe Analysen von heterogenen Datentypen ausführen, einschließlich Text, Bilder, Audio, Voice, VoIP, Video, Web-Datenverkehr, E-Mail, GPS-Daten, Finanztransaktionsdaten, Satellitendaten und Sensoren. InfoSphere Streams können alle Datentypen unterstützen. Es kann in Echtzeit durchführen und vorausschauende Analyse von regelmäßig erzeugten Daten, digitale Filterung, Muster / Korrelationsanalyse und Zersetzung sowie geospacial Analyse.

Big Data und Twitter Storm

Twitter Storm ist eine Open-Source-Echtzeit-Analyse-Engine von einem Unternehmen entwickelt, genannt Backtype, die im Jahr 2011 teilweise von Twitter übernommen wurde, weil Twitter Sturm intern verwendet. Es ist immer noch als Open Source verfügbar und hat sich unter den Schwellen Unternehmen erhebliche Traktion worden zu gewinnen.

Es kann mit einer beliebigen Programmiersprache für Anwendungen wie Echtzeit-Analysen, kontinuierliche Berechnung, verteilte Remote Procedure Calls (RPCs) und Integration verwendet werden. Sturm ist so konzipiert, mit den bestehenden Warteschlangen und Datenbank-Technologien zu arbeiten. Unternehmen, die Storm in ihren großen Daten Implementierungen umfassen Groupon, RocketFuel, NaviSite und Oolgala.

Big Daten und Apache S4

Die Vier S'S in S4 stehen für einfache skalierbare Streaming-System. Apache S4 wurde von Yahoo! als allgemeine Zwecke entwickelt, vertrieben, skalierbare, teilweise fehlertolerant, steckbar Plattform, die es Programmierern ermöglicht die einfache Entwicklung von Anwendungen für die Verarbeitung von kontinuierlichen Datenströmen. Die Core-Plattform ist in Java geschrieben und wurde 2010 von Yahoo! veröffentlicht.

Ein Jahr später wurde sie auf Apache unter der Apache-2.0-Lizenz übergeben. Clients, die und empfangen Ereignisse senden kann in einer beliebigen Programmiersprache geschrieben werden. S4 wird als stark verteilten System. Durchsatz linear erhöht werden, indem von Knoten in einem Cluster hinzugefügt wird. Die S4-Design ist am besten geeignet für großflächige Anwendungen für Data Mining und maschinelles Lernen in einer Produktionsumgebung.

Menü