Unstrukturierte Daten in einem Big Data Environment

Unstrukturierte Daten

sind Daten, die ein vorgeschriebenes Format für große Daten nicht folgen. Wenn 20 Prozent der Daten den Unternehmen zur Verfügung strukturierte Daten, die anderen 80 Prozent ist unstrukturiert. Unstrukturierte Daten ist wirklich der größte Teil der Daten, die Sie begegnen werden. Bis vor kurzem jedoch hat die Technologie wirklich nicht zu tun, viel mit ihm zu unterstützen, außer es zu speichern oder sie manuell zu analysieren.

Quellen unstrukturierter große Daten

Unstrukturierte Daten ist überall. In der Tat, führen die meisten Menschen und Organisationen, ihr Leben um unstrukturierte Daten. Genau wie bei strukturierten Daten, unstrukturierte Daten entweder Maschine erzeugt oder Mensch erzeugt.

Hier sind einige Beispiele von maschinengenerierten unstrukturierte Daten:

  • Satellitenbilder: Dazu gehören Daten Wetter oder die Daten, die die Regierung in ihrer Satellitenüberwachung Bilder einfängt. Man denke nur an Google Earth, und Sie erhalten das Bild.

  • Wissenschaftliche Daten: Dazu gehören seismische Bilder, atmosphärische Daten und der Hochenergiephysik.

  • Fotos und Video: Dazu gehören Sicherheit, Überwachung und Verkehrs Video.

  • Radar oder Sonardaten: Dazu gehören Fahrzeug-, meteorologische und ozeanographische seismische Profile.

Die folgende Liste zeigt einige Beispiele von Menschen verursachten unstrukturierte Daten:

  • Text intern für Ihr Unternehmen: Denken Sie an all den Text innerhalb von Dokumenten, Protokollen, Umfrageergebnisse und E-Mails. Enterprise Information stellt tatsächlich einen großen Prozentsatz der Textinformationen in der heutigen Welt.

  • Social-Media-Daten: Diese Daten können von den Social-Media-Plattformen wie YouTube, Facebook, Twitter, LinkedIn und Flickr generiert.

  • Mobile Daten: Dazu gehören Daten wie Textnachrichten und Standortinformationen.

  • Website-Inhalte: Dies ergibt sich aus einer beliebigen Website liefert unstrukturierte Inhalte, wie YouTube, Flickr oder Instagram.

Und die Liste geht weiter.

Einige Leute glauben, dass der Begriff unstrukturierte Daten irreführend ist, weil jedes Dokument seine eigenen spezifischen Struktur oder Formatierung basiert auf der Software, die es erstellt enthalten. Doch was auf das Dokument intern ist wirklich unstrukturiert.

Bei weitem ist unstrukturierten Daten das größte Stück der Datengleichung und die Anwendungsfälle für unstrukturierte Daten schnell expandieren. Auf der Textseite allein kann die Textanalyse verwendet werden unstrukturiertem Text zu analysieren und relevante Daten zu extrahieren und diese Daten in strukturierte Informationen umwandeln, die auf verschiedene Weise genutzt werden kann.

Zum Beispiel ist eine beliebte Big Data Use Case Social Media Analytics für den Einsatz mit High-Volume-Kundengespräche. Darüber hinaus unstrukturierte Daten aus Call-Center-Notizen, E-Mails, schriftliche Bemerkungen in einer Umfrage und andere Dokumente analysiert das Kundenverhalten zu verstehen. Dies kann mit Social Media kombiniert werden von zig Millionen von Quellen, um die Kundenerfahrung zu verstehen.

Die Rolle eines CMS in großen Datenmanagement

Organisationen speichern einige unstrukturierte Daten in Datenbanken. Aber sie nutzen auch Enterprise-Content-Management-Systeme (CMS), die den gesamten Lebenszyklus von Inhalten zu verwalten. Dies kann Web-Inhalte, Dokumentinhalt und andere Formen Medien umfassen.

Entsprechend der Verband für Informations- und Bildmanagement (AIIM), eine gemeinnützige Organisation, die Bildung, der Forschung und Best Practices, Enterprise Content Management (ECM) umfasst die # 147-Strategien, Methoden und Werkzeuge zur Erfassung, Verwaltung, Speicherung, zu bewahren, und Bereitstellung von Inhalten und organisatorischen Prozesse im Zusammenhang mit Dokumenten. # 148- Die Technologien, die in ECM umfassen Dokumentenmanagement, Records Management, Imaging, Workflow-Management, Web Content-Management und Zusammenarbeit.

Eine ganze Industrie hat sich um die Verwaltung von Inhalten, und viele Content-Management-Anbieter sind horizontale Skalierung ihre Lösungen, die große Mengen unstrukturierter Daten zu verarbeiten erwachsen geworden. weiterentwickelt zu werden jedoch neue Technologien auch unstrukturierte Daten und die Analyse von unstrukturierten Daten unterstützen helfen. Einige von ihnen unterstützen sowohl strukturierte als auch unstrukturierte Daten. Eine gewisse Unterstützung Echtzeit-Streams. Dazu gehören Technologien wie Hadoop, MapReduce und Streaming.

Systeme, die Inhalte in Form von Content Management Systemen zu speichern sind so konzipiert, sind nicht mehr Stand-alone-Lösungen. Vielmehr sind sie wahrscheinlich Teil einer Gesamtdatenmanagement Lösung. Zum Beispiel Ihre Organisation Twitter überwachen kann Feeds, die können dann programmatisch eine CMS-Suche auslösen.

Nun, die Person, die den Tweet ausgelöst wird, eine Antwort zurück, die einen Ort bietet, wo das Individuum das Produkt finden können, die er oder sie vielleicht suchen werden. Der größte Vorteil ist, wenn diese Art der Interaktion in Echtzeit geschehen kann. Es zeigt auch den Wert der Nutzung von Echtzeit unstrukturierte, strukturierte (Kundendaten über die Person, die getwittert) und semi-strukturierten (den eigentlichen Inhalt der CMS) Daten.

Die Realität ist, dass Sie wahrscheinlich einen hybriden Ansatz verwenden Ihre große Datenprobleme zu lösen. Zum Beispiel macht es keinen Sinn, alle Inhalte Ihre Nachrichten zu bewegen, zum Beispiel, in Hadoop Ihren Räumlichkeiten, weil es angeblich zu unstrukturierten Daten helfen zu verwalten.

Menü