Grundlagen der strukturierten und unstrukturierten Daten in Predictive Analysis

Die Daten in Datenbanken enthalten sind, Dokumente, E-Mails und andere Dateien für die prädiktive Analyse können kategorisiert entweder als strukturierte oder unstrukturierte Daten werden. Strukturierte Daten ist gut organisiert, folgt eine einheitliche Ordnung, ist relativ einfach zu gestalten und die Suche, und von einer Person werden kann, oder ein Computer-Programm leicht zugänglich und verständlich.

Ein klassisches Beispiel für strukturierte Daten ist eine Excel-Tabelle mit markierten Spalten. Solche strukturierten Daten ist in konstant Spaltenüberschriften - in der Regel kurze, genaue Beschreibungen der Inhalte in jeder Spalte - sagen Ihnen genau, welche Art von Inhalt zu erwarten.

Strukturierte Daten werden in der Regel in gut definierten Schemata wie Datenbanken gespeichert. Es ist in der Regel tabellarisch, mit Spalten und Zeilen, die eindeutig seine Attribute definieren.

Unstrukturierte Daten, auf der anderen Seite neigt Freiform, nicht tabellarisch, dispergiert und nicht leicht retrievable- solche Daten erfordert bewusste Intervention zu machen Sinn zu sein. Verschieden von E-Mails, Dokumente, Web-Seiten und Dateien (ob Text, Audio und / oder Video) in verstreuten Orten Beispiele für unstrukturierte Daten sind.

Es ist schwer, den Inhalt von unstrukturierten Daten zu kategorisieren. Es neigt dazu, hauptsächlich Text zu sein, es ist in der Regel in einem Mischmasch von Freiform Arten erstellt, und alle Attribute zu finden, können Sie es beschreiben oder eine Gruppe verwenden, ist keine leichte Aufgabe.

Der Gehalt an unstrukturierten Daten ist schwierig, mit zu arbeiten oder Sinn programmatisch zu machen. Computerprogramme können keine Berichte über solche Daten zu analysieren oder zu erzeugen, einfach weil es Struktur fehlt, hat keine zugrunde liegende dominierende Merkmal, und einzelne Daten haben keinen gemeinsamen Boden.

Im Allgemeinen gibt es einen höheren Prozentsatz von unstrukturierten Daten als strukturierte Daten in der Welt. Unstrukturierte Daten erfordert mehr Arbeit, um es nutzbar zu machen, so wird es mehr Aufmerksamkeit - neigt daher dazu, mehr Zeit zu verbrauchen.

Unterschätzen Sie nicht die Bedeutung einer strukturierten Daten und die Macht, es zu Ihrer Analyse bringt. Es ist wesentlich effizienter strukturierte Daten zu analysieren als unstrukturierte Daten zu analysieren. Unstrukturierte Daten können auch für die Vorverarbeitung für die Analyse teuer sein, wie Sie ein Predictive Analytics-Projekt Gebäude sind. Die Auswahl der relevanten Daten, deren Reinigung und nachfolgende Transformationen kann langwierig und mühsam sein.

Die sich ergebenden neu organisierten Daten aus diesen notwendigen Vorverarbeitungsschritte kann dann in einem Predictive Analytics-Modell verwendet werden. Der Großhandel Umwandlung von unstrukturierten Daten jedoch warten müssen, bis Sie Ihre Predictive Analytics-Modell und läuft haben.

Data Mining und Textanalyse sind zwei Ansätze zur Strukturierung von Textdokumenten, deren Inhalte verknüpfen, Gruppierung und deren Daten zusammenfasst, und Aufdeckung Muster in diesen Daten. Beide Disziplinen bieten eine reiche Rahmen von Algorithmen und Techniken, um den Text in einem Meer von Dokumenten verstreut zu verminen.

Es ist auch erwähnenswert, dass Suchmaschinen-Plattformen für die Indizierung von Daten zur Verfügung stehen Tools zur Verfügung stellen und durchsuchbar zu machen.

Lassen Sie uns strukturierten und unstrukturierten Daten zu vergleichen.

CharakteristikStrukturierteUnstrukturierte
VerbandOrganisiertAufgelockert und dispergiert
AussehenFormal definiertFreiform
ZugänglichkeitEinfacher Zugriff und AbfrageSchwer zugänglich und Abfrage
Verfügbarkeitprozentual niedrigerprozentual höher
AnalyseEffizient zu analysierenZusätzliche Vorverarbeitung ist erforderlich

Unstrukturierte Daten nicht vollständig Struktur fehlt - man muss nur es aufzustöbern. Auch der Text in digitale Dateien hat immer noch eine gewisse Struktur mit ihm verbunden, die oft in den Metadaten zeigt sich - zum Beispiel dokumentieren Titel, Daten, um die Dateien der letzten Änderung und Namen "ihre Autoren.

Das gleiche gilt für E-Mails: Die Inhalte unstrukturiert sein kann, aber strukturierte Daten mit ihnen verbunden sind - zum Beispiel das Datum und die Zeit, die sie geschickt wurden, die Namen ihrer Absender und Empfänger, ob sie Anhänge enthalten.

Die Trennlinie zwischen den beiden Datentypen ist nicht immer klar. In der Regel können Sie immer einige Attribute von unstrukturierten Daten finden, die strukturierte Daten betrachtet werden können. Ob diese Struktur reflektiert den Inhalt dieser Daten ist - oder in der Datenanalyse nützlich - ist bestenfalls unklar.

Was das betrifft, können strukturierte Daten unstrukturierte Daten darin halten. In einem Web-Formular, zum Beispiel, können die Benutzer aufgefordert werden, um Feedback zu einem Produkt zu geben, indem eine Antwort aus mehreren Möglichkeiten wählen - aber auch mit einem Kommentar-Box vorgestellt, wo sie ein zusätzliches Feedback zur Verfügung stellen kann.

Die Antworten von mehreren Möglichkeiten sind structured- das Kommentarfeld wegen seiner Freiform Natur unstrukturiert ist. Solche Fälle werden als eine Mischung aus strukturierten und unstrukturierten Daten am besten verstanden. Die meisten Daten ist eine Zusammensetzung aus beiden.

Für eine erfolgreiche Predictive Analytics-Projekt, sowohl Ihre strukturierten und unstrukturierten Daten müssen in einem logischen Format kombiniert werden, die analysiert werden können.

Menü