So finden Wert in Predictive Analysis Daten

Jede erfolgreiche Fahrt dauert seriöse Vorbereitung. Predictive Analytics-Modelle sind im Wesentlichen eine tiefen Einblick in große Datenmengen. Wenn die Daten nicht gut vorbereitet ist, wird die Predictive Analytics-Modell aus dem Tauchgang ohne Fisch entstehen. Der Schlüsselwert in Predictive Analytics zu finden, ist es, die Daten vorzubereiten - gründlich und akribisch -, dass Ihr Modell zu machen, die Prognosen verwenden.

Verarbeitung von Daten kann vorab ein Stolperstein in der Predictive Analytics-Prozess sein. Sammeln von Erfahrungen Vorhersagemodelle in den Bau - und vor allem die Aufbereitung der Daten - lehrt die Wichtigkeit der Geduld. Auswahl, Verarbeitung, Reinigung und Vorbereitung der Daten ist aufwendig. Es ist die zeitaufwendigste Aufgabe in der Predictive Analytics-Lebenszyklus. Allerdings richtige und systematische Vorbereitung der Daten wird deutlich erhöhen die Chance, dass Ihre Datenanalyse Früchte tragen wird.

Auch wenn es Zeit und Mühe nimmt, dass die erste Vorhersagemodell zu bauen, wenn Sie den ersten Schritt - das erste Modell bauen, die Wert in Ihrer Daten findet - dann werden zukünftige Modelle weniger ressourcenintensiv und zeitaufwendig, auch mit völlig neuen Datensätze. Auch wenn Sie mit dem ersten Modell wertvolle Erfahrungen nicht die gleichen Daten für das nächste Modell verwenden, haben Ihre Datenanalysten gewonnen.

Wie in Ihre prädiktive Analysedaten zu vertiefen

Mit einer Frucht Analogie, haben Sie nicht nur die schlechte schälen oder die Abdeckung zu entfernen, sondern graben hinein in die nucleus- zu erhalten, wie Sie an den Kern näher zu kommen, Sie zu den besten Teil der Frucht zu bekommen. Die gleiche Regel gilt für große Datenmengen.

bild0.jpg

Grundlagen der prädiktiven Analysedaten Gültigkeit

Die Daten sind nicht immer gültig, wenn Sie zum ersten Mal begegnen. Die meisten Daten sind entweder unvollständig (Fehlen einige Attribute oder Werte) oder laut (Mit Ausreißern oder Fehler). In der biomedizinischen Bioinformatik Felder, zum Beispiel, können Ausreißer die Analytik führen zu falschen oder irreführenden Ergebnissen führen.

Ausreißer in Krebsdaten, zum Beispiel, kann ein wichtiger Faktor sein, der die Genauigkeit der medizinischen Behandlungen skews: Gene-Expression Proben erscheinen als falsch Krebs Positives, weil sie gegen eine Probe, die analysiert wurden, die Fehler enthalten.

Uneinheitliche Daten sind Daten, die Diskrepanzen in Datenattribute enthält. Zum Beispiel kann ein Datensatz zwei Attribute, die nicht zusammenpassen: sagen, eine Postleitzahl (wie zB 20037) und einen entsprechenden Zustand (Delaware). Ungültige Daten können zu falschen prädiktive Modellierung führen, was zu falschen Analyseergebnissen führt, die schlechte Entscheidungen der Exekutive führen wird.

Zum Beispiel Gutscheine für Windeln, um Menschen zu senden, die keine Kinder haben, ist eine ziemlich offensichtliche Fehler. Aber es kann leicht passieren, wenn die Marketing-Abteilung einer Windel Unternehmen endet mit ungültigen Ergebnissen aus ihren Predictive Analytics-Modells.

Google Mail möglicherweise nicht immer die richtigen Leute vorschlagen, wenn Sie versuchen, in den potenziellen Kunden zu füllen Sie in einer Gruppe E-Mail-Liste vielleicht vergessen haben aufzunehmen. Facebook, ein anderes Beispiel zu geben, kann Freunde vorschlagen, die nicht der Typ, die Sie suchen sein könnte.

In solchen Fällen ist es möglich, dass es eine zu große Fehlerspanne in den Modellen oder Algorithmen. In den meisten Fällen sind die Fehler und Anomalien in den Daten zunächst das Vorhersagemodell an die Macht gewählt - aber die Algorithmen, die die prädiktive Modell Energie könnten große Teile der ungültigen Daten.

Grundlagen der Daten Vielfalt in prädiktive Analyse

Das Fehlen von Gleichförmigkeit in Daten ist eine weitere große Herausforderung bekannt als Daten Vielfalt. Aus dem endlosen Strom von unstrukturierten Textdaten (generiert durch E-Mails, Präsentationen, Projektberichte, Texte, Tweets) zu strukturierten Bankauszüge, die Entfernung zu kennen und Kundendemografie hungern Unternehmen für diese Vielzahl von Daten.

diese Daten Aggregieren und es für die Analytik vorbereitet ist eine komplexe Aufgabe. Wie können Daten integrieren aus verschiedenen Systemen wie Twitter generiert, Opentable.com, Google-Suche und eine dritte Partei, die Kundendaten verfolgt? Nun, die Antwort ist, dass es keine gemeinsame Lösung. Jede Situation ist anders, und die Daten werden Wissenschaftler hat in der Regel eine Menge zu tun, das Manövrieren um die Daten zu integrieren und für die Analytik vorzubereiten.

Auch so kann ein einfacher Ansatz zur Standardisierung der Datenintegration aus verschiedenen Quellen unterstützen: Sie stimmen mit Ihren Daten-Provider zu einem Standard-Datenformat, das Ihr System verarbeiten kann - einen Rahmen, der Ihre Datenquellen alle erzeugen Daten machen können, die sowohl von Menschen lesbar ist und Maschinen. Betrachten Sie es als eine neue Sprache, die alle großen Datenquellen jedes Mal sprechen sie in der großen Datenwelt sind.

Menü