Grundlagen der Predictive Analytics Daten-Klassifikation Prozess

Bei einer Messing-Reißzwecken Ebene, prädiktiven analytischen Datenklassifizierung besteht aus zwei Stufen: der Lernphase und die Vorhersage der Bühne. Die Lernphase beinhaltet die Ausbildung des Klassifikationsmodells durch einen bestimmten Satz von Daten aus der Vergangenheit durch den Sichter ausgeführt wird. Das Ziel ist, Ihr Modell zu lehren, zu extrahieren und zu verborgenen Beziehungen und Regeln entdecken - der Klassifizierungsregeln von historischen (Ausbildung) Daten. Das Modell tut dies durch einen Klassifizierungsalgorithmus verwendet wird.

Die Vorhersage der Bühne, die die Lernphase folgt besteht das Modell mit vorhersagen neue Klasse Etiketten oder numerische Werte, die Daten zu klassifizieren, bevor nicht gesehen hat (das heißt, Testdaten).

Um diese Stufen verdeutlichen: Angenommen, Sie der Besitzer eines Online-Shops sind die Uhren verkauft. Sie haben den Online-Shop für eine ganze Weile im Besitz und haben eine Menge von Transaktionsdaten und persönliche Daten über Kunden gesammelt, die Uhren aus Ihrem Geschäft gekauft. Angenommen, Sie haben durch die Bereitstellung von Web-Formularen, zusätzlich zu den Transaktionsdaten, dass die Daten durch die Website zu erfassen Sie durch Operationen gesammelt haben.

Sie können auch Daten von einem Dritten erwerben, die Sie mit Informationen über Ihre Kunden außerhalb ihr Interesse an Uhren zur Verfügung stellt. Das ist nicht so schwer, wie es sounds- gibt es Unternehmen, deren Geschäftsmodell ist es, Kunden online und sammeln und zu verkaufen wertvolle Informationen über sie zu verfolgen.

Die meisten dieser Drittfirmen sammeln Daten aus Social Media Websites und Data-Mining-Methoden anwenden, um die Beziehung der einzelnen Nutzer mit Produkten zu entdecken. In diesem Fall, wie der Besitzer eines Uhrengeschäft, würden Sie in der Beziehung zwischen Kunden und ihr Interesse an Kauf von Uhren interessiert sein.

Sie können diese Art von Informationen ableiten, aus der Analyse, zum Beispiel, ein soziales Netzwerk-Profil eines Kunden oder einen Microblog Kommentar von der Art, die Sie auf Twitter zu finden.

Um in Uhren einer individuellen Ebene von Interesse zu messen, eine beliebige von mehreren Text-Analyse-Tools anwenden könnte, die solche Korrelationen in einer individuellen schriftlichen Text (soziale Netzwerk-Status, Tweets, Blog-Postings, und so weiter) oder Online-Aktivitäten (wie Online zu entdecken soziale Interaktionen, Foto-Uploads und sucht).

Nach letzten Transaktionen und aktuellen Interessen all diese Daten über Ihre Kunden sammeln - die Trainingsdaten das zeigt das Modell, was zu suchen - Sie werden es in eine Struktur zu organisieren müssen, dass es leicht zu erreichen und zu nutzen (wie zB eine Datenbank) macht.

An dieser Stelle haben Sie die zweite Phase der Datenklassifizierung erreicht: die Vorhersage der Bühne, Das ist alles über Ihr Modell zu testen und die Genauigkeit der Klassifizierungsregeln es erzeugt hat. Zu diesem Zweck werden Sie zusätzliche historische Kundendaten benötigen, bezeichnet als Testdaten (Die sich von der Trainingsdaten).

Sie geben diese Testdaten in das Modell und die Genauigkeit der resultierenden Prognosen messen. Sie zählen die Zeiten, dass das Modell das zukünftige Verhalten der Kunden in der Testdaten dargestellt korrekt vorhergesagt. Sie zählen auch die Zeiten, dass das Modell falsch Vorhersagen gemacht.

An diesem Punkt haben Sie nur zwei mögliche Ergebnisse: Entweder Sie sind zufrieden mit der Genauigkeit des Modells oder Sie nicht:

  • Wenn Sie zufrieden sind, dann können Sie Ihr Modell immer bereit zu Prognosen im Rahmen eines Produktionssystems zu machen.

  • Wenn Sie mit der Vorhersage nicht zufrieden sind, dann werden Sie brauchen Ihr Modell mit einem neuen Trainingsdaten zu umschulen.

Wenn Sie Ihre Originaldaten Ausbildung nicht repräsentativ genug auf den Pool Ihrer Kunden war - oder enthielt laut Daten, die das Modell der Ergebnisse durch die Einführung von falschen Signalen abwarf - dann gibt es mehr Arbeit zu tun, um Ihr Modell zu erhalten und läuft. Entweder Ergebnis ist in seiner Art und Weise nützlich.

Menü