So bereiten Daten für eine Predictive Analysis Modell

Wenn Sie die Ziele des Modells für die prädiktive Analyse definiert haben, ist der nächste Schritt zu identifizieren und die Daten bereiten Sie Ihr Modell verwenden werden, zu bauen. Die allgemeine Abfolge von Schritten, sieht wie folgt aus:

  1. Identifizieren Sie Ihre Datenquellen.

    Die Daten können in verschiedenen Formaten oder befinden sich an verschiedenen Orten.

  2. Ermitteln Sie, wie Sie diese Daten zugreifen.

    Manchmal würden Sie Daten von Drittanbietern erwerben müssen, oder von einer anderen Abteilung eigenen Daten in Ihrer Organisation usw.

  3. Überlegen Sie, welche Variablen in die Analyse einzubeziehen.

    Ein Standardansatz ist mit einer Vielzahl von Variablen zu starten und zu beseitigen diejenigen, die keine prädiktive Werte für das Modell bieten.

  4. Bestimmen Sie, ob abgeleitete Größen zu verwenden.

    In vielen Fällen ist eine abgeleitete Größe (wie der Preis-pro-Gewinn-Verhältnis verwendet, um die Aktienkurse zu analysieren) würde eine größere direkte Auswirkungen auf das Modell als würde die Rohvariable.

  5. Entdecken Sie die Qualität Ihrer Daten, suchen beide zu verstehen, seinen Zustand und Einschränkungen.

    Die Genauigkeit der Vorhersagen des Modells steht in direkter Beziehung zu den Variablen, die Sie auswählen und die Qualität Ihrer Daten. Sie würden wollen einige Daten spezifische Fragen an dieser Stelle zu beantworten:

  6. Sind die Daten vollständig?

  7. Gibt es keine Ausreißer haben?

  8. Enthält die Daten benötigen Reinigung?

  9. Sie benötigen in fehlenden Werten zu füllen, sie zu halten, wie sie sind, oder sie ganz zu beseitigen?

Ihre Daten und ihre Eigenschaften zu verstehen, kann man den Algorithmus helfen wählen, die in den Aufbau Ihrer Modell sehr nützlich sein wird. Beispielsweise:

  • Regressionsalgorithmen können verwendet werden, Zeitreihendaten zu analysieren.

  • Klassifikationsalgorithmen können verwendet werden, um diskrete Daten zu analysieren.

  • Assoziations Algorithmen können, um Daten mit korrelierten Attributen verwendet werden.

Der Datensatz verwendet zu trainieren und das Modell testen müssen relevanten Geschäftsinformationen enthalten, das Problem Sie versuchen zu lösen zu beantworten. Wenn Ihr Ziel ist (zum Beispiel) zu bestimmen, welche Kunden wahrscheinlich ist, Churn, dann wird der Datensatz, den Sie enthalten Informationen über Kunden, die in der Vergangenheit zusätzlich aufgewühlt an Kunden, die nicht haben entscheiden müssen.

Einige Modelle auf meine Daten erstellt und Sinn für die zugrunde liegenden Beziehungen machen - zum Beispiel solche mit Clustering-Algorithmen gebaut - müssen kein bestimmtes Endergebnis im Sinn haben.

Zwei Probleme entstehen, wenn Umgang mit Daten, wie Sie bauen Ihr Modell: underfitting und Überanpassung.

Underfitting

Underfitting ist, wenn Ihr Modell keine Beziehungen in Ihren Daten nicht erkennen kann. Dies ist in der Regel ein Hinweis darauf, dass wesentliche Variablen - die mit Vorhersagekraft - wurden in der Analyse nicht berücksichtigt. Zum Beispiel kann eine Bestandsanalyse, die nur Daten von einem Bullenmarkt umfasst (wobei insgesamt die Aktienkurse steigen werden) nicht berücksichtigt Krisen oder Blasen, die große Korrekturen an der Gesamtleistung von Aktien zu bringen.

Anderenfalls Daten umfassen, die sowohl Stier umspannt und Bärenmärkte (wenn insgesamt die Aktienkurse fallen) hält das Modell aus den bestmöglichen Portfolio-Auswahl zu erzeugen.

Overfitting

Overfitting wenn Ihre Modelldaten enthält, die keine Aussagekraft hat, aber es ist nur spezifisch für den Datensatz, den Sie sind zu analysieren. Lärm - zufällige Variationen im Datensatz - kann seinen Weg in das Modell, so dass die Ausführung des Modells auf einem anderen Daten-Set erzeugt einen starken Rückgang in den Modell prädiktiven Leistung und Genauigkeit zu finden. Die begleitende Sidebar zeigt ein Beispiel.

Wenn Ihr Modell führt zu einem bestimmten Datensatzes nur gut und nur unterdurchschnittlich, wenn Sie es auf einem anderen Daten-Set zu testen, verdächtigen Überanpassung.

Menü