Die Einschränkungen der Daten in Predictive Analytics

Wie bei vielen Aspekte eines Business-System ist die Daten eine menschliche Schöpfung - so ist es apt einige Grenzen auf ihre Nutzbarkeit zu haben, wenn Sie es zuerst erhalten. Hier ist ein Überblick über einige Einschränkungen Sie wahrscheinlich zu begegnen:

  • Die Daten können unvollständig sein. Fehlende Werte, auch der Mangel an einem Abschnitt oder ein wesentlicher Teil der Daten, könnte ihre Brauchbarkeit begrenzen.

    Zum Beispiel Ihre Daten können nur ein oder zwei Bedingungen einer größeren Gruppe abdecken, die Sie zu Modell versuchen - wie wenn ein Modell Performance der Aktienmärkte gebaut hat nur aus den letzten 5 Jahren verfügbaren Daten zu analysieren, die sowohl die Daten verzerrt und das Modell in Richtung der Annahme eines Bullenmarktes.

    Sobald der Markt eine Korrektur erfährt, die zu einem Bärenmarkt führt, versagt das Modell anpassen - einfach deshalb, weil sie mit Daten, die eine Bärenmarkt nicht trainiert und getestet.

    Stellen Sie sicher, Sie suchen in einem Zeitrahmen, der ein vollständiges Bild von den natürlichen Schwankungen Ihrer Daten- Ihre Daten sollten nicht begrenzt werden, gibt nach Saisonalität.

  • Wenn Sie Daten aus Umfragen verwenden, denken Sie daran, dass die Menschen nicht immer genaue Informationen zur Verfügung stellen. Nicht jeder wird antworten wahrheits über (sagen wir), wie oft sie trainieren - oder wie viele alkoholische Getränke sie konsumieren - pro Woche. Die Menschen werden nicht so sehr als selbstbewusste unehrlich, aber die Daten sind immer noch verzerrt.

  • Daten aus verschiedenen Quellen gesammelt werden, können in Qualität und Format variieren. Daten aus so unterschiedlichen Quellen wie Umfragen gesammelt, E-Mails, Dateneingabeformulare und der Unternehmens-Website werden unterschiedliche Attribute und Strukturen aufweisen. Daten aus verschiedenen Quellen kann nicht viel Kompatibilität zwischen Datenfeldern. Solche Daten erfordert großen Vorverarbeitung, bevor sie Analyse-ready ist. Die begleitende Sidebar zeigt ein Beispiel.

Daten von verschiedenen Quellen gesammelt wurden, können haben Unterschiede in der Formatierung, doppelte Datensätze und Inkonsistenzen über fusionierte Datenfelder. Erwarten Sie eine lange Zeit der Reinigung, solche Daten zu verbringen - und noch mehr seine Zuverlässigkeit überprüft wird.

Um die Einschränkungen Ihrer Daten bestimmen, sollten Sie:

  • Stellen Sie sicher, alle Variablen, die Sie in Ihrem Modell verwenden werden.

  • Beurteilen Sie den Umfang der Daten, vor allem im Laufe der Zeit, so dass Ihr Modell die Saisonalität Falle zu vermeiden.

  • Überprüfen Sie, ob fehlende Werte, identifizieren sie und bewerten deren Auswirkungen auf die Gesamtanalyse.

  • Achten Sie auf extreme Werte (Ausreißer) und zu entscheiden, ob sie in die Analyse einzubeziehen.

  • Bestätigen Sie, dass der Pool von Trainings- und Testdaten groß genug ist.

  • Stelle sicher Datentyp (Ganze Zahlen, Dezimalzahlen oder Zeichen, usw.) korrekt ist und den oberen und unteren Grenzen der möglichen Werte.

  • Achten Sie besonders auf die Datenintegration, wenn Sie Ihre Daten aus mehreren Quellen kommt.

Seien Sie sicher, dass Sie Ihre Datenquellen und deren Auswirkungen auf die allgemeine Qualität Ihrer Daten zu verstehen.

  • Wählen Sie einen entsprechenden Datensatz, repräsentativ für die gesamte Bevölkerung.

  • Wählen Sie die richtigen Parameter für die Analyse.

Selbst nach all dieser Sorgfalt und Aufmerksamkeit, seien Sie nicht überrascht, wenn Ihre Daten noch Vorverarbeitung muss, bevor man es genau zu analysieren. Preprocessing dauert oft eine lange Zeit und erhebliche Anstrengungen unternommen, weil es einige Probleme mit dem ursprünglichen Daten im Zusammenhang mit Adresse an - diese Themen sind:

  • Alle Werte fehlen aus den Daten.

  • Inkonsistenzen und / oder Fehler bestehenden in den Daten.

  • Alle Duplikate oder Ausreißer in den Daten.

  • Jede Normalisierung oder anderen Transformation der Daten.

  • Alle gewonnenen Daten für die Analyse benötigt wird.

Menü