durch Fehler im System verursacht Wie mit Ausreißern Deal

Wenn Sie auf die Technik oder Instrumentierung angewiesen, um eine Predictive Analytics Aufgabe durchzuführen, einen Glitch hier oder dort können diese Instrumente dazu führen, extreme oder ungewöhnliche Werte registrieren. Wenn Sensoren Beobachtungswerte registrieren, die grundlegende Qualitätskontrollstandards nicht entsprechen, können sie echte Störungen erzeugen, die in den Daten widerspiegeln.

Jemand Daten ein, zum Beispiel, kann leicht eine zusätzliche 0 am Ende eines Wertes versehentlich unter den Eintrag außerhalb des Bereichs und zum Erzeugen eines Ausreißer hinzuzufügen.

Wenn Sie schauen, auf Beobachtungsdaten von einem Wassersensor in Baltimore Harbor installiert gesammelt - und es meldet eine Wassertiefe von 20 Meter über dem Meeresspiegel - Sie einen Ausreißer haben. Der Sensor ist offensichtlich falsch, es sei denn Baltimore vollständig von Wasser bedeckt ist.

Daten können mit Ausreißer aufgrund externer Ereignisse oder einen Fehler von einer Person oder einem Instrument zu beenden.

Wenn ein reales Ereignis wie ein Flash-Crash zu einem Fehler im System verfolgt wird, sind ihre Folgen noch real - aber wenn man die Quelle des Problems kennen, können Sie feststellen, dass ein Fehler in den Daten, nicht das Modell, war zu Schuld, wenn Ihr Modell das Ereignis nicht vorhersagen.

die Quelle der Ausreißer wissen, wird führen Sie Ihre Entscheidung darüber, wie sie damit umgehen. Ausreißer, die das Ergebnis der Dateneingabefehler waren, können leicht die Daten nach Anhörung Quelle korrigiert werden. Ausreißer, die eine Veränderung der Realität entsprechen fordert Sie Ihr Modell zu ändern.

Es gibt keine one-size-fits-all Antwort, wenn Sie entscheiden, ob extreme Daten aufzunehmen oder außer Acht lassen, die nicht ein Fehler oder eine Panne ist. Ihre Antwort hängt von der Art der Analyse Sie tun - und von der Art des Modells Sie bauen. In einigen Fällen ist die Art und Weise mit den Ausreißern zu behandeln ist einfach:

  • Wenn Sie Ihre Ausreißer zu einem Dateneingabefehler verfolgen, wenn Sie die Datenquelle konsultieren, können Sie einfach die Daten zu korrigieren und (wahrscheinlich) halten das Modell intakt.

  • Wenn das Wassersensor in Baltimore Harbor Wasser bis zu einer Tiefe von 20 Meter über dem mittleren Meeresspiegel berichtet, und du bist in Baltimore, schauen aus dem Fenster:

  • Wenn Baltimore ist nicht vollständig mit Wasser bedeckt ist, ist der Sensor offensichtlich falsch.

  • Wenn Sie ein Fisch sucht in dich zu sehen, hat die Realität changed- Sie Ihr Modell überarbeiten müssen können.

  • Der Flash-Crash gewesen sein mag ein einmaliges Ereignis (auf kurze Sicht jedenfalls), aber ihre Auswirkungen waren real - und wenn Sie den Markt auf längere Sicht studiert haben, wissen Sie, dass etwas Ähnliches wieder passieren kann. Wenn Ihr Unternehmen in den Bereichen Finanzen und Sie beschäftigen sich mit dem Aktienmarkt die ganze Zeit, wollen Sie Ihr Modell für eine solche Abweichungen zu berücksichtigen.

  • Im Allgemeinen, wenn das Ergebnis eines Ereignisses normalerweise ein Ausreißer betrachtet erhebliche Auswirkungen auf Ihr Unternehmen haben kann, überlegen, wie mit diesen Ereignissen in Ihrer Analyse zu beschäftigen. Bewahren Sie diese allgemeine Punkte zu beachten, über Ausreißer:

    • Je kleiner Datensatz wird, desto signifikanter die Auswirkungen von Ausreißern kann auf die Analyse haben.

    • Wie Sie Ihr Modell zu entwickeln, sollten Sie entwickeln Techniken auch Ausreißer zu finden und systematisch ihre Auswirkungen auf Ihr Geschäft verstehen.

    • Erfassen von Ausreißern kann eine komplexe Verarbeitung sein, gibt es keine einfache Möglichkeit, sie zu identifizieren.

    • EIN Domain-Experte (Jemand, der das Feld weiß, dass Sie die Modellierung) ist die beste Go-to-Person, um zu überprüfen, ob ein Datenpunkt gültig ist, ein Ausreißer Sie außer Acht lassen kann, oder ein Ausreißer Sie zu berücksichtigen haben. Der Domain-Experte sollte in der Lage sein, zu erklären, welche Faktoren die Ausreißer geschaffen, was der Variabilität seiner Reichweite ist, und ihre Auswirkungen auf das Geschäft.

    • Visualisierungstools können Sie Ausreißer in den Daten erkennen helfen. Auch, wenn Sie den erwarteten Wertebereich kennen, können Sie ganz einfach Daten abfragen, die außerhalb dieses Bereichs fällt.

    Menü