EDA-Techniken für die Prüfung von Annahmen
Es gibt mehrere explorativen Datenanalyse (EDA) Techniken, die Sie testen Annahmen über einen Datensatz verwenden können. Dazu gehören laufen Sequenz Plot, hinken Diagramme, Histogramm und normale Wahrscheinlichkeitsdarstellung.
Ablaufreihenfolge Grundstück
Viele statistische Techniken basieren auf der Annahme, dass die Daten analysiert werden, um die folgenden Eigenschaften aufweist:
Unabhängige Variablen
Variablen aus einer gemeinsamen Wahrscheinlichkeitsverteilung gezogen
Variablen mit gemeinsamen Parametern (zB Mittelwert und Standardabweichung)
EIN Ablaufreihenfolge Grundstück prüft, ob die Daten an diesen Annahmen entspricht. Zum Beispiel zeigt die folgende Abbildung eine Ablaufreihenfolge-Plot für die täglichen Renditen an den Aktienindex Standard & Poor.
Da dies eine Zeitreihe Handlung ist, wird es verwendet, um festzustellen, ob die Rückkehr zum SP 500 voneinander unabhängig sind, ob sie alle aus der gleichen Wahrscheinlichkeitsverteilung gezogen werden, und ob die Parameter (Mittelwert und Varianz) bleiben konstant über die Zeit .
Die Ablaufreihenfolge Plot ist so konzipiert, um diese Fragen zu beantworten:
Gibt es Änderungen in den Mittelwert der Daten?
Gibt es Änderungen in der Varianz der Daten?
Darüber hinaus verwenden Sie die Ablaufreihenfolge Plot keine Ausreißer in den Daten zu identifizieren.
Die Handlung der kehrt in den S & P 500 zeigt, dass der Mittelwert und die Varianz der Daten im Laufe der Zeit stabil bleiben, und dass es scheinen, keine Ausreißer zu sein.
Lag Grundstück
EIN Lag Grundstück bestimmt, ob die Elemente eines Datensatzes sind zufällig (Unabhängig voneinander). Mit anderen Worten, der Plot zeigt, ob es ein Muster in den Daten. Muster in den Daten sind nicht mit Beliebigkeit.
Eine verzögerte Wert ist eine, die in der Vergangenheit stattgefunden hat. Eine Verzögerung von 1 bezieht sich auf eine Beobachtung, die statt eine Periode in der Vergangenheit stattgefunden hat. Eine Verzögerung von 2 bezieht sich auf eine Beobachtung, die Platz zwei Perioden in der Vergangenheit stattgefunden hat, und so weiter.
Eine Verzögerungs Plot zeigt die Werte einer Variablen auf der vertikalen Achse und die Werte derselben Variable auf der horizontalen Achse zurückblieb. Zum Beispiel zeigt diese Figur eine Verzögerung Plot für die täglichen Renditen an den Aktienindex Standard & Poor.
Die Punkte auf diesem Grundstück sind ohne besondere Muster zufällig verstreut. Dies steht im Einklang mit der Annahme der Zufälligkeit in den Daten.
Histogramm
Sie können ein verwenden Histogramm die Verteilung, gefolgt von einem Datensatz zu identifizieren. Ein Histogramm kann mehrere wichtige Details zu einem Datensatz anzeigen, darunter die folgenden:
Das Zentrum der Daten
Die Ausbreitung (Variabilität) der Daten
Die Schiefe der Daten (falls vorhanden)
Die Anwesenheit von Ausreißern
Zum Beispiel zeigt diese Figur ein Histogramm für die täglichen Renditen an den Aktienindex Standard & Poor.
Die Grafik zeigt, dass der Standard und Poors kehrt einen Mittelwert von etwa 0 haben - die Höhen der Balken sind am größten in der Nähe von 0. Die Renditen zu zeigen scheinen negativen Schiefe (Das heißt, extreme negative Renditen sind häufiger als extrem positive Renditen) und haben einen größeren Betrag. Anscheinend gibt es hierzu noch keine Ausreißer in den Daten sein.
Normale Wahrscheinlichkeitsdiagramm
Benutze einen Normalwahrscheinlichkeitsdiagramm einen Datensatz an die Normalverteilung zu vergleichen. Die vertikale Achse dieser Darstellung zeigt die Quantile des Datensatzes, und die horizontale Achse zeigt die Quantile der Normalverteilung. Wenn ein Datensatz normalverteilt ist, dann sollte der Graph erscheinen eine gerade Linie mit einer Steigung von 1 zu sein.
Quantile werden verwendet, einen Datensatz in gleich große Gruppen zu unterteilen. Eine weit verbreitete Art von Quantil ist der Quartil, die (wie zuvor diskutiert) teilt einen Datensatz in vier gleiche Gruppen, die jeweils aus 25 Prozent der Daten. Eine andere beliebte Wahl ist die Perzentile, das teilt einen Datensatz in hundert gleich große Gruppen, die jeweils aus 1 Prozent der Daten.
Die folgende Abbildung zeigt eine normale Wahrscheinlichkeitsdiagramm für die täglichen Renditen an den Aktienindex Standard & Poor.
Das Diagramm zeigt, dass die Renditen auf die SP 500 nahe sind normal, mit Abweichungen in den Schwänzen der Verteilung.