EDA-Techniken für die Prüfung von Annahmen

Es gibt mehrere explorativen Datenanalyse (EDA) Techniken, die Sie testen Annahmen über einen Datensatz verwenden können. Dazu gehören laufen Sequenz Plot, hinken Diagramme, Histogramm und normale Wahrscheinlichkeitsdarstellung.

Ablaufreihenfolge Grundstück

Viele statistische Techniken basieren auf der Annahme, dass die Daten analysiert werden, um die folgenden Eigenschaften aufweist:

  • Unabhängige Variablen

  • Variablen aus einer gemeinsamen Wahrscheinlichkeitsverteilung gezogen

  • Variablen mit gemeinsamen Parametern (zB Mittelwert und Standardabweichung)

EIN Ablaufreihenfolge Grundstück prüft, ob die Daten an diesen Annahmen entspricht. Zum Beispiel zeigt die folgende Abbildung eine Ablaufreihenfolge-Plot für die täglichen Renditen an den Aktienindex Standard & Poor.

Ablaufreihenfolge Plot des täglichen kehrt zum S & P 500.
Ablaufreihenfolge Plot des täglichen kehrt zum SP 500.

Da dies eine Zeitreihe Handlung ist, wird es verwendet, um festzustellen, ob die Rückkehr zum SP 500 voneinander unabhängig sind, ob sie alle aus der gleichen Wahrscheinlichkeitsverteilung gezogen werden, und ob die Parameter (Mittelwert und Varianz) bleiben konstant über die Zeit .

Die Ablaufreihenfolge Plot ist so konzipiert, um diese Fragen zu beantworten:

  • Gibt es Änderungen in den Mittelwert der Daten?

  • Gibt es Änderungen in der Varianz der Daten?

Darüber hinaus verwenden Sie die Ablaufreihenfolge Plot keine Ausreißer in den Daten zu identifizieren.

Die Handlung der kehrt in den S & P 500 zeigt, dass der Mittelwert und die Varianz der Daten im Laufe der Zeit stabil bleiben, und dass es scheinen, keine Ausreißer zu sein.

Lag Grundstück

EIN Lag Grundstück bestimmt, ob die Elemente eines Datensatzes sind zufällig (Unabhängig voneinander). Mit anderen Worten, der Plot zeigt, ob es ein Muster in den Daten. Muster in den Daten sind nicht mit Beliebigkeit.

Eine verzögerte Wert ist eine, die in der Vergangenheit stattgefunden hat. Eine Verzögerung von 1 bezieht sich auf eine Beobachtung, die statt eine Periode in der Vergangenheit stattgefunden hat. Eine Verzögerung von 2 bezieht sich auf eine Beobachtung, die Platz zwei Perioden in der Vergangenheit stattgefunden hat, und so weiter.

Eine Verzögerungs Plot zeigt die Werte einer Variablen auf der vertikalen Achse und die Werte derselben Variable auf der horizontalen Achse zurückblieb. Zum Beispiel zeigt diese Figur eine Verzögerung Plot für die täglichen Renditen an den Aktienindex Standard & Poor.

Lag Plot des täglichen kehrt zum Standard and Poor's 500 in 2013.
Lag Plot des täglichen kehrt zum Standard and Poor in 2013 500 Jahre.

Die Punkte auf diesem Grundstück sind ohne besondere Muster zufällig verstreut. Dies steht im Einklang mit der Annahme der Zufälligkeit in den Daten.

Histogramm

Sie können ein verwenden Histogramm die Verteilung, gefolgt von einem Datensatz zu identifizieren. Ein Histogramm kann mehrere wichtige Details zu einem Datensatz anzeigen, darunter die folgenden:

  • Das Zentrum der Daten

  • Die Ausbreitung (Variabilität) der Daten

  • Die Schiefe der Daten (falls vorhanden)

  • Die Anwesenheit von Ausreißern

Zum Beispiel zeigt diese Figur ein Histogramm für die täglichen Renditen an den Aktienindex Standard & Poor.

Histogramm des täglichen kehrt in den S & P 500.
Histogramm des täglichen kehrt zum SP 500.

Die Grafik zeigt, dass der Standard und Poors kehrt einen Mittelwert von etwa 0 haben - die Höhen der Balken sind am größten in der Nähe von 0. Die Renditen zu zeigen scheinen negativen Schiefe (Das heißt, extreme negative Renditen sind häufiger als extrem positive Renditen) und haben einen größeren Betrag. Anscheinend gibt es hierzu noch keine Ausreißer in den Daten sein.

Normale Wahrscheinlichkeitsdiagramm

Benutze einen Normalwahrscheinlichkeitsdiagramm einen Datensatz an die Normalverteilung zu vergleichen. Die vertikale Achse dieser Darstellung zeigt die Quantile des Datensatzes, und die horizontale Achse zeigt die Quantile der Normalverteilung. Wenn ein Datensatz normalverteilt ist, dann sollte der Graph erscheinen eine gerade Linie mit einer Steigung von 1 zu sein.

Quantile werden verwendet, einen Datensatz in gleich große Gruppen zu unterteilen. Eine weit verbreitete Art von Quantil ist der Quartil, die (wie zuvor diskutiert) teilt einen Datensatz in vier gleiche Gruppen, die jeweils aus 25 Prozent der Daten. Eine andere beliebte Wahl ist die Perzentile, das teilt einen Datensatz in hundert gleich große Gruppen, die jeweils aus 1 Prozent der Daten.

Die folgende Abbildung zeigt eine normale Wahrscheinlichkeitsdiagramm für die täglichen Renditen an den Aktienindex Standard & Poor.

Normale Wahrscheinlichkeitsdiagramm des täglichen kehrt zum S & P 500 im Jahr 2013.
Normale Wahrscheinlichkeitsdiagramm des täglichen kehrt zum S & P 500 im Jahr 2013.

Das Diagramm zeigt, dass die Renditen auf die SP 500 nahe sind normal, mit Abweichungen in den Schwänzen der Verteilung.

Menü