Grafische Tests von Daten Ausreißer

Daten Ausreißer zu identifizieren, ist nicht ein Cut-and-Trockenmasse. Es kann Uneinigkeit darüber sein, was nicht und gilt nicht als Ausreißer. Die Definition eines Ausreißer ist abhängig von der angenommenen Wahrscheinlichkeitsverteilung einer Population. Wenn beispielsweise Population wirklich normal verteilt ist, sollte der Graph eines Datensatzes die gleiche Signatur Glockenform - wenn es nicht der Fall ist, dass ein Zeichen dafür sein könnte, dass es Ausreißern in den Daten gibt.

Sie können drei grafischen Techniken verwenden, um Ausreißer zu identifizieren:

  • Histogramme

  • Box-Plots

  • QQ-Plots

Histogramme

EIN Histogramm ist ein Graph, der eine Wahrscheinlichkeitsverteilung, um visuell darzustellen mit einer Reihe von vertikalen Stäben verwendet. Die horizontale Achse zeigt die Werte oder Bereiche von Werten für die Variable untersucht wird, und die vertikale Achse zeigt die entsprechenden Frequenzen dieser Werte.

Als Beispiel-500-Index Standard & Poor (S & P 500) ist ein Aktienindex, der die Preise der 500 größten US-Aktien repräsentiert, von ihrer Marktkapitalisierung gewichtet. A-Aktie Marktkapitalisierung die Anzahl der im Umlauf befindlichen Aktien mal gleich der Preis pro Aktie.

Die Abbildung zeigt ein Histogramm der täglichen Renditen für die 500-Aktienindex Standard & Poor in den Jahren 2009-2013.

Ein Histogramm der täglichen kehrt in den S & P 500 2009-2013.
Ein Histogramm der täglichen kehrt zum SP 500 2009-2013.

Nach diesem Histogramm waren die meisten der Renditen nahe Null in diesem Zeitraum. Returns über 0,01 (1 Prozent) oder unter -0,01 (-1 Prozent) traten relativ selten. Doch für die Rückkehr, die außerhalb des kleinen Bereich um 0, das Auftreten von negativen Renditen überwog das Auftreten von positiven Renditen auftrat, wie durch die extreme Länge des linken Schwanz gesehen.

Die Form des Histogramms zeigt, dass die Verteilung der Erträge auf den Standard & Poor-500-während dieser Zeit unwahrscheinlich ist, normal zu sein. Ein Problem ist, dass die Normalverteilung um den Mittelwert symmetrisch ist, während das Histogramm zeigt, dass die Verteilung der Retouren ist negativ verzerrt (Das heißt, es gibt ein Ungleichgewicht zwischen negativen und positiven zurückkehrt, mit mehr negative als positive Renditen).

Box-Plots

EIN Box-Plot zeigt die Verteilung eines Datensatzes in einer Box. Die Box basiert auf Quartile, die sind wie Perzentile der Ausnahme, dass es nur vier von ihnen sind. Der Box-Plot ist wie folgt aufgebaut:

  • Die Oberseite der Box stellt die dritte Quartil (Oder oberes Quartil) (Q3) Der Daten. Dies entspricht dem 75. Perzentil.

  • Der Boden der Box stellt die erste Quartil (Oder unteres Quartil) (Q1) Der Daten. Dies entspricht dem 25. Perzentil.

  • Die Mitte der Box (mit einer Linie dargestellt) stellt die im zweiten Quartil (Q2) Der Daten (auch bekannt als Median).

Die erste Quartil eines Datensatzes ist ein Wert, der größer als 25 Prozent der Elemente des Datensatzes ist und kleiner als die restlichen 75 Prozent. Die zweite Quartil (dh der Medianwert) ein Wert ist, der größer als 50 Prozent der Elemente ist und kleiner als die restlichen 50 Prozent. Das dritte Quartil ist ein Wert, der größer als 75 Prozent der Elemente ist und kleiner als die restlichen 25 Prozent.

Das Quartilabstand (IQR) wird als die Differenz zwischen dem dritten und dem ersten Quartil definiert ist:

IQR = Q3 - Q1

Das IQB wird als Maß für gebrauchte Dispersion, oder wie die Daten verteilt über das Zentrum ist. Es kann auch zur Identifizierung von Ausreißern verwendet werden.

Für einen Box-Plot gibt es Linien oberhalb und unterhalb der Box. Die obere Linie stellt den maximalen Wert in einem Datensatz, ohne Ausreißer. Unterm Strich stellt den minimalen Wert in einem Datensatz, wieder Ausreißer auszuschließen. Die einzelnen Punkte oberhalb und unterhalb dieser Zeilen sind die Ausreißer im Datensatz angezeigt.

Wenn Sie eine Box-Plot verwenden, wird ein Ausreißer wie folgt definiert:

  • Wenn ein Datenpunkt unter Q1 - 1.5 (IQR), wird es als ein Ausreißer ist.

  • Wenn ein Datenpunkt über Q3 + 1.5 (IQR), wird es als ein Ausreißer ist.

Die folgende Abbildung zeigt einen Box-Plot der täglichen kehrt zum S & P 500 Aktienindex in den Jahren 2009-2013.

Ein Box-Plot der täglichen kehrt zum S & P 500 2009-2013.
Ein Box-Plot der täglichen kehrt zum SP 500 2009-2013.

Der Box-Plot zeigt, dass es einen Ausreißer, die deutlich größer ist als der Rest der Erträge im Datensatz ist. Es gibt auch vier Ausreißer, die deutlich kleiner ist als der Rest der Erträge im Datensatz sind. Die Existenz dieser Ausreißer zeigt, dass der Datensatz nicht normalverteilt werden.

QQ-Plots

Sie können mit einem Beispieldaten plotten QQ-Plot (Kurz für Quantil-Quantil Grundstück). Dieses Diagramm vergleicht die Quantile der Probendaten mit den Quantile einer bestimmten Wahrscheinlichkeitsverteilung, wie das normal.

Quantile eines Datensatzes in gleich große Gruppen zu unterteilen basierend auf dem Wert eines bestimmten numerischen Variablen verwendet. Es gibt mehrere Arten von Quantile, einschließlich der folgenden:

  • Perzentile teilen einen Datensatz in 100 gleich große Gruppen, die jeweils auf einen bestimmten Prozentsatz der Gesamt entspricht. Wenn zum Beispiel eine Gruppe von 1.000 Studenten eine standardisierte Prüfung dauert, und 200 von ihnen eine Punktzahl von weniger als 300 erhalten, dann würde 300 das 20. Perzentil des Datensatzes sein. Dies zeigt, dass 20 Prozent der Studenten unter 300 erzielt, während die restlichen 80 Prozent höher als 300 erzielt.

  • Dezilen teilen einen Datensatz in zehn gleiche Gruppen, die jeweils 10 Prozent der Gesamtkosten. Entspricht beispielsweise der 4. decile zum 40. Perzentil.

  • Quartile teilen einen Datensatz in vier gleich große Gruppen, die jeweils 25 Prozent der Gesamtkosten. Zum Beispiel entspricht das dritte Quartil der 75. Perzentile.

Die folgende Abbildung zeigt einen QQ-Plot der täglichen kehrt zum S & P 500 Aktienindex während 2009-2013, verglichen mit der Normalverteilung:

Ein QQ-Plot der täglichen kehrt zum S & P 500 2009-2013.
Ein QQ-Plot der täglichen kehrt zum SP 500 2009-2013.

Die durchgezogene Linie in der Grafik stellt die Quantile der Normalverteilung. 0 steht für die Zwischenzeit daher die Hälfte der Werte sind unter 0, und die andere Hälfte darüber. Etwa 95 Prozent der Werte unter 2 (2 stellt zwei Standardabweichungen über dem Mittelwert), während 5 Prozent der Werte unter -2 (-2 stellt zwei Standardabweichungen unter dem Mittelwert). Wenn die SP kehrt normal verteilt wurden, sollten ihre quantiles auf der Linie liegen.

Die Punkte auf dem Diagramm sind die tatsächlichen Beobachtungen in der SP 500-Datenmenge. Für die normalen Quantile, die größer als 2 sind (dh, zwei Standardabweichungen über dem Mittelwert), die SP 500 zurückkehrt über der Linie sind, die, dass die rechte Schwanz anzeigt, zu "fett" mit der Normalverteilung konsistent zu sein. Für normale Quantile, die unterhalb sind -1 (das heißt, eine Standardabweichung unter dem Mittelwert), der S & P 500 wieder unter der Leitung sind, was darauf hindeutet, dass die linke Schwanz auch zu dick ist mit der Normalverteilung konsistent zu sein.

Insgesamt scheint die Verteilung der Erträge auf die SP 500 eine Fettschwanzverteilung zu sein, was bedeutet, dass extreme Ergebnisse viel wahrscheinlicher sind als bei der Normalverteilung wäre.

Menü