Robuste Statistik und Big Data

Eine Statistik wird gesagt, dass robust wenn es nicht stark durch das Vorhandensein von Ausreißern beeinflusst. Beispielsweise ist die mittlere nicht robust, da sie stark durch die Gegenwart von Ausreißern beeinflusst werden kann. Auf der anderen Seite, der Median ist robust - es ist nicht von Ausreißern beeinflusst.

Beispiel: Angenommen, die folgenden Daten eine Stichprobe von Haushaltseinkommen in einer kleinen Stadt (in Tausend Dollar pro Jahr gemessen) darstellt:

32, 47, 20, 25, 56

Sie berechnen die Probe bedeuten als die Summe der fünf Beobachtungen durch fünf geteilt:

bild0.jpg

Die Probe Mittelwert 36.000 $ pro Jahr. Die meisten der Haushalte in der Stichprobe sind sehr nahe an diesem Wert.

Nehmen wir stattdessen, dass die Probe besteht aus den folgenden Werten:

32, 47, 20, 25, 376

Da das Haushaltseinkommen von $ 376.000 kann wesentlich größer als die nächstliegenden Haushaltseinkommen von $ 32.000, das Haushaltseinkommen von $ 376.000 ist jedoch als ein Ausreißer sein.

Mit der Ausreißer, bedeuten die Probe ist nun wie folgt:

image1.jpg

Diese Maßnahme ist nicht repräsentativ für die meisten der Haushalte in der Stadt. Somit ist die Nützlichkeit der Mittelwert in Gegenwart von Ausreißern kompromittiert.

Sie berechnet den Mittelwert der Probe, indem die Daten vom niedrigsten zum höchsten sortiert und dann den Wert zu finden, der die Probe in zwei Hälften teilt. Mit anderen Worten, die Hälfte der Beobachtungen sind unter dem Median, und die andere Hälfte über.

Die erste Probe:

32, 47, 20, 25, 56

Die sortierte Beispiel:

20, 25, 32, 47, 56

In diesem Fall ist der Median 32, weil die Hälfte der verbleibenden Beobachtungen unter 32 und die andere Hälfte sind darüber.

Die zweite Probe:

32, 47, 20, 25, 376

Die sortierte Beispiel:

20, 25, 32, 47, 376

Trotz der Anwesenheit der Ausreißer von 376, ist der Median 32 noch hat sie nicht von der Ausreißer betroffen. Dies zeigt, dass im Gegensatz zum Mittelwert, der Median robust in Bezug auf Ausreißer.

Weitere Beispiele für robuste Statistik umfasst die mittlere, absolute Abweichung und der Quartilbereich.

Menü