Quantitative explorativen Datenanalyse (EDA) Techniken

Obwohl EDA hauptsächlich auf graphische Techniken basiert, es besteht auch aus einigen quantitative Techniken. Dieser Artikel beschreibt zwei davon: Intervallschätzung und Hypothesentests.

Intervallschätzung

Intervallschätzung ist eine Technik, die ein zum Aufbau verwendet wird Angebot von Werten, in dem eine Variable zu fallen wahrscheinlich. Ein wichtiges Beispiel dafür ist der Vertrauensbereich. EIN Konfidenzintervall eine Reihe von Zahlen, die den Wert einer Bevölkerung Maßnahme wie die Mittel wahrscheinlich enthalten ist. Ein Konfidenzintervall ist wie folgt aufgebaut:

bild0.jpg

Das Konfidenzintervall besteht aus einem untere Grenze gleich der Punktschätzung Minus- die Fehlerquote und eine Höchstgrenze gleich der Punktschätzung Plus die Fehlerspanne.

Das Punktschätzung ist ein Wert aus einer Stichprobe geschätzt. Zum Beispiel ist die Probe Mittelwert eine Punktschätzung der Bevölkerung bedeuten. In ähnlicher Weise ist die Standardabweichung der Stichprobe eine Punktschätzung der Standardabweichung.

Die Fehlerquote spiegelt die Höhe der Unsicherheit bei den Punktschätzung verbunden. Mit anderen Worten, es zeigt, wie sehr die Punktschätzung von einer Probe zur nächsten ändern können. Die Fehlerquote wird auf der Grundlage der Standardabweichung und die Größe der Probe verwendet wird. Das Ergebnis dieser Berechnungen ist ein Bereich von Werten, die den wahren Wert der Bevölkerung Maßnahme enthalten dürfte.

Beispiel: Angenommen, ein Forscher fest, dass mit 95 Prozent das Vertrauen, das Intervall (-2,0 Prozent, +8,0 Prozent) den wahren Wert der mittleren Rückkehr in die SP 500 im nächsten Jahr enthält. Die Probe Mittelwert ist der Mittelwert der unteren und der oberen Grenze dieses Intervalls (das heißt 3,0 Prozent). Die Fehlerquote ist somit 5 Prozent.

Hypothesentest

EIN statistische Hypothese ist eine Aussage, die stark es um wahr zu sein, es sei denn widersprüchliche Aussagen ist davon ausgegangen wird. Das Testen von Hypothesen wird in vielen Disziplinen weit verbreitet, um zu bestimmen, ob ein Satz wahr oder falsch ist. Zum Beispiel könnte Hypothesentests verwendet werden, um zu bestimmen, ob

  • Das Durchschnittsalter der Bewohner eines Staates ist 43 Jahre alt.

  • Die mittlere Rückkehr zu den Aktien in einem Portfolio von 7,2 Prozent.

  • Die Höhe der jährlichen Niederschlagsmenge in einer Stadt folgt der Normalverteilung.

Das Testen von Hypothesen ist ein mehrstufiger Prozess, bestehend aus den folgenden:

  1. Die Aussage der Nullhypothese: Dies ist die Aussage, die wahr zu sein angenommen wird.

  2. Die Aussage der Alternativhypothese: Dies ist die Aussage, dass, wenn die Nullhypothese akzeptiert wird, wird zurückgewiesen.

  3. Das Signifikanzniveau, bei dem die Hypothesentest durchgeführt werden: Das entspricht der Wahrscheinlichkeit, die Nullhypothese zu verwerfen, wenn es falsch ist.

  4. Die Teststatistik: Dies ist ein numerisches Maß, das zeigt, ob Musterdaten in Übereinstimmung mit der Nullhypothese.

  5. Der kritische Wert: Wenn die Teststatistik extremer als der kritische Wert ist, wird die Nullhypothese verworfen.

  6. Die Entscheidung: Auf der Grundlage der Beziehung zwischen der Teststatistik und dem kritischen Wert, machen Sie eine Entscheidung darüber, ob die Nullhypothese verworfen werden sollte.

Menü