Statistiken von Big Data für Dummies

Maße der zentralen Tendenz zeigen, in der Mitte eines Datensatzes. Drei der am häufigsten verwendeten Maße der zentralen Tendenz sind der Mittelwert, Median und Modus.

Bedeuten

Bedeuten ist ein anderes Wort für Durchschnitt. Hier ist die Formel zur Berechnung der Mittelwert einer Probe:

bild0.jpg

Mit dieser Formel berechnen Sie die mittlere Probe durch einfaches Aufaddieren aller Elemente in der Probe und dann durch die Anzahl der Elemente in der Probe dividiert wird.

Hier ist die entsprechende Formel für die Berechnung der Mittelwert einer Population:

image1.jpg

Obwohl die Schreibweise etwas anders ist, eine Bevölkerung das Verfahren zur Berechnung bedeuten ist das gleiche wie das Verfahren zur Berechnung einer Probe bedeuten.

Griechische Buchstaben verwendet Populationen zu beschreiben, während lateinische Buchstaben verwendet werden, Proben zu beschreiben.

Median

Das Median eines Datensatzes ist ein Wert, der die Daten in zwei gleiche Hälften teilt. Mit anderen Worten, die Hälfte der Elemente eines Datensatzes sind, weniger als der Median, und die verbleibende Hälfte größer als der Median. Das Verfahren für den Median der Berechnung ist die gleiche für beide Proben und Populationen.

Modus

Der Modus eines Datensatzes ist die am häufigsten beobachteten Wert im Datensatz. Sie bestimmen den Modus auf die gleiche Weise für eine Probe und einer Population.

Maße der zentralen Dispersion

Maße der zentralen Dispersion zeigen, wie "ausgebreitet" die Elemente eines Datensatzes sind aus dem Mittelwert. Drei der am häufigsten verwendeten Maße der zentralen Dispersion gehören die folgenden:

  • Angebot

  • Unterschied

  • Standardabweichung

Angebot

Das Angebot eines Datensatzes ist der Unterschied zwischen dem größten Wert und dem kleinsten Wert. Sie berechnen es die gleiche Weise sowohl für die Proben und der Bevölkerung.

Unterschied

Sie können als Durchschnitt der Varianz denken kariert Unterschied zwischen den Elementen eines Datensatzes und dem Mittelwert. Die Formeln zur Berechnung eines Stichprobenvarianz und eine Varianz sind etwas anders.

Hier ist die Formel zur Berechnung der Stichprobenvarianz:

bild0.jpg

Und hier ist die Formel Varianz der für die Berechnung:

image1.jpg

Standardabweichung

Die Standardabweichung ist einfach die Quadratwurzel der Varianz. Es wird üblicherweise als Maß für die Dispersion als die Varianz verwendet, da es in den gleichen Einheiten wie die Elemente des Datensatzes gemessen ist, während die Varianz gemessen wird, kariert Einheiten.

Maßnahmen des Vereins

Maßnahmen Vereinigungs quantifizieren die Stärke und die Richtung der Beziehung zwischen zwei Datensätzen. Hier sind die beiden am häufigsten verwendeten Maßnahmen des Vereins:

  • Kovarianz

  • Korrelation

Beide Maßnahmen dienen dazu, zeigen, wie nahe zwei Datensätze miteinander verwandt sind. Der Hauptunterschied zwischen ihnen die Einheiten, in denen sie gemessen werden. Die Korrelation Maßnahme definierte Werte zwischen -1 zu übernehmen und 1, die Interpretation sehr einfach macht.

Kovarianz

Das Kovarianz zwischen zwei Proben wird wie folgt berechnet:

bild0.jpg

Die Kovarianz zwischen zwei Populationen wird wie folgt berechnet:

image1.jpg

Korrelation

Das Korrelation zwischen zwei Proben wird wie folgt berechnet:

image2.jpg

Die Korrelation zwischen zwei Populationen wird wie folgt berechnet:

image3.jpg

Menü