Wahrscheinlichkeitsverteilungen in der statistischen Analyse von Big Data

Wahrscheinlichkeitsverteilungen ist eine von vielen statistischen Techniken, die verwendet werden können, um Daten zu analysieren brauchbare Muster zu finden. Sie verwenden ein Wahrscheinlichkeitsverteilung die Wahrscheinlichkeiten mit den Elementen eines Datensatzes assoziiert zu berechnen:

  • Binomialverteilung: Sie würden die binomische Verteilung verwenden, um Variablen zu analysieren, die nur einen von zwei Werten annehmen kann. handed; Zum Beispiel könnten Sie die Wahrscheinlichkeit, dass ein bestimmter Prozentsatz der Mitglieder in einem Sportverein sind links bestimmen.

  • Poisson-Verteilung: Sie würden die Poisson-Verteilung verwenden, um die Wahrscheinlichkeit einer bestimmten Anzahl von Ereignissen über einen Zeitraum von Zeit auftreten, zu beschreiben. Beispielsweise könnte es die Wahrscheinlichkeit einer bestimmten Anzahl von Treffern zu beschreiben, auf einer Webseite in der kommenden Stunde verwendet werden.

  • Normalverteilung: Die Normalverteilung ist die am weitesten verbreitete Wahrscheinlichkeitsverteilung in den meisten Disziplinen, einschließlich der Wirtschaft, Finanzen, Marketing, Biologie, Psychologie, und viele andere. Eines der charakteristischen Merkmale der Normalverteilung ist, Symmetrie - die Wahrscheinlichkeit einer Variablen in einem gegebenen Abstand unterhalb der Mittelwert der Verteilung ist, ist gleich der Wahrscheinlichkeit sie im gleichen Abstand über dem Mittelwert ist.

    wenn die mittlere Höhe aller Männer in den Vereinigten Staaten 70 Zoll ist beispielsweise, und Höhen normal verteilt sind, eine zufällig ausgewählte Mensch ist gleich wahrscheinlich zwischen 68 und 70 Zoll groß sein, wie er zwischen 70 und 72 Zoll groß sein soll .

    Die Normalverteilung funktioniert gut mit vielen Anwendungen. Zum Beispiel ist es oft im Bereich der Finanzen verwendet, um die Erträge zu finanziellen Vermögenswerten zu beschreiben. Aufgrund seiner einfachen Auslegung und Implementierung wird die Normalverteilung manchmal sogar, wenn die Annahme der Normalität nur annähernd richtige verwendet.

  • Die Student-t-Verteilung: Die t-Verteilung nach Student ist ähnlich der Normalverteilung, aber mit der t-Verteilung nach Student, extrem klein oder extrem große Werte sind viel eher auftreten. Diese Verteilung wird oft in Situationen, in denen eine Variable zu viel Variation zeigt mit der Normalverteilung in Einklang stehen. Dies gilt, wenn die Eigenschaften von kleinen Proben analysiert. Bei kleinen Proben ist die Variation zwischen den Proben wahrscheinlich ziemlich beträchtlich sein, so dass die Normalverteilung sollte nicht verwendet werden, um ihre Eigenschaften zu beschreiben.

    Die t-Verteilung Student wurde von W. S. entwickelt Gosset, während bei der Guinness-Brauerei beschäftigt. Er versucht, die Eigenschaften von kleinen Proben Mittel zu beschreiben.

  • Die Chi-Quadrat-Verteilung: Die Chi-Quadrat-Verteilung eignet sich für verschiedene Arten von Anwendungen. Zum Beispiel, können Sie es verwenden, um zu bestimmen, ob eine Population einer bestimmten Wahrscheinlichkeitsverteilung folgt. Sie können es auch zu testen, ob die Varianz einer Population einen bestimmten Wert entspricht, und für die Unabhängigkeit der beiden Datensätze zu testen.

  • Die F-Verteilung: Die F-Verteilung wird aus dem Chi-Quadrat-Verteilung abgeleitet. Sie verwenden es, zu prüfen, ob die Varianzen von zwei Populationen einander gleich. Die F-Verteilung ist auch nützlich in Anwendungen wie Regressionsanalyse.

Menü