Was für ein Boxplot können Sie sich über einen Statistical Data Set Weiterempfehlen

Ein boxplot kann Ihnen Informationen in Bezug auf die Form, die Variabilität und in der Mitte (oder Median) eines statistischen Datensatzes. Es ist besonders nützlich für die schiefe Daten.

Was die boxplot Form zeigt, um eine statistische Datensatzes

Ein boxplot kann zeigen, ob ein Datensatz symmetrisch ist oder verzerrt (schiefes) (auf jeder Seite etwa gleich, wenn in der Mitte geschnitten). Eine symmetrische Datensatz zeigt den Median etwa in der Mitte der Box.

Das mittlere Teil des Fünf-Zahlen Zusammenfassung wird durch die Linie gezeigt, die in der boxplot durch die Box schneidet.

Schiefe Daten zeigen ein schiefes boxplot, wo der Median die Box in zwei ungleiche Teile schneidet. Wenn der längere Teil der Box auf der rechten Seite (oder höher) der Median, werden die Daten, sagte zu sein schräg rechts. Wenn der längere Teil an der linken Seite ist (oder unter) der Median ist die Daten schräg links.

Boxplot Beste Schauspielerin Alter (1928-2009 - & lt; i>nlt;. / i> = 83 Schauspielerinnen)
Boxplot Beste Schauspielerin Alter (1928-2009- n = 83 Schauspielerinnen).

In der obigen Abbildung sind die Altersklassen nach rechts geneigt. Der Teil der Box auf der linken Seite des Median (als Vertreter der jüngeren Schauspielerinnen) kürzer ist als der Teil auf der rechten Seite des Median (als Vertreter der älteren Schauspielerinnen). Das bedeutet, dass das Alter der jungen Schauspielerinnen näher zusammen sind als das Alter der älteren Schauspielerinnen.

Beschreibende Statistik für die Beste Schauspielerin Alter (1928-2009).
Beschreibende Statistik für die Beste Schauspielerin Alter (1928-2009).

Diese Abbildung zeigt die deskriptive Statistik der Daten und bestätigt das Recht Schiefe: das mittlere Alter (33 Jahre) niedriger ist als das Durchschnittsalter (35,69 Jahre).

Wenn eine Seite der Box länger als die andere ist, bedeutet es nicht, dass Seite mehr Daten enthält. In der Tat können Sie die Stichprobengröße nicht sagen, von an einem boxplot- suchen, um es auf Prozentsätze der Stichprobengröße basiert, nicht die Stichprobengröße selbst. Jeder Abschnitt des boxplot (das Minimum Q1, Q1 auf den Medianwert, Median Q3, und Q3 zum Maximum) enthält 25% der Daten, egal was. Wenn einer der Abschnitte länger als der andere ist, zeigt es einen breiteren Bereich in den Werten der Daten in diesem Abschnitt (dh die Daten sind verteilt). Ein kleiner Abschnitt des boxplot zeigt die Daten mehr kondensiert (näher zusammen).

Obwohl ein boxplot kann Ihnen sagen, ob ein Datensatz symmetrisch ist (wenn der Median in der Mitte der Box ist), kann es Ihnen nicht sagen, die Form der Symmetrie ein Histogramm kann die Art und Weise.

Histogramme von zwei symmetrischen Datensätzen
Histogramme von zwei symmetrischen Datensätzen

Zum Beispiel zeigt die Abbildung oben Histogramme von zwei verschiedenen Datensätzen, die jeweils 18 Werte enthält, die von 1 bis 6. Das Histogramm auf der linken variieren hat eine gleiche Anzahl von Werten in jeder Gruppe, und die auf der rechten Seite hat zwei Peaks bei 2 und 5 zeigen Beide Histogramme die Daten symmetrisch sind, aber ihre Formen sind deutlich anders.

Boxplots der beiden symmetrischen Datensätzen aus der obigen Abbildung
Boxplots der beiden symmetrischen Datensätzen aus der obigen Abbildung

Diese Abbildung zeigt die entsprechenden Boxplots für die gleichen zwei Daten Sets- Ankündigung sind sie genau das gleiche. Dies ist, weil die Datensätze haben beide die gleiche fünfNummer Zusammenfassungen - sie sind beide symmetrisch mit dem gleichen Betrag der Abstand zwischen Q1, der Median, und Q3. Wenn Sie jedoch nur die Boxplots sah und nicht die Histogramme, könnten Sie die Formen der beiden Datensätze denken gleich sind, wenn in der Tat sind sie nicht.

Trotz seiner Schwäche in der Art der Symmetriedetektor (Sie in einem Histogramm auf Ihre Analysen hinzufügen können, um in diese Lücke helfen füllen), hat ein boxplot einen großen Kopf, dass Sie tatsächlich Maßnahmen der Verbreitung und Zentrum direkt aus dem boxplot identifizieren können, wo auf einem Histogramm kann man nicht. Ein boxplot ist auch gut für die Datensätze zu vergleichen, indem sie auf der gleichen Grafik, die Seite an Seite zeigt.

Was für eine boxplot zeigt über die Variabilität eines statistischen Datensatzes

Variability in einem Datensatz, der von der Fünf-Zahlen Zusammenfassung beschrieben wird, wird von einem Quartilsbereich gemessen (IQB). Das IQB entspricht Q3 - Q1, die Differenz zwischen dem 75. Perzentil und dem 25. Perzentil (der Abstand zwischen der Mitte 50% der Daten abdeckt). Je größer der IQB, die variablere der Datensatz ist.

Aus der obigen Abbildung sind die deskriptiven Statistiken für die Beste Schauspielerin Alter, die Variabilität in Alter der Beste Schauspielerin Gewinner zeigt, wie die gemessene IQB, ist Q3 - Q1 = 39-28 = 11 Jahre. Aus der Gruppe der Schauspielerinnen, deren Alter waren am nächsten an der Median, die Hälfte von ihnen waren innerhalb von 11 Jahren von einander, wenn sie ihre Preise gewonnen.

Beachten Sie, dass die IQB ignoriert Daten unterhalb der 25. Perzentile oder über dem 75., die enthalten können Ausreißer, die das Maß der Variabilität des gesamten Datensatzes aufblasen kann. Also, wenn Daten verzerrt, die IQB ist ein geeignetes Maß der Variabilität als die Standardabweichung.

Menü