Wie Histogramme können statistische Daten falsch darstellen

Es gibt keine festen Regeln dafür, wie ein Histogramm zu erstellen auf der Grundlage einer Reihe von statistischen Daten- die Person, die Grafik macht bekommt die Gruppierungen auf die zur Auswahl x-Achse sowie das Ausmaß und die Start- und Endpunkte auf der y-Achse. Nur weil es ein Element der Wahl ist, bedeutet jedoch nicht jede Wahl in der Tat Angemessenheit ist, kann ein Histogramm irreführend in vielerlei Hinsicht zu gemacht werden.

Obwohl die Anzahl der Gruppen, die Sie für ein Histogramm verwenden, bis in das Ermessen der Person, ist die Grafik zu machen, gibt es eine solche Sache wie über Bord gehen, entweder durch zu wenige Bars hat, mit allem, was zusammen in einen Topf geworfen, oder viel zu viele, indem Bars, in denen jede noch so kleine Differenz vergrößert.

Um zu entscheiden, wie viele Bars ein Histogramm haben sollten, dann sollten Sie einen guten Blick auf den Gruppierungen nehmen verwendet, um die Stäbe auf dem Formular x-Achse und sehen, ob sie Sinn machen. Zum Beispiel ist es nicht sinnvoll, über Prüfungsergebnisse in Gruppen von 2 Punkte- zu sprechen, die zu sehr ins Detail ist - zu viele Bars. Auf der anderen Seite, macht es keinen Sinn, zu einer Gruppe der Menschen im Alter von Intervallen von 20 Jahren-, die genug nicht beschreibend ist.

Histogramm # 1 zwischen Ausbrüchen für Old Faithful Geysir zeigt die Zeit (& lt; i >nlt;. / i> = 222)
Histogramm # 1 zeigt die Zeit zwischen Ausbrüchen für Old Faithful Geysir (n = 222).

Die oben und unten Abbildungen illustrieren diesen Punkt.

Histogramm # 2 zwischen Ausbrüchen für Old Faithful Geysir zeigt die Zeit (& lt; i >nlt;. / i> = 222)
Histogramm # 2 zeigt die Zeit zwischen Ausbrüchen für Old Faithful Geysir (n = 222).

Jedes Histogramm fasst n = 222 Beobachtungen von der Höhe der Zeit zwischen Eruptionen des Old Faithful Geysir im Yellowstone Park. Histogramm # 1 verwendet sechs Bars, die Gruppe, die die Daten von 10-Minuten-Takt. Dieses Histogramm zeigt eine allgemeine schräg links Muster, aber mit 222 Beobachtungen Sie pauken eine Menge von Daten in nur sechs Gruppen- zum Beispiel die Bar für 75 bis 85 Minuten mehr als 90 Stück von Daten enthält. (Das sind über 40% des Datensatzes!) Sie können brechen sie weiter als das.

Histogramm # 2 zeigt die gleiche Datenmenge, wobei die Zeit zwischen Ausbrüchen in Gruppen von jeweils 3 Minuten unterbrochen wird, in 19 bar ergibt. Beachten Sie die unterschiedliche Muster in den Daten, die mit diesem Histogramm zeigt nach oben, die nicht im Histogramm # 1 aufgedeckt wurde. Sie sehen zwei deutliche Spitzen in der Daten: einen Peak um das 50-Minuten-Marke, und ein rund um die 75-Minuten-Marke. Ein Datensatz mit zwei Spitzen wird aufgerufen bimodale- Histogramm # 2 zeigt ein deutliches Beispiel.

Mit Blick auf Histogramm # 2, können Sie davon ausgehen, dass der Geysir hat zwei Kategorien von Eruptionen: eine Gruppe, die eine kürzere Wartezeit hat, und eine andere Gruppe, die eine längere Wartezeit hat. Innerhalb jeder Gruppe sehen Sie die Daten ziemlich nahe sind, wo der Spitze befindet. Mit Blick auf Histogramm # 1, kann man das nicht sagen.

Das y-Achse eines Histogramms zeigt, wie viele Beobachtungen in jeder Gruppe sind, unter Verwendung von Zählungen oder Prozenten. Ein Histogramm kann irreführend sein, wenn es eine trügerische Maßstab und / oder unangemessene Start- und Endpunkte auf das hat y-Achse.

Sehen Sie die Skala auf der y-Achse eines Histogramms. Wenn es von großen Schritten geht und hat einen Endpunkt, die viel höher als nötig ist, sehen Sie viel Weißraum über dem Histogramm. Die Höhen der Balken drückte nach unten, so dass ihre Differenzen einheitlichere aussehen, als sie sollten. Wenn die Waage in kleinen Schritten geht und endet mit dem kleinsten Wert möglich, werden die Balken vertikal gestreckt, um die Unterschiede in ihrer Höhe übertrieben und was darauf hindeutet, einen größeren Unterschied als wirklich vorhanden ist.

Das folgende Beispiel verwendet eine andere Skala auf der vertikalen (y) Achse als Histogramm # 2.

Histogramm # 3 zeigt Old Faithful Geysir Eruption mal mit größeren vertikalen Schritten
Histogramm # 3 zeigt Old Faithful Geysir Eruption mal mit größeren vertikalen Schritten

Histogramm # 3 nimmt die Old Faithful Daten (Zeit zwischen Eruptionen) und verwendet vertikalen Schritten von 20 Minuten, von 0 bis 100. Vergleichen dieses # 2 Histogramm, die vertikale Schritten von 5 Minuten verwendet, von 0 bis 35. Histogramm 3 # hat und viel Weißraum entsteht der Eindruck, dass die Zeiten gleichmäßiger auf die Gruppen verteilt, als sie wirklich sind. Es macht auch die Datenmenge kleiner aussehen, wenn Sie die Aufmerksamkeit nicht zahlen, was auf die y-Achse. Von den zwei Graphen, Histogramm # 2 ist besser geeignet.

Menü