Wie Statistiken in ggplot2 in R an die Suss

Nach Daten, Mapping und GEOMS, das vierte Element eines ggplot2

Menu

Schicht in R beschreibt, wie die Daten zusammengefasst werden sollen. Im ggplot2, Sie beziehen sich auf diese statistische Zusammenfassung als stat.

Eine sehr praktische Funktion von ggplot2 ist seine Palette von Funktionen, um Ihre Daten in der Handlung zusammenzufassen. Dies bedeutet, dass Sie oft müssen Ihre Daten nicht vorab zusammenfassen. Zum Beispiel zeigt die Höhe der Balken in einem Histogramm, wie viele Beobachtungen von etwas, das Sie in Ihre Daten haben. Die statistische Zusammenfassung für diese ist es, die Beobachtungen zu zählen. Die Statistiker beziehen sich auf diesen Prozess als Binning, und die Standard-Stat für geom_bar () ist stat_bin ().

Analog zu der Art und Weise, dass jeder geom hat einen zugehörigen Standard stat, jeder stat hat auch einen Standard geom.

So stellt sich die Frage: Wie entscheiden Sie, ob ein zu verwenden, geom oder ein stat? In der Theorie ist es egal, ob Sie die wählen geom oder der stat zuerst. In der Praxis ist es jedoch oft ist intuitiv mit einer Art von Handlung zu beginnen zuerst - mit anderen Worten, geben Sie ein geom. Wenn Sie dann eine weitere Ebene der statistischen Zusammenfassung hinzufügen möchten, verwenden Sie ein stat.

Erstellen eines Histogramms mit & lt; span class =geom_bar (). "width =" 535 "/>
Erstellen eines Histogramms mit geom_bar ().

In diesem Diagramm verwendet die Daten also, zunächst einen Scatterplot erstellen mit geom_point (), und dann kannst du eine glatte Linie mit stat_smooth ().

Hier einige praktische Beispiele für die Verwendung stat Funktionen.

StatBeschreibungStandard Geom
stat_bin ()Zählt die Anzahl der Beobachtungen in Behältern.geom_bar ()
stat_smooth ()Erzeugt eine glatte Linie.geom_line ()
stat_sum ()Fügt Werte.geom_point ()
stat_identity ()Keine Zusammenfassung. Stellt Daten gibt.geom_point ()
stat_boxplot ()Fasst Daten für eine Box-and-Whisker-Plot.geom_boxplot ()

Binning-Daten

Sie haben bereits gesehen, wie zu verwenden, stat_bin () Ihre Daten in Behälter zusammenfassen, denn dies ist die Standardeinstellung ist stat von geom_bar (). Dies bedeutet, dass die folgenden zwei Codezeilen zu identischen Grundstücke:

> Ggplot (bebt, aes (x = Tiefe)) + geom_bar (binwidth = 50)> ggplot (bebt, aes (x = Tiefe)) + stat_bin (binwidth = 50)

Glättungsdaten

Das ggplot2 Paket macht es auch sehr einfach Regressionsgeraden durch Ihre Daten zu erstellen. Sie verwenden die stat_smooth () Funktion dieser Art von Zeile zu erstellen.

Das Interessante an stat_smooth () ist, dass es den Einsatz der lokalen Regression standardmäßig macht. R verfügt über mehrere Funktionen, die dies tun können, aber ggplot2 verwendet das Löss() Funktion für die lokale Regression. Das bedeutet, dass, wenn Sie eine lineare Regressionsmodell erstellen möchten, sagen Sie müssen stat_smooth () eine andere glattere Funktion zu verwenden. Sie tun dies mit der Verfahren Streit.

Zur Veranschaulichung der Verwendung einer glatteren, Start durch ein Streudiagramm der Arbeitslosigkeit in der Schaffung longley Daten-Set:

> p lt; - ggplot (Longley, aes (x = Jahr, y = Employed)) + geom_point ()> p

Als nächstes fügen Sie ein glatter. Dies ist so einfach, wie die Zugabe stat_smooth () auf Ihre Codezeile.

> P + stat_smooth ()

Ihre Grafik wie die Handlung auf der linken Seite das Bild unten aussehen sollte.

Manchmal, ggplot2 erzeugt Nachrichten mit zusätzlichen Tipps und Informationen. Solange Sie Warnung oder ein Fehler nicht sehen, können Sie sicher diese Meldungen ignorieren. In diesem Fall, stat_smooth () sagt Ihnen, dass die Standard-Verfahren glatter genannt Löss (Lokale Glättung). Die Meldung auch sagt, dass Sie alternative Glättungsmethoden verwenden können.

Schließlich verwenden stat_smooth () zu passen und eine lineare Regressionsmodell zeichnen. Sie tun dies, das Argument, durch Zugabe von method =# 147-lm# 148-:

> P + stat_smooth (method = # 147-lm # 148-)

Ihre Grafik sollte nun so aussehen wie die Handlung nach rechts.

Hinzufügen von Regressionsgeraden mit & lt; span class =stat_smooth (). "width =" 535 "/>
Hinzufügen von Regressionslinien mit stat_smooth ().

Nichts zu tun mit der Identität

Manchmal wollen Sie nicht ggplot2 Ihre Daten in der Handlung zusammenzufassen. Dies geschieht in der Regel, wenn Ihre Daten bereits vorab zusammengefasst oder wenn jede Zeile von Datenrahmen separat aufgetragen werden muss. In diesen Fällen möchte Ihnen sagen, ggplot2 gar nichts, und die Statistik, dies zu tun ist zu tun stat_identity (). Sie haben wahrscheinlich bemerkt, dass stat_identity ist die Standard-Statistik für Punkte und Linien.

Menü