Wie man Plot zusammengefasste Daten in einem ggplot2 in R

Eine sehr praktische Funktion von ggplot2

Menu

ist dessen Funktionsumfang Ihre R-Daten in der Handlung zusammenzufassen. Dies bedeutet, dass Sie oft müssen Ihre Daten nicht vorab zusammenfassen. Zum Beispiel zeigt die Höhe der Balken in einem Histogramm, wie viele Beobachtungen von etwas, das Sie in Ihre Daten haben.

Die statistische Zusammenfassung für diese ist es, die Beobachtungen zu zählen. Die Statistiker beziehen sich auf diesen Prozess als Binning, und die Standard-Stat für geom_bar () ist stat_bin ().

Analog zu der Art und Weise, dass jeder geom eine zugehörige Standard-Stat hat, jede Statistik hat auch eine Standard-geom.

So stellt sich die Frage: Wie entscheiden Sie, ob ein geom zu verwenden oder eine Statistik? In der Theorie ist es egal, ob Sie die geom oder den Stat zuerst wählen. In der Praxis ist es jedoch oft ist intuitiv mit einer Art von Handlung zu beginnen zuerst - mit anderen Worten, eine geom angeben. Wenn Sie dann eine weitere Ebene der statistischen Zusammenfassung hinzufügen möchten, verwenden Sie einen stat.

In diesem Diagramm verwendet die Daten also, zunächst einen Scatterplot erstellen mit geom_point () und dann kannst du eine glatte Linie mit stat_smooth ().

Werfen Sie einen Blick auf einige praktische Beispiele für die Verwendung stat Funktionen.

StatBeschreibungStandard Geom
stat_bin ()Zählt die Anzahl der Beobachtungen in Behältern.geom_bar ()
stat_smooth ()Erzeugt eine glatte Linie.geom_line ()
stat_sum ()Fügt Werte.geom_point ()
stat_identity ()Keine Zusammenfassung. Stellt Daten gibt.geom_point ()
stat_boxplot ()Fasst Daten für eine Box-and-Whisker-Plot.geom_boxplot ()
Wie erfolgt die Behälterdaten in ggplot2

Sie haben bereits gesehen, wie zu verwenden, stat_bin () Ihre Daten in Behälter zusammenfassen, denn dies ist die Standardeinstellung ist stat von geom_bar (). Dies bedeutet, dass die folgenden zwei Codezeilen zu identischen Grundstücke:

> Ggplot (bebt, aes (x = Tiefe)) + geom_bar (binwidth = 50)> ggplot (bebt, aes (x = Tiefe)) + stat_bin (binwidth = 50)

Wie zu glätten R-Daten in ggplot2

Das ggplot2 Paket macht es auch sehr einfach Regressionsgeraden durch Ihre Daten zu erstellen. Sie verwenden die stat_smooth () Funktion dieser Art von Zeile zu erstellen.

Das Interessante an stat_smooth () ist, dass es den Einsatz der lokalen Regression standardmäßig macht. R verfügt über mehrere Funktionen, die dies tun können, aber ggplot2 verwendet das Löss() Funktion für die lokale Regression. Das bedeutet, dass, wenn Sie eine lineare Regressionsmodell erstellen wollen, müssen Sie sagen, stat_smooth () eine andere glattere Funktion zu verwenden. Sie tun dies mit der Verfahren Streit.

Zur Veranschaulichung der Verwendung einer glatteren, Start durch ein Streudiagramm der Arbeitslosigkeit in der Schaffung longley Daten-Set:

> Ggplot (Longley, aes (x = Jahr, y = Employed)) + geom_point ()

Als nächstes fügen Sie ein glatter. Dies ist so einfach, wie die Zugabe stat_smooth () auf Ihre Codezeile.

> Ggplot (Longley, aes (x = Jahr, y Employed) =) ++ geom_point () + stat_smooth ()

Schließlich sagen stat_smooth ein lineares Regressionsmodell zu verwenden. Sie tun dies, das Argument, durch Zugabe von method = "lm".

bild0.jpg
> Ggplot (Longley, aes (x = Jahr, y Employed) =) ++ geom_point () + stat_smooth (method = "lm")

Wie kann man sagen ggplot2 Ihre Daten zu verlassen unsummarized

Manchmal wollen Sie nicht ggplot2 Ihre Daten in der Handlung zusammenzufassen. Dies geschieht in der Regel, wenn Ihre Daten bereits vorab zusammengefasst oder wenn jede Zeile von Datenrahmen separat aufgetragen werden muss. In diesen Fällen möchte Ihnen sagen, ggplot2 gar nichts, und die Statistik, dies zu tun ist zu tun stat_identity ().

Menü