Wie Cast Daten zu Wide Format in R

Wenn du ein ... hast geschmolzenen Dataset (Ein Datensatz im Langformat), Sie sind bereit, es mit R. neu zu gestalten, um zeigen, dass der Prozess der Umgestaltung alle Ihre Daten intakt hält, versuchen, das Original zu rekonstruieren:

> Dcast (mgoals, Venue + Game ~ Variable, sum) Spielort Granny Geraldine Gertrude1 1. Brügge 12 5112 2. Gent 4 453 3. Gent 5 264 4. Brügge 6 47

Können Sie sehen, wie dcast () nimmt eine Formel als zweites Argument? Mehr dazu in einer Minute, aber zuerst Ihre Ergebnisse überprüfen. Es sollte auch die Originaldatenrahmen entsprechen.

Als nächstes können Sie etwas interessanter zu machen - zum Beispiel, eine Zusammenfassung von Veranstaltungsort und Spieler erstellen.

Sie verwenden die dcast () Funktion eines geschmolzenen Datenrahmen zu werfen. Um klar zu sein, nutzen Sie diese von einem langen Format in ein Wide-Format zu konvertieren, aber Sie können diese auch verwenden, um aggregieren in Zwischenformate, ähnlich wie eine Pivot-Tabelle funktioniert.

Das dcast () Funktion hat drei Argumente:

  • Daten: Ein geschmolzener Datenrahmen.

  • Formel: Eine Formel, die angibt, wie Sie die Daten zu werfen möchten. Diese Formel hat die Form x_variable ~ y_variable. Aber es wird es vereinfacht, einen Punkt zu machen. Sie können mehrere verwenden x-Variablen, multiple y-Variablen und sogar z-Variablen.

  • fun.aggregate: Eine Funktion, wenn die Guss Formel Ergebnisse bei der Datenaggregation (zum Beispiel zu verwenden, Länge(), Summe(), oder bedeuten()).

Also, um diese Zusammenfassung der Veranstaltungsort versus Player, müssen Sie verwenden dcast () mit einer Guss Formel Variable ~ Veranstaltungsort. Beachten Sie, dass die Guss Formel in der geschmolzenen Datenrahmen auf Spalten bezieht:

> Dcast (mgoals, variable ~ Ort, sum) Variable Brügge Ghent1 Granny 18 92 Geraldine 9 63 18 11 Gertrude

Wenn Sie eine Tabelle mit dem Veranstaltungsort erhalten möchten die Zeilen laufen nach unten und der Spieler über die Spalten, sollten Sie Ihre Casting Formel Veranstaltungsort ~ Variable:

> Dcast (mgoals, Veranstaltungsort ~ Variable, sum) Ort Granny Geraldine Gertrude1 Brügge 18 9182 Gent 9 611

Es ist tatsächlich möglich, komplizierter Guss Formeln zu haben. Nach der Hilfeseite für dcast (), die Guss Formel nimmt dieses Format:

x_variable + x_2 ~ y_variable + Y_2 ~ z_variable ~ ...

Beachten Sie, dass Sie mehrere Variablen in jeder Dimension mit dem Pluszeichen kombinieren können (+), Und Sie trennen jede Dimension mit einer Tilde (~). Auch, wenn Sie zwei oder mehr Tilden in der Formel (das heißt, Sie sind ein z-Variable), Ihr Ergebnis wird ein mehrdimensionales Array sein.

Also, eine Zusammenfassung der Ziele zu erhalten, indem Tagungsort, Spieler (Variable), und Spiel, Sie wie folgt vor:

> Dcast (mgoals, Venue + Variable ~ Spiel, sum) Ort variable 1. 2. 3. 4th1 Brügge Granny 12 0 0 62 Brügge Geraldine 5 0 0 43 Brügge Gertrude 11 0 0 74 Gent Granny 0 4 5 05 Gent Geraldine 0 4 2 06 Gent Gertrude 0 5 6 0

Einer der Gründe, sollten Sie Daten im Langformat verstehen ist, dass sowohl der Grafikpakete Gitter und ggplot2 machen ausgiebig Gebrauch von langen Formatdaten. Der Vorteil ist, dass Sie leicht Plots Ihrer Daten erstellen können, die verschiedene Untergruppen verglichen werden.

bild0.jpg
> Bibliothek (ggplot2)> ggplot (mgoals, aes (x = Variable, y = Wert, füllen = Spiel)) + geom_bar ()

Menü