So verwenden Anwenden auf Tabellarische Zusammenfassungen erstellen in R

Sie nutzen tapply ()

tabellarischen Zusammenfassungen von Daten in R. zu schaffen, mit tapply (), Sie können ganz einfach Zusammenfassungen von Untergruppen in Daten erstellen. Diese Funktion nimmt drei Argumente:

  • X: Ein Vektor

  • INDEX: Ein Faktor oder eine Liste von Faktoren

  • SPASS: Eine Funktion

Zum Beispiel den Mittelwert Kelchblatt Länge im Datensatz Iris:

> Tapply (Iris $ Sepal.Length, Iris $ Arten, Mittel) setosa versicolor virginica5.006 5,936 6,588

Mit dieser kurzen Zeile Code, tun Sie etwas starke Sache. Sie sagen R die zu nehmen Sepal.Length Spalte, spaltete es nach Spezies, und dann den Mittelwert für jede Gruppe.

Dies ist ein wichtiger Idiom für Code in R zu schreiben, und es geht in der Regel mit dem Namen Split, Übernehmen und Kombinieren (SAC). In diesem Fall spalten Sie einen Vektor in Gruppen, tragen Sie eine Funktion, die jeder Gruppe, und dann das Ergebnis in einen Vektor zu kombinieren.

Natürlich unter Verwendung der mit() Funktion können Sie Ihre Codezeile in einem leicht lesbarer Weise schreiben:

> Mit (Iris, tapply (Sepal.Length, Spezies, bedeuten)) setosa versicolor virginica5.006 5,936 6,588

Mit tapply (), Sie können auch komplexere Tabellen zu erstellen, um Ihre Daten zusammenfassen. Sie tun dies, indem sie eine Liste mit als INDEX Streit.

Wie tapply () verwenden zu schaffen höherdimensionalen Tabellen

Zum Beispiel versuchen, den Datenrahmen zusammenfassen mtcars, eine integrierte Datenrahmen mit Daten über Motor-Pkw-Motoren und Leistung. Wie bei jedem Objekt können Sie verwenden str () zu inspizieren seine Struktur:

> Str (mtcars)

die Variable bin ist ein numerischer Vektor, der der Motor einen automatischen hat angibt, ob (0) Oder manuell (1) Getriebe. Da dies nicht sehr aussagekräftig ist, beginnen Sie ein neues Objekt erstellen, Autos, das ist eine Kopie mtcars, und die Spalte ändern bin sein, um einen Faktor:

> Autos lt; - innerhalb (mtcars, + Uhr lt; - Faktor (am, levels = 0: 1, Etiketten = c ( "Automatisch", "Manuell")) +)

Jetzt verwenden tapply () die durchschnittlichen Meilen pro Gallone zu finden (mpg) Für jede Art von Getriebe:

> Mit (Autos, tapply (mpg, bin, meine)) Automatische Manual17.14737 24,39231

Ja, du bist richtig. Dies ist immer noch nur eine eindimensionale Tabelle. Nun versuchen, eine zweidimensionale Tabelle mit der Art des Getriebes zu machen (Uhr) und die Anzahl der Zahnräder (Gang):

> Mit (Autos, tapply (mpg, Liste (Getriebe, bin), bedeuten)) Automatische Manuell3 16,10667 NA4 21,05000 26.2755NA 21,380

Sie nutzen tapply () tabellarischen Zusammenfassungen von Daten zu erstellen. Dies ist ein bisschen ähnlich wie die Tabelle() Funktion. Aber, Tabelle() nur Kontingenz Tabellen erstellen können (das heißt, Tabellen der Zählungen), während bei tapply () Sie können eine beliebige Funktion wie die Aggregationsfunktion angeben. Mit anderen Worten, mit tapply (), Sie können zählt, bedeutet, oder einen anderen Wert zu berechnen.

Wenn Sie Statistiken auf einem einzigen Vektor zusammenfassen, tapply () zu verwenden, ist sehr nützlich und schnell.

Wie zu verwenden Aggregat ()

Eine weitere R-Funktion, die etwas sehr ähnliches tut, ist Aggregat():

> Mit (Autos, Aggregat (mpg, Liste (Getriebe = Gang, am = Uhr), bedeuten)) gearamx1 3 Automatische 16,106672 4 Automatische 21,050003 4 Handbuch 26,275004 5 Handbuch 21,38000

Als nächstes nehmen Sie Aggregat() zu neuen Höhen der Formel-Schnittstelle.

Menü