So erstellen Subgruppen von Daten in R

Das schneiden()

Funktion in R erzeugt Behälter gleicher Größe (Standard) in Ihre Daten und klassifiziert dann jedes Element in seine richtige Fach.

Wenn dies wie ein Schluck klingt, keine Sorge. Einige Beispiele sollen diese zum Leben zu erwecken.

So verwenden Sie schneiden eine feste Anzahl von Untergruppen zu erstellen

Veranschaulichen die Verwendung von schneiden(), haben einen Blick auf die Einbau-Dataset state.x77, ein Array mit mehreren Spalten und eine Zeile für jeden Staat in den Vereinigten Staaten:

> Kopf (state.x77) Bevölkerung Einkommen Analphabetismus Leben Exp Mord HS Grad Frost AreaAlabama 3615 36.242,1 69.05 15.1 41.3 20 50708Alaska 365 63.151,5 69.31 11.3 66.7 152 566432Arizona 2212 45.301,8 70,55 7,8 58,1 15 113417Arkansas 2110 33.781,9 70.66 10.1 39.9 65 51945California 21198 51141,1 71,71 10,3 62,6 20 156361Colorado 2541 48.840,7 72,06 6,8 63,9 166 103766

Sie wollen mit der Spalte zu arbeiten genannt Frost. Um diese Spalte zu extrahieren, gehen Sie folgendermaßen vor:

> Frost lt; - state.x77 [, "Frost"]> Kopf (Frost, 5) Alabama Alaska Arizona Arkansas California20152 15 65 20

Sie haben jetzt ein neues Objekt, Frost, eine benannte numerische Vektor. Jetzt verwenden schneiden() drei Behälter in Ihrer Daten zu erstellen:

> Schnitt (Frost, 3, include.lowest = TRUE) [1] [-0.188,62.6] (125188] [-0.188,62.6] (62.6,125] [5] [-0.188,62.6] (125188] (125.188 ] (62.6,125] .... [45] (125188] (62.6,125] [-0.188,62.6] (62.6,125] [49] (125188] (125188] Etagen: [-0.188,62.6] ( 62.6,125] (125188]

Das Ergebnis ist ein Faktor mit drei Ebenen. Die Namen der Ebenen scheinen ein wenig kompliziert, aber sie sagen, in der mathematischen Satz Notation, was die Grenzen Ihrer Bins sind. Zum Beispiel enthält der erste bin, jene Staaten, die zwischen -0,188 und 62,8 Tage Frost haben.

In Wirklichkeit wird natürlich keiner der Staaten haben Frost an negativen Tagen - R wird mathematisch konservativ und fügt ein wenig Polsterung.

Beachten Sie das Argument include.lowest = TRUE nach schneiden(). Der Standardwert für dieses Argument ist include.lowest = FALSE, die kann manchmal R verursachen den niedrigsten Wert in Ihre Daten zu ignorieren.

So fügen Sie Etiketten zu schneiden

Die Level-Namen sind nicht sehr benutzerfreundlich, so geben einige bessere Namen mit der Etiketten Streit:

> Schnitt (Frost, 3, include.lowest = TRUE, Etiketten = c ( "Low", "Med", "High")) [1] Niedrig Hoch Niedrig Mittel Niedrig Hoch Hoch Mittel Niedrig Niedrig Niedrig .... [45 ] Hoch Mittel Niedrig Mittel Hoch HighLevels: Niedrig Mittel Hoch

Jetzt haben Sie einen Faktor, der Staaten in niedrig, mittel klassifiziert, und hoch, je nach der Anzahl der Frosttage sie bekommen.

Wie zu verwenden Tabelle die Anzahl der Beobachtungen zu zählen

Ein interessantes Stück der Analyse ist zu zählen, wie viele Staaten in jeder Klammer sind. Sie können mit der dies tun Tabelle() Funktion, die die Anzahl der Beobachtungen in jeder Ebene Ihres Faktor zählt einfach.

> x lt; - Schnitt (Frost, 3, include.lowest = TRUE, Etiketten = c ( "Low", "Med", "High"))> Tabelle (x) Xlow Med High11 19 20

Menü