Wie man die Daten in R Regression für Predictive Analytics vorbereiten

Sie haben die Daten in eine Form zu erhalten, die der Algorithmus eine prädiktive Analysemodell erstellen können. Um dies zu tun, müssen Sie einige Zeit dauern, um die Daten zu verstehen und die Struktur der Daten zu kennen. Geben Sie in der Funktion, die die Struktur der Daten zu erfahren. Der Befehl und seine Ausgabe wie folgt aussehen:

> Str (Autos) 'data.frame': 398 obs. von 9 Variablen: $ V1: num 15 18 16 18 17 15 14 14 14 15 ... $ V2: int 8 8 8 8 8 8 8 8 8 8 ... $ V3: num 350 318 304 307 302 429 454 440 455 390 ... $ V4: chr "130,0" "165,0" "150,0" "150,0" ... $ V5: num 3504 3693 3436 3433 3449 ... $ V6: num 11 12 11,5 12 10,5 10 9 8,5 10 8,5 ... $ V7: int 70 70 70 70 70 70 70 70 70 70 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ... $ V9: Faktor w / 305 Stufen "amc Botschafter brougham" , ..:
37 232 15 50 162 142 55 224 242 2 ...

Vom Blick auf die Struktur, die kann Ihnen sagen, dass es einige Datenaufbereitung und Reinigung zu tun ist. Hier ist eine Liste der benötigten Aufgaben:

  • Benennen Sie die Spaltennamen.

    Dies ist nicht unbedingt notwendig, aber für die Zwecke dieses Beispiels ist es besser, Spaltennamen zu verwenden, zu verstehen und zu erinnern.

  • Ändern Sie den Datentyp von V4 (Pferdestärke) Zu a numerisch Datentyp.

    In diesem Beispiel Pferdestärke ist eine kontinuierliche Zahlenwert und nicht ein Charakter Datentyp.

  • Griff fehlende Werte.

    Hier Pferdestärke hat sechs fehlenden Werte.

  • Ändern Sie die Attribute, die diskrete Werte von Faktoren haben.

    Hier Zylinder, Model Jahr, und Herkunft haben diskrete Werte.

  • Entsorgen Sie die V9 (Auto Name) Attribut.

    Hier Auto Name nicht Wert auf das Modell hinzufügen, die Sie erstellen. wenn der Herkunft Attribut wurden nicht angegeben, können Sie die Herkunft aus der abgeleitet haben könnte Auto Name Attribut.

Um die Spalten geben Sie folgenden Code umbenennen:

> COLNAMES (Autos) lt; - 
c ( "mpg", "Zylinder", "Verschiebung", "PS", "Gewicht", "Beschleunigung", "Baujahr", "Ursprung",
"CarName")

Als nächstes den Datentyp ändern Pferdestärke nach numerisch mit dem folgenden Code:

> Autos $ PS lt; - as.numeric (autos $ PS)

Das Programm wird sich beschweren, weil nicht alle Werte in PS Stringdarstellungen von Zahlen waren. Es gab einige fehlende Werte, die als die vertreten waren # 147 - # 148- Charakter. Das ist jetzt in Ordnung, weil R wandelt jede Instanz ? in N / A.

Ein üblicher Weg, um die fehlenden Werte der kontinuierlichen Variablen zu handhaben ist, jeden fehlenden Wert mit dem Mittelwert der gesamten Kolonne zu ersetzen. Die folgende Codezeile funktioniert das:

> Autos $ PS [is.na (Autos $ PS)] lt; - Mittel (Autos $ PS, na.rm = TRUE)

Es ist wichtig zu haben na.rm-TRUE in dem bedeuten Funktion. Es erzählt die Funktion nicht zu Spalten mit Nullwerten in der Berechnung verwendet werden. Ohne sie, kehrt die Funktion.

Als nächstes wird mit diskreten Werten zu Faktoren, die die Attribute ändern. Drei Attribute wurden als diskrete identifiziert. Die folgenden drei Zeilen Code ändern Sie die Attribute.

> Autos $ Herkunft lt; - Faktor (autos $ origin)> Autos $ Baujahr lt; - Faktor (Autos $ Baujahr)> autos $ Zylinder lt; - Faktor (autos $ Zylinder)

Schließlich mit dieser Codezeile das Attribut aus dem Datenrahmen zu entfernen:

> Autos $ carName lt; - NULL

An diesem Punkt haben Sie fertig, die Daten für den Modellierungsprozess vorbereitet. Das Folgende ist eine Ansicht der Struktur nach der Datenvorbereitungsprozess:

> Str (Autos) 'data.frame': 398 obs. von 8 Variablen: $ mpg: num 15 18 16 18 17 15 14 14 14 15 ... $ Zylinder: Faktor w / 5 Stufen "3", "4", "5", "6", ..:
5 5 5 5 5 5 5 5 5 5 ... $ Verschiebung: num 350 318 304 307 302 429 454 440 455 390 ... $ PS: num 165 150 150 130 140 198 220 215 225 190 ... $ Gewicht: num 3504 3693 3436 3433 3449. . . $ Beschleunigung: num 12 11,5 11 12 10,5 10 9 8,5 10 8,5 ... $ Baujahr: Faktor w / 13 Stufen "70", "71", "72", ..:
1 1 1 1 1 1 1 1 1 1 ... $ Herkunft: Faktor w / 3 Ebenen "1", "2", "3":
1 1 1 1 1 1 1 1 1 1 ...

Menü