Wie man die Daten in einer R Klassifizierung Predictive Analytics Modell vorbereiten

Um eine prädiktive Analyse ausführen können, müssen Sie die Daten in ein Formular erhalten, dass der Algorithmus ein Modell verwenden können, zu bauen. Um das zu tun, müssen Sie einige Zeit dauern, um die Daten zu verstehen und seine Struktur zu kennen. Geben Sie in der Funktion, die die Struktur der Daten zu erfahren. Hier ist, wie es aussieht:

> Str (Samen) 'data.frame': 210 obs. von 8 Variablen: $ V1: num 15.3 14.9 14.3 13.8 16.1 ... $ V2: num 14.8 14.6 14.1 13.9 15 ... $ V3: num 0,871 0,881 0,905 0,895 0,903 ... $ V4: num 5,76 5,55 5,29 5,32 5,66. $ .. V5: num 3.31 3.33 3.34 3.38 3.56 ... $ V6: num 2.22 1.02 2.7 2.26 1.35 ... $ V7: num 5.22 4.96 4.83 4.8 5.17 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ...

Vom Blick auf die Struktur, die kann Ihnen sagen, dass die Daten eine Vorverarbeitung Schritt und eine Bequemlichkeit Schritt muss:

  • Benennen Sie die Spaltennamen. Dies ist nicht unbedingt notwendig, aber für die Zwecke dieses Beispiels ist es bequemer Spaltennamen verwenden, können Sie verstehen und zu erinnern.

  • Ändern Sie das Attribut mit kategorialen Werten zu einem Faktor. Das Label hat drei mögliche Kategorien.

Um die Spalten, geben Sie den folgenden Code umbenennen:

> COLNAMES (Samen) lt; - 
c ( "Bereich", "Umfang", "Kompaktheit", "Länge", "Breite", "Asymmetrie", "length2", "seedType")

Als nächstes ändern das Attribut, das kategorische Werte zu einem Faktor hat. Der folgende Code ändert den Datentyp zu einem Faktor:

> Samen $ seedType lt; - Faktor (Samen $ seedType)

Dieser Befehl beendet die Vorbereitung der Daten für den Modellierungsprozess. Das Folgende ist eine Ansicht der Struktur nach der Datenvorbereitungsprozess:

> Str (Unkraut) 'data.frame': 210 obs. von 8 Variablen: $ Bereich: num 15.3 14.9 14.3 13.8 16.1 ... $ Umfang: num 14.8 14.6 14.1 13.9 15 ... $ Kompaktheit: num 0,871 0,881 0,905 0,895 0,903 ... $ Länge: num 5,76 5,55 5,29 5,32 5,66. .. $ width: num 3.31 3.33 3.34 3.38 3.56 ... $ Asymmetrie: num 2.22 1.02 2.7 2.26 1.35 ... $ length2: num 5.22 4.96 4.83 4.8 5.17 ... $ seedType: Faktor w / 3 Ebenen "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 ...

Menü