Wie die Daten in einer R Klassifizierung Predictive Analytics Modell zu laden

Der Datensatz wir analysieren, um eine Vorhersage zu machen auf die Samen-Datensatz, der an der gefunden werden kann UCI-Maschine-Learning Repository. Dieser Datensatz verfügt über 210 Beobachtungen und 7 Attribute sowie das Etikett. Das Label ist das erwartete Ergebnis und verwendet wird, um zu trainieren und die Genauigkeit der Vorhersagemodell zu bewerten.

Das Ergebnis, das Sie versuchen, ist die Art von Samen zu prognostizieren ist (Attribut 8), wobei die Werte der sieben Attribute gegeben. Die drei möglichen Werte für die Saatguttyp sind mit 1, 2 und 3, und stellen die Kama, Rosa und kanadische Sorten von Weizen.

Die Attribute in der Spalte Reihenfolge, wie sie vorgesehen sind:

  1. Bereich

  2. Perimeter

  3. Kompaktheit

  4. Länge des Kernel

  5. Breite des Kernel

  6. Asymmetrie Koeffizient

  7. Länge der Kernel-Nut

  8. Klasse von Weizen

Um den Datensatz aus dem UCI-Repository bekommen und es in den Speicher zu laden, geben Sie den folgenden Befehl in die Konsole:

> Samen lt; - 
read.csv ( "https://archive.ics.uci.edu/ml/machine -Learning-Datenbanken / 00236 / seeds_dataset.txt", header = FALSE, sep = "", as.is = TRUE)

Sie sehen, dass der Datensatz in den Speicher als Datenrahmen Variable geladen wurde Saat, durch in Ihrem Arbeitsbereich (die oben rechts) suchen. Drücke den Saat Variable, die die Datenwerte im Quellbereich zu sehen (das oben links). Dies ist, wie die Daten sieht im Quellbereich.

bild0.jpg

Sie können weitere Informationen über die Daten finden Sie gerade die durch die Verwendung geladen Zusammenfassung() Funktion.

> Zusammenfassung (Samen) V1 V2 V3Min. : 10,59 Min. : 12,41 Min. 0.80811st Qu.:12.27 1. Qu.:13.45 1. Qu.:0.8569Median: 14.36 Median: 14,32 Median: 0.8734Mean: 14.85 Mittelwert: 14,56 Mittelwert: 0.87103rd Qu.:17.30 3. Qu.:15.71 3. Qu.:0.8878 max. : 21,18 Max. 17.25 Max. : 0,9183 ...

Menü