Wie die Daten in einer R Klassifizierung Predictive Analytics Modell zu laden
Der Datensatz wir analysieren, um eine Vorhersage zu machen auf die Samen-Datensatz, der an der gefunden werden kann UCI-Maschine-Learning Repository. Dieser Datensatz verfügt über 210 Beobachtungen und 7 Attribute sowie das Etikett. Das Label ist das erwartete Ergebnis und verwendet wird, um zu trainieren und die Genauigkeit der Vorhersagemodell zu bewerten.
Das Ergebnis, das Sie versuchen, ist die Art von Samen zu prognostizieren ist (Attribut 8), wobei die Werte der sieben Attribute gegeben. Die drei möglichen Werte für die Saatguttyp sind mit 1, 2 und 3, und stellen die Kama, Rosa und kanadische Sorten von Weizen.
Die Attribute in der Spalte Reihenfolge, wie sie vorgesehen sind:
Bereich
Perimeter
Kompaktheit
Länge des Kernel
Breite des Kernel
Asymmetrie Koeffizient
Länge der Kernel-Nut
Klasse von Weizen
Um den Datensatz aus dem UCI-Repository bekommen und es in den Speicher zu laden, geben Sie den folgenden Befehl in die Konsole:
> Samen lt; -
read.csv ( "https://archive.ics.uci.edu/ml/machine -Learning-Datenbanken / 00236 / seeds_dataset.txt", header = FALSE, sep = "", as.is = TRUE)
Sie sehen, dass der Datensatz in den Speicher als Datenrahmen Variable geladen wurde Saat, durch in Ihrem Arbeitsbereich (die oben rechts) suchen. Drücke den Saat Variable, die die Datenwerte im Quellbereich zu sehen (das oben links). Dies ist, wie die Daten sieht im Quellbereich.
Sie können weitere Informationen über die Daten finden Sie gerade die durch die Verwendung geladen Zusammenfassung() Funktion.
> Zusammenfassung (Samen) V1 V2 V3Min. : 10,59 Min. : 12,41 Min. 0.80811st Qu.:12.27 1. Qu.:13.45 1. Qu.:0.8569Median: 14.36 Median: 14,32 Median: 0.8734Mean: 14.85 Mittelwert: 14,56 Mittelwert: 0.87103rd Qu.:17.30 3. Qu.:15.71 3. Qu.:0.8878 max. : 21,18 Max. 17.25 Max. : 0,9183 ...