Wie die prädiktive Analyseergebnisse der R Regression zu erklären

Sobald Sie ein R-Regressionsmodell für Predictive Analytics erstellen, wollen Sie in der Lage sein, die Ergebnisse der Analyse zu erklären. Um einige nützliche Informationen über das Modell, geben Sie den folgenden Code zu sehen:

> Zusammenfassung (Modell)

Die Ausgabe enthält Informationen, die Sie erkunden können, wenn Sie weiter Ihr Modell zu optimieren möchten. Denn jetzt werden wir das Modell belassen, wie es ist. Hier sind die beiden letzten Zeilen der Ausgangs:

Mehrere R-Quadrat: 0,8741, Adjusted R-Quadrat: 0.8633F-Statistik: 80.82 auf 22 und 256 DF, p-Wert: lt; 2.2E-16

Ein paar Datenpunkte zeichnen sich hier:

  • Das Mehrere R-Quadrat Wert gibt an, wie gut die Regressionslinie die Daten (Anpassungsgüte) passt. Ein Wert von 1 bedeutet, dass es eine perfekte Passform. so ein r-squared Wert von 0.874 ist gut- es heißt, dass 87,4 Prozent der Variabilität in mpg wird durch das Modell erklärt.

  • Das p-Wert erfahren Sie, wie die Einflussvariablen signifikant die Reaktionsvariable beeinflussen. EIN p-Wert von weniger als (in der Regel) 0,05 bedeutet, dass Sie die Nullhypothese verwerfen kann, dass die Einflussvariablen kollektiv keinen Einfluss auf die Reaktionsvariable haben (mpg). Das p-Wert von 2.2e-16 (das heißt, 2,2 mit 16 Nullen davor) viel kleiner als 0,05, so weisen die Prädiktoren eine Wirkung auf die Reaktion.

Mit dem Modell erstellt haben, können Sie die Prognosen dagegen mit der Testdaten, die Sie aus dem vollständigen Datensatz aufgeteilt werden. Um dieses Modell zu verwenden, die für jede Zeile in der Testmenge vorherzusagen, geben Sie den folgenden Befehl ein:

> Prognosen lt; - vorhersagen (Modell, testSet,
Intervall = "vorhersagen", level = .95)

Dies ist der Code und die Ausgabe der ersten sechs Prognosen:

> Kopf (Prognosen) fit lwr upr2 16,48993 10,530223 22,449644 18,16543 12,204615 24,126255 18,39992 12,402524 24,397326 12,09295 6,023341 18,162577 11,37966 5,186428 17,572898 11,66368 5,527497 17,79985

Die Ausgabe ist eine Matrix, die die vorhergesagten Werte in den Shows passen Säule und das Vorhersageintervall in der lwr und upr Spalten - mit einem Konfidenzniveau von 95 Prozent. Je höher das Konfidenzniveau, desto breiter ist der Bereich, und umgekehrt.

Der vorhergesagte Wert ist in der Mitte des Bereich- so das Vertrauensniveau ändert nicht den vorhergesagten Wert zu ändern. Die erste Spalte ist die Zeilennummer des vollständigen Datensatz.

Um die tatsächlichen und prognostizierten Werte nebeneinander, so können Sie ganz einfach vergleichen sie, können Sie in den folgenden Zeilen Code eingeben:

> Vergleich lt; - cbind (testSet $ ​​mpg, Prognosen [1])> COLNAMES (Vergleich) lt; - c ( "Ist", "vorhergesagt")

Die erste Zeile erzeugt eine zweispaltige Matrix mit den tatsächlichen und vorhergesagten Werten. Die zweite Zeile ändert die Spaltennamen zu tatsächlichen und vorhergesagt. Geben Sie in der ersten Zeile des Codes der Ausgabe der ersten sechs Zeilen zu bekommen von Vergleich, wie folgt:

> Kopf (Vergleich) tatsächlichen predicted2 15 16,489934 16 18,165435 17 18,399926 15 12,092957 14 11,379668 14 11,66368

Wir wollen auch eine Zusammenfassung der beiden Säulen zu sehen, ihre Mittel zu vergleichen. Dies ist der Code und die Ausgabe der Zusammenfassung:

> Zusammenfassung (Vergleich) actualpredictedMin. : 10.00 Min. : 8.8491st Qu.:16.00 1. Qu.:17.070Median: 21.50 Median: 22.912Mean: 22,79 Mittelwert: 23.0483rd Qu.:28.00 3. Qu.:29.519Max. : 44,30 Max. : 37,643

Als nächstes verwenden Sie die mittlere absolute prozentuale Fehler (mape), Die Genauigkeit unserer Regressionsmodells zu messen. Die Formel für die mittlere absolute prozentuale Fehler ist

(# 931- (| Y-Y '| / | Y |) / N) * 100

wobei Y die tatsächliche Punktzahl ist, Y 'ist die vorhergesagte Punktzahl, und N die Anzahl der vorhergesagten Werte. Nachdem die Werte in die Formel Aufstecken Sie einen Fehler von nur 10,94 Prozent erhalten. Hier ist der Code und die Ausgabe von der R-Konsole:

> mape lt; - (sum (abs (Vergleich [1] -Vergleich [2]) / abs (Vergleich [1])) / nrow (Vergleich)) * 100> mape [1] 10,93689

Mit dem folgenden Code können Sie die Ergebnisse und Fehler in einer Tabellenansicht anzuzeigen:

> mapeTable lt; - cbind (Vergleich, abs (Vergleich [1] - Vergleich [2]) / Vergleich [1] * 100)> COLNAMES (mapeTable) [3] lt; - "absolute prozentuale Fehler"> Kopf (mapeTable) tatsächlich vorhergesagt absolute Prozent error2 16,48993 9,9328894 16 15 18,16543 13,5339525 17 18,39992 8,2348406 15 12,09295 19,3803097 14 11,37966 18,7167088 14 11,66368 16,688031

Hier ist der Code, den Sie den prozentualen Fehler wieder sehen können:

> Summe (mapeTable [3]) / nrow (Vergleich)
[1] 10,93689

Menü