Wie die Ergebnisse einer R Klassifizierung Predictive Analytics Modell zu erklären,

Eine weitere Aufgabe in Predictive Analytics ist es, neue Daten zu klassifizieren, indem Sie die Vorhersage, welche Klasse ein Zieldatenelement gehört eine Reihe von unabhängigen Variablen, gegeben. Sie können zum Beispiel einen Kunden nach Typ klassifizieren - sagen wir, als hochwertige Kunden, Stammkunden, oder einem Kunden, der zu einem Wettbewerber zu wechseln ist bereit - durch einen Entscheidungsbaum verwenden.

Um einige nützliche Informationen über die R-Klassifikationsmodell, geben Sie den folgenden Code zu sehen:

> Zusammenfassung (Modell) Länge Klasse Mode1 BinaryTreeS4

Das Klasse Spalte zeigt an, dass Sie einen Entscheidungsbaum erstellt haben. Um zu sehen, wie sich die Spaltungen bestimmt werden, können Sie einfach auf den Namen der Variablen geben, in dem Sie das Modell zugeordnet ist, in diesem Fall Modell-, so was:

> ModelConditional Inferenz Baum mit 6 Terminal nodesResponse: seedTypeInputs: Fläche, Umfang, Kompaktheit, Länge, Breite, Asymmetrie, length2Number von Beobachtungen: 1471) Bereich lt; = 16.2- Kriterium = 1, Statistik = 123,4232) Bereich lt; = 13.37- Kriterium = 1, Statistik = 63,5493) length2 lt; = 4.914- Kriterium = 1, Statistik = 22,2514) * Gewichte = 113) length2> 4,9145) * Gewichte = 452) Fläche> 13,376) length2 lt; = 5.396- Kriterium = 1, Statistik = 16,317) * Gewichte = 336) length2> 5,3968) * Gewichte = 81) Fläche> 16,29) length2 lt; = 5.877- Kriterium = 0,979, Statistik = 8,76410) * Gewichte = 109) length2> 5,87711) * Gewichte = 40

Noch besser ist, können Sie das Modell visualisiert durch eine Handlung des Entscheidungsbaums mit diesem Code zu erstellen:> Grundstück (Modell)

bild0.jpg

Dies ist eine grafische Darstellung eines Entscheidungsbaums. Sie können bei einem echten Baum, dass die Gesamtform ahmt sehen. Es ist gemacht aus Knoten (Die Kreise und Rechtecke) und Links oder Kanten (Die Verbindungslinien).

Der erste Knoten (beginnend an der Spitze) aufgerufen, um die Wurzelknoten und die Knoten an der Unterseite der Baum (Rechtecke) aufgerufen Endknoten. Es gibt fünf Entscheidungsknoten und sechs Endknoten.

An jedem Knoten macht das Modell eine Entscheidung auf der Grundlage der Kriterien in den Kreis und die Links und wählt einen Weg zu gehen. Wenn das Modell ein Endknoten erreicht, ein Urteil oder eine endgültige Entscheidung erreicht ist. In diesem speziellen Fall zwei Attribute werden die und die verwendete in Klasse, zu entscheiden, ob ein gegebener seed Typ 1, 2 oder 3 ist.

Nehmen wir zum Beispiel Beobachtung # 2 aus dem Datensatz. Es verfügt über eine von 4.956 und ein von 14.88. Sie können den Baum verwenden Sie, welche besonderen Saatgutart diese Beobachtung gehört nur gebaut, um zu entscheiden. Hier ist die Reihenfolge von Schritten:

  1. Beginnen Sie an der Wurzelknoten, der ist der Knoten 1 (die Zahl in dem kleinen Platz an der Spitze des Kreises gezeigt). Entscheiden Sie sich für das Attribut basiert: Ist der Beobachtung # 2 weniger als oder gleich (durch lt; =) 16,2? Die Antwort ist ja, so auf dem Weg zum Knoten 2 zu bewegen.

  2. Am Knoten 2, fragt das Modell: Ist der Bereich lt; = 13,37? Die Antwort ist nein, so versuchen Sie die nächste Verbindung, die fragt: Ist das Gebiet> 13,37? Die Antwort ist ja, so auf dem Weg zum Knoten 6. An diesem Knoten verschieben das Modell fragt: Ist das length2 lt; = 5.396? Es ist, und bewegen Sie sich auf Endknoten 7 und das Urteil ist, dass Beobachtung # 2 von Saatgut Typ 1. Und es ist in der Tat, Samen Typ 1.

    Das Modell funktioniert das Verfahren für alle anderen Beobachtungen ihre Klassen zu prognostizieren.

  3. Um herauszufinden, ob Sie ein gutes Modell trainiert, überprüfen Sie es gegen den Trainingsdaten. Sie können mit dem folgenden Code, um die Ergebnisse in einer Tabelle anzuzeigen:

    > Tabelle (vorhersagen (Modell), Triebzug $ seedType) 1 2 31 45 4 32 3 47 03 1 0 44

    Die Ergebnisse zeigen, dass der Fehler (oder misclassification Rate) 11 von 147, oder 7,48 Prozent.

  4. Mit den Ergebnissen berechnet wird, ist der nächste Schritt, um die Tabelle zu lesen.

    Die korrekte Vorhersagen sind diejenigen, die die Spalten- und Zeilennummer als die gleiche zeigen. Diese Ergebnisse zeigen, wie eine diagonale Linie von links oben nach rechts unten; zB [1,1], [2,2], [3,3] sind die Anzahl der korrekten Vorhersagen für diese Klasse.

    Also für Saatgut Typ 1, prognostizierte das Modell richtig es 45 Mal, während die Samen 7 mal Fehlklassifizierung (4-mal als Saatgut Typ 2, und 3-mal als Typ 3). Bei der Saatgut Typ 2, prognostizierte das Modell richtig es 47 Mal, während es 3 mal Fehlklassifizierung. Bei der Saatgut Typ 3, prognostizierte das Modell richtig es 44 Mal, während es nur einmal Fehlklassifizierung.

Dies zeigt, dass dies ein gutes Modell. So, jetzt bewerten Sie es mit den Testdaten. Hier ist der Code, der die Testdaten verwendet, um vorherzusagen, und speichern sie in einer Variablen (testPrediction) Für die spätere Verwendung:

> testPrediction lt; - vorhersagen (Modell, newdata = testSet)

Um zu bewerten, wie das Modell mit den Testdaten durchgeführt, es in einer Tabelle anzuzeigen und den Fehler zu berechnen, für die der Code wie folgt aussieht:

> Tabelle (testPrediction, testSet $ ​​seedType) testPrediction 2 31 23 1 2 12 1 19 03 1 0 17

Die Ergebnisse zeigen, dass der Fehler mit 5 von 64 oder 7,81 Prozent. Dies steht im Einklang mit den Trainingsdaten.

Menü