Wie man ein Predictive Analytics Modell mit R Regression erstellen

Computer & Software / Große Daten / Daten Wissenschaft

Sie wollen einen Predictive Analytics-Modell zu erstellen, die Sie mit bekannten Ergebnisse auswerten kann. Um das zu tun, werden wir unserem Datensatz in zwei Gruppen aufgeteilt: eine für die Ausbildung des Modells und eines für das Modell zu testen. A 70/30 Aufteilung zwischen Trainings- und Testdatensätzen genügen. Die nächsten zwei Zeilen Code berechnen und speichern Sie die Größen jedes Satzes:

> trainSize lt; - Runde (nrow (Autos) * 0,7)> testSize lt; - nrow (Autos) - trainSize

Zur Ausgabe von den Werten, geben Sie den Namen der Variablen verwendet, den Wert und drücken Sie zum Speichern Sie die Eingabetaste. Hier ist die Ausgabe:

> TrainSize [1] 279> testSize [1] 119

Dieser Code bestimmt die Größen der Datensätze, die Sie beabsichtigen, unsere Trainings- und Testdatensätze zu machen. Sie haben noch nicht wirklich jene Sätze erstellt. Außerdem wollen Sie nicht einfach die ersten 279 Beobachtungen der Trainingssatz zu nennen und die letzten 119 Beobachtungen der Testsatz nennen. Das wäre ein schlechtes Modell erstellt werden, da der Datensatz bestellt erscheint. Insbesondere ist die Model Jahr Säule wird von der kleinsten zur größten bestellt.

siehe Aus den Daten untersuchen, können Sie, dass die meisten der schwereren, Achtzylinder mit größerem Hubraum, höhere PS starken Autos befinden sich auf der Oberseite des Datensatzes. Aus dieser Beobachtung, ohne dass Algorithmen, die auf den Daten ausführen zu müssen, können Sie schon, dass erzählen (in der Regel für diesen Datensatz) ältere Fahrzeuge im Vergleich zu neueren Autos wie folgt:

sind schwerere

Haben acht Zylinder
Haben größere Verschiebung

Haben eine größere Leistung

Okay, offensichtlich viele Leute wissen etwas über Autos, so eine Vermutung, was die Korrelationen sind nicht zu sein, weit hergeholt, nachdem Sie die Daten zu sehen. Jemand mit viel Automobil Wissen haben dies bereits bekannt, ohne dass sie die Daten suchen.

Dies ist nur ein einfaches Beispiel für eine Domain (Autos), dass viele Menschen zu beziehen. Wenn diese Daten über Krebs war, würde aber die meisten Leute nicht sofort verstehen, was jedes Attribut bedeutet.

Dies ist, wo ein Domain-Experte und ein Daten Modellierer zu den Modellierungsprozess von entscheidender Bedeutung sind. Domain-Experten kann am besten kennen, welche Attribute die meisten sein kann (oder am wenigsten) wichtig - und wie Attribute korrelieren miteinander.

Sie können auf die Daten-Modellierer vorschlagen, welche Variablen zu experimentieren. Sie können größere geben Gewichte wichtiger Attribute und / oder kleinere Gewichte auf Attribute des geringsten Bedeutung (oder entfernen sie insgesamt).

So haben Sie einen Trainingsdatenmenge und einen Test-Datensatz zu machen, die wirklich repräsentativ für die gesamte Gruppe. Eine Möglichkeit, dies zu tun, ist es, die Ausbildung zu schaffen, aus einer zufälligen Auswahl des gesamten Datensatzes festgelegt. Darüber hinaus möchten Sie diesen Test reproduzierbar zu machen, so dass Sie aus dem gleichen Beispiel lernen können.

So stellen Sie die Samen für den Zufallsgenerator, so dass wir die gleiche haben werden # 147 Zufalls # 148- Trainingssatz. Der folgende Code macht diese Aufgabe:

> Set.seed (123)> training_indices lt; - Probe (seq_len (nrow (Autos)),
 size = trainSize)> Triebzug lt; - Autos [training_indices,]> testSet lt; - Autos [-training_indices,]

Der Trainingssatz enthält 279 Beobachtungen, zusammen mit dem Ergebnis (mpg) Jeder Beobachtung. Der Regressionsalgorithmus verwendet das Ergebnis, das Modell zu trainieren, indem zwischen den Einflussvariablen (irgendwelchen der sieben Attribute) und die Antwortvariable bei den Beziehungen suchen (mpg).

Das Test-Set enthält den Rest der Daten (dh der Teil, der nicht in dem Trainingssatz enthalten). Sie sollten beachten, dass der Test-Set enthält auch die Antwort (mpg) Variabel.

Wenn Sie die vorhersagen Funktion (vom Modell) mit dem Test-Set, ignoriert er die Antwortvariable und verwendet nur die Prädiktorvariablen solange die Spaltennamen die gleichen wie die in dem Trainingssatz sind.

Um eine lineare Regressionsmodell erstellen, die verwendet mpg Attribut als Reaktionsvariable und alle anderen Variablen als Prädiktoren, geben Sie in der folgenden Codezeile:

> Modell lt; - lm (. Formel = Triebzug $ mpg ~, data = Triebzug)

Wie man ein Predictive Analytics Modell mit R Regression erstellen

Ähnliche

Menü