Modellbau mit schrittweise Regression

Einer der Gründe, (aber nicht der einzige Grund) für eine multiple Regressionsanalyse ausgeführt wird, ist mit einer Vorhersage Formel für einige Zielvariable zu kommen, basierend auf einer Reihe von verfügbaren Vorhersagevariablen. Idealerweise würde man diese Formel gerne sein sparsam - so wenig Variablen wie möglich zu haben, aber immer noch gut Vorhersagen zu machen.

Also, wie Sie wählen Sie, aus einer großen Gruppe von Vorhersagevariablen, die kleinste Teilmenge benötigt, um eine gute Vorhersagemodell zu machen? Dies nennt man die # 147-Modell Gebäude # 148- Problem, das ein Thema der aktiven Forschung durch theoretische Statistiker ist. Keine einzelne Methode hat sich als die beste Art und Weise entstanden, auszuwählen, welche Variablen enthalten. Leider verwenden die Forscher oft informelle Methoden, die angemessen erscheinen, aber in Wirklichkeit sind nicht sehr gut, wie die folgenden:

  • Führen Sie eine große multiple Regression alle verfügbaren Prädiktoren verwenden, und dann diejenigen fallen, die nicht signifikant kam heraus. Dieser Ansatz kann einige wichtige Prädiktoren wegen Collinearity verpassen.

  • Führen Sie univariaten Regressionen auf allen möglichen Prädiktor individuell und wählen Sie dann nur die Prädiktoren, die signifikant waren (oder fast signifikant) auf die univariate Tests. Aber manchmal eine wirklich wichtige Prädiktorvariable nicht wesentlich mit dem Ausgang verbunden ist, wenn sich allein getestet, aber nur dann, wenn die Wirkung von einigen anderen Variablen kompensiert wurden. Dieses Problem ist die Umkehrung der verschwindenden Bedeutung Problem - es ist bei weitem nicht so häufig, aber es kann passieren.

Es gibt eine andere Art und Weise - viele Statistiken Pakete anbieten schrittweise Regression, bereitstellen, in dem Sie alle verfügbaren Vorhersagevariablen, und das Programm geht dann durch einen Prozess ähnlich dem, was ein Mensch (mit einem logischen Verstand und viel Zeit auf seinen Händen) tun könnte die beste Teilmenge dieser Prädiktoren zu identifizieren. Das Programm ist sehr systematisch versucht, das Hinzufügen und die verschiedenen Prädiktoren aus dem Modell entfernt wird, ein zu einer Zeit, zu schauen, welche Prädiktoren, wenn zu einem Modell hinzugefügt, im wesentlichen seine Prognosefähigkeit zu verbessern, oder wenn aus dem Modell entfernt, machen es wesentlich schlechter.

Schrittweise Regression können mehrere verschiedene Algorithmen verwenden und Modelle beurteilt werden kann durch verschiedene Kriterien besser oder schlechter zu sein. In der Regel haben diese Methoden oft einen anständigen Job der folgenden Möglichkeiten:

  • Erkennen und Ablegen Variablen, die uni- oder multiple Regression sind nicht mit dem Ergebnis verbunden sind, entweder in

  • Erkennen und Ablegen redundante Variablen (Prädiktoren, die stark mit noch besseren Prädiktoren für das Ergebnis verbunden ist)

  • Das Erkennen und einschließlich Variablen, die in der univariaten Regression kann nicht signifikant gewesen sein, aber das sind von Bedeutung, wenn Sie die Effekte anderer Variablen anpassen

Die meisten schrittweise Regression-Software können Sie auch # 147-Kraft # 148- bestimmte Variablen in das Modell, wenn Sie wissen (von physiologischen Beweise), dass diese Variablen wichtige Prädiktoren für das Ergebnis sind.

Menü