Hohe Multikollinearität und Ihr ökonometrische Modell

Hohe multicollinearity ergibt sich aus einer linearen Beziehung zwischen Ihrem unabhängigen Variablen mit einem hohen Maß an Korrelation, aber nicht vollständig deterministisch (in anderen Worten, sie haben keine perfekte Korrelation). Es ist viel häufiger als ihre perfekte Gegenstück und kann ebenso problematisch sein, wenn es um die Schätzung eines ökonometrischen Modells kommt.

Sie können eine ungefähre lineare Beziehung beschreiben, die eine hohe multicollinearity charakterisiert, wie folgt:

bild0.jpg

bei dem die Xs sind unabhängige Variablen in einem Regressionsmodell und u stellt einen Zufallsfehler (das ist die Komponente, die hohe multicollinearity perfekt multicollinearity unterscheidet). Daher ist die Differenz zwischen perfekt und hoher multicollinearity daß eine gewisse Variation in der unabhängigen Variablen wird durch Variation der anderen unabhängigen Variablen nicht erklärt (s).

Je stärker die Beziehung zwischen den unabhängigen Variablen, desto wahrscheinlicher werden Sie zu haben Schätzung Probleme mit Ihrem Modell.

Starke lineare Beziehungen in hoher multicollinearity resultieren, können Sie überraschen manchmal fangen, aber diese drei Situationen sind in der Regel besonders problematisch:

  • Sie verwenden Variablen, die Werte voneinander zurückgeblieben sind. Zum Beispiel ist eine unabhängige Variable eines individuellen Einkommen im laufenden Jahr und eine weitere unabhängige Variable misst einen individuellen Einkommen im Vorjahr. Diese Werte können für einige Beobachtungen völlig anders sein, aber für die meisten Beobachtungen die beiden sind eng miteinander verbunden.

  • Sie verwenden Variablen, die eine gemeinsame Zeittrendkomponente teilen. Zum Beispiel verwenden Sie Jahreswerte für das BIP (Bruttoinlandsprodukt) und der DJIA (Dow Jones Industrial Average) als unabhängige Variablen in einem Regressionsmodell. Der Wert für diese Messungen neigt (mit gelegentlichem abnimmt) zu erhöhen und allgemein in der gleichen Richtung über der Zeit bewegen.

  • Sie verwenden Variablen, die ähnliche Phänomene zu erfassen. Zum Beispiel Ihre unabhängigen Variablen Kriminalität in Städten zu erklären, kann Arbeitslosigkeit, Durchschnittseinkommen und Armutsraten sein. Diese Variablen sind wahrscheinlich nicht perfekt korreliert zu sein, aber sie sind wahrscheinlich hoch korreliert.

Technisch gesehen, ist das Vorhandensein von hohen multicollinearity keine CLRM Annahmen verletzen. Folglich kann OLS Schätzungen BLUE (beste lineare unverzerrten Schätzer) mit hoher multicollinearity gewonnen wurden und werden.

Obwohl OLS Schätzer BLUE in Gegenwart hoher multicollinearity bleiben, verstärkt es eine wünschenswerte wiederholte Probenahme Eigentum. In der Praxis haben Sie wahrscheinlich nicht die Möglichkeit, mehrere Proben zu verwenden, so dass Sie wollen jede gegebene Probe sinnvolle und zuverlässige Ergebnisse zu erzielen.

Mit hoher multicollinearity schätzt die OLS haben immer noch die kleinste Varianz, aber kleinste Konzept ist eine relative und stellt nicht sicher, dass die Varianzen tatsächlich klein sind. In der Tat sind die größeren Abweichungen (und Standardfehler) der OLS Schätzer der Hauptgrund, hohe multicollinearity zu vermeiden.

Die typischen Folgen hoher multicollinearity gehören die folgenden:

  • Größere Standardfehler und unbedeutend t-Statistiken: Die geschätzte Varianz eines Koeffizienten in einer Mehrfachregressions ist

    image1.jpg

    woher

    image2.jpg

    der Mittelwert quadratischen Fehler (MSE) und

    image3.jpg

    ist der R-Quadrat-Wert von regredieren Xk auf dem anderen Xs. Höhere multicollinearity Ergebnisse in einem größeren

    image4.jpg

    das erhöht den Standardfehler des Koeffizienten. Die Figur zeigt die Wirkung der multicollinearity auf der Varianz (oder Standardabweichung) eines Koeffizienten.

    image5.jpg

    Weil das t-Statistik mit einem Koeffizienten zugeordnet ist das Verhältnis des geschätzten Koeffizienten auf den Standardfehler

    image6.jpg

    hohe multicollinearity neigt auch dazu, in unbedeutend führen t-Statistiken.

  • Koeffizientenschätzungen, die auf Änderungen in der Spezifikation empfindlich sind: Wenn die unabhängigen Variablen stark kollinear sind, müssen die Schätzwerte kleine Unterschiede in den Variablen, um hervorzuheben, eine unabhängige Wirkung jeder von ihnen zuzuweisen. Hinzufügen oder Entfernen von Variablen aus dem Modell kann die Art der kleinen Unterschiede ändern und drastisch Ihre Koeffizientenschätzungen ändern. Mit anderen Worten, sind Ihre Ergebnisse nicht robust.

  • Unsinnig Koeffizient Zeichen und Größen: Bei höheren multicollinearity, die Varianz der geschätzten Koeffizienten erhöht, was wiederum erhöht die Chancen der Koeffizientenschätzungen mit Extremwerten zu erhalten. Folglich können diese Schätzungen haben unglaublich große Größen und / oder Zeichen, die die erwartete Beziehung zwischen den unabhängigen und abhängigen Variablen entgegenzuwirken. Die Abbildung zeigt, wie die Stichprobenverteilung der geschätzten Koeffizienten von multicollinearity betroffen ist.

    image7.jpg

Wenn zwei (oder mehr) Variablen hohe multicollinearity aufweisen, gibt es mehr Unsicherheit darüber, welche Variable sollte mit dem Erklären Variation in der abhängigen Variablen gutgeschrieben. Aus diesem Grund ist ein hoher R-Quadrat-Wert mit vielen statistisch insignifikant Koeffizienten kombiniert ist eine häufige Folge der hohen multicollinearity.

Menü