Unternehmensstatistik: Mit Hilfe der Regressionsanalyse zur Bestimmung Gültigkeit der Beziehungen

Die Regressionsanalyse ist eine der wichtigsten statistischen Techniken für Business-Anwendungen. Es ist eine statistische Methode, die die Stärke und die Richtung der Beziehung zwischen zwei oder mehr Variablen abgeschätzt werden. Der Analytiker kann Regressionsanalyse verwenden, um die tatsächliche Beziehung zwischen diesen Variablen zu bestimmen, indem auf eines Unternehmens zu Umsatz und Gewinn in den vergangenen Jahren. Die Regressionsergebnisse zeigen, ob diese Beziehung gültig ist.

Neben dem Vertrieb können andere Faktoren bestimmen auch die Gewinne des Unternehmens, oder es kann sich herausstellen, dass die Verkäufe nicht erklären Gewinne überhaupt. Insbesondere Forscher, Analysten, Portfoliomanager und Händler können Regressionsanalyse verwenden historische Beziehungen zwischen den verschiedenen finanziellen Vermögenswerte zu schätzen. Sie können dann diese Informationen verwenden, um Handelsstrategien zu entwickeln und das Risiko in einem Portfolio enthaltenen messen.

Die Regressionsanalyse ist ein unverzichtbares Werkzeug für die Beziehungen zwischen Finanzvariablen zu analysieren. Zum Beispiel ist es möglich:

  • Identifizieren Sie die Faktoren, die die größte Verantwortung für ein Unternehmen Gewinne sind

  • Ermitteln Sie, wie viel eine Änderung der Zinssätze wird ein Portfolio von Anleihen auswirken

  • Entwickeln Sie eine Prognose des zukünftigen Wert des Dow Jones Industrial Average

Die folgenden zehn Abschnitte beschreiben, das die Schritte eines Regressionsmodells zu implementieren und die Ergebnisse zu analysieren.

Schritt 1: Geben Sie die abhängige und unabhängige Variable (n)

Um ein Regressionsmodell zu implementieren, ist es wichtig, richtig die Beziehung zwischen den Variablen angeben verwendet wird. Der Wert von a abhängige Variable wird angenommen, daß der Wert von einem oder mehr bezogen werden unabhängige Variablen. Angenommen, dass ein Forscher die Faktoren untersucht, die die Inflationsrate bestimmen. Wenn die Forscher davon aus, dass die Inflationsrate auf die Wachstumsrate der Geldmenge abhängt, kann er ein Regressionsmodell schätzen die Inflationsrate als abhängige Variable und die Wachstumsrate der Geldmenge als unabhängige Variable verwendet wird.

Ein Regressionsmodell auf einer einzigen unabhängigen Variablen basiert als bekannt einfach Regression modell- mit zwei oder mehreren unabhängigen Variablen wird das Modell als bekannt mehrere Regressionsmodell.

Schritt 2: Überprüfen Sie, ob die Linearität

Eine der grundlegenden Annahmen der Regressionsanalyse ist, dass die Beziehung zwischen den abhängigen und unabhängigen Variablen ist linear (D.h. die Beziehung mit a veranschaulicht gerade Linie.) Einer der schnellsten Wege, um dies zu überprüfen ist es, die Verwendung von Variablen ein grafisch darstellen Streudiagramm. Ein Streudiagramm zeigt die Beziehung zwischen zwei Variablen, die mit der abhängigen Variablen (Y) auf der vertikalen Achse und der unabhängigen Variablen (X) auf der horizontalen Achse.

Angenommen, dass ein Analyst geht davon aus, dass die Überrenditen zu Coca-Cola Lager sind abhängig von den Überrenditen zu den Standard und Poors (SP) 500. (Die Überschussrendite zu einer Aktie entspricht dem tatsächlichen Ertrag abzüglich der Rendite einer Schatzwechsel verwenden.) monatlichen Daten von September 2008 bis August 2013 zeigt das folgende Bild, um die überschüssige kehrt in den S & P 500 auf der horizontalen Achse, während die Überschussrenditen zu Coca-Cola auf der vertikalen Achse sind.

bild0.jpg

Es kann aus dem Streudiagramm zu erkennen, dass diese Beziehung dest in etwa linear. Daher kann die lineare Regression verwendet werden, um die Beziehung zwischen diesen beiden Variablen zu schätzen.

Schritt 3: Überprüfen Sie alternative Ansätze, wenn Variablen nicht linear sind

Wenn die angegebene abhängigen (Y) und unabhängige (X) -Variablen keine lineare Beziehung zwischen ihnen haben, kann es möglich sein, verwandeln diese Variablen so dass sie eine lineare Beziehung haben. Zum Beispiel kann es sein, dass die Beziehung zwischen dem natürlichen Logarithmus von Y und X linear ist. Eine andere Möglichkeit ist, dass die Beziehung zwischen dem natürlichen Logarithmus von Y und den natürlichen Logarithmus von X linear ist. Es ist auch möglich, dass die Beziehung zwischen der Quadratwurzel von Y und X linear ist.

Wenn diese Transformationen produzieren kann nicht sein, um eine lineare Beziehung, alternative unabhängige Variablen gewählt, dass besser den Wert der abhängigen Variablen zu erklären.

Schritt 4: Schätzen Sie das Modell

Die Standard-lineare Regressionsmodell kann mit einer Technik geschätzt werden, bekannt als Kleinste Quadrate. Dies führt in den Formeln für die Steigung und Achsenabschnitt der Regressionsgleichung, dass "passen" die Beziehung zwischen der unabhängigen Variablen (X) und die abhängige Variable (Y) so eng wie möglich.

Zum Beispiel zeigen die folgenden Tabellen zeigen die Ergebnisse eines Regressionsmodells für die Überrenditen zu Coca-Cola Lager und der S & P 500 über den Zeitraum von September 2008 bis August 2013 zu schätzen.

image1.jpg

In diesem Modell sind die Überrenditen zu Coca-Cola Lager die abhängige Variable, während der Überschuss wieder in den S & P 500 die unabhängige Variable sind. Unter der Spalte Coefficients kann gesehen werden, dass die geschätzte Achsabschnitt der Regressionsgleichung 0,007893308 und die geschätzte Steigung 0,48927098.

Schritte 5: Test der Anpassung des Modells den Variationskoeffizienten unter Verwendung von

Der Variationskoeffizient (auch als R bekannt2) Wird verwendet, um ein Regressionsmodell "passt", um zu bestimmen, wie eng oder erklärt die Beziehung zwischen der unabhängigen Variablen (X) und die abhängige Variable (Y). R2 annehmen kann einen Wert zwischen 0 und 1- je näher R2 ist auf 1 erklärt das Regressionsmodell die besser auf die beobachteten Daten.

Wie in den Tabellen aus Schritt 4 gezeigt ist, ist der Variationskoeffizient als "R-Square" dargestellt - dies entspricht 0,271795467. Die Passform ist nicht besonders stark. Höchstwahrscheinlich ist das Modell unvollständig, wie andere Faktoren als die Überrenditen auf die SP 500 auch die Überrenditen zu Coca-Cola Lager bestimmen oder zu erklären.

Für eine multiple Regressionsmodell wird der eingestellte Determinationskoeffizient anstelle des Koeffizienten der Bestimmung verwendet, um die Passform des Regressionsmodells zu testen.

Schritt 6: Führen Sie eine gemeinsame Hypothesentest an den Koeffizienten

Eine multiple Regressionsgleichung wird verwendet, um die Beziehung zwischen einer abhängigen Variablen (Y) und zwei oder mehr unabhängigen Variablen (X) zu schätzen. Wenn ein Mehrfachregressionsmodell einfügen, könnte die allgemeine Qualität der Ergebnisse mit einem Hypothesentest überprüft werden. In diesem Fall ist die Nullhypothese, dass alle Steigungskoeffizienten des Modells gleich Null, wobei die alternative Hypothese, dass mindestens eine der Steigungskoeffizienten ungleich Null ist.

Wenn diese Hypothese nicht verworfen werden kann, die unabhängigen Variablen tun nicht den Wert der abhängigen Variablen zu erklären. Wenn die Hypothese zurückgewiesen wird, zumindest eine der unabhängigen Variablen, ändert sich der Wert der abhängigen Variablen erklären.

Schritt 7: Hypothesentests zu den einzelnen Regressionskoeffizienten Perform

Jeder geschätzte Koeffizient in einer Regressionsgleichung zu bestimmen muss getestet werden, wenn sie statistisch signifikant ist. Wenn ein Koeffizient statistisch signifikant ist, hilft die entsprechende Variable den Wert der abhängigen Variablen (Y) erklären. Die Nullhypothese, die getestet ist, dass der Koeffizient gleich Null, wenn diese Hypothese nicht verworfen werden kann, die entsprechende Variable ist nicht statistisch signifikant.

Diese Art der Hypothesentest kann mit einem durchgeführt werden p-Wert (Auch als ein bekannter Wahrscheinlichkeitswert.) Die Tabellen in Schritt 4 zeigen, daß der p-Wert mit dem Steigungskoeffizient zugeordnet ist 1,94506 E-05. Dieser Ausdruck wird in Bezug geschrieben von wissenschaftliche Schreibweise- es kann auch als 1,94506 x 10 geschrieben werden,-5 oder 0,0000194506.

Der p-Wert wird auf das Niveau der Signifikanz des Hypothesentest verglichen. Wenn der p-Wert weniger als das Signifikanzniveau die Nullhypothese, dass der Koeffizient gleich Null ist rejected- die Variable ist daher statistisch signifikant.

In diesem Beispiel ist das Signifikanzniveau 0.05 ist. Der p-Wert von 0,0000194506 zeigt an, dass die Steigung dieser Gleichung ist statistisch significant- zum Beispiel die Überrenditen auf die SP 500 die Überrenditen zu Coca-Cola Lager erklären.

Schritt 8: Überprüfen Sie, ob Verstöße gegen die Annahmen der Regressionsanalyse

Die Regressionsanalyse auf mehreren Schlüssel Annahmen. Verstöße gegen diese Annahmen können zu ungenauen Ergebnissen führen. Autokorrelation, heteroscedasticity und multicollinearity: Drei der wichtigsten Verletzungen, die angetroffen werden können, wie bekannt ist.

  • Autokorrelation ergibt sich, wenn die Residuen eines Regressionsmodells nicht unabhängig voneinander sind. (A Rest gleich der Differenz zwischen dem Wert von Y durch eine Regressionsgleichung vorhergesagten und dem tatsächlichen Wert von Y.)

    Autokorrelation aus Graphen der Residuen nachgewiesen werden, oder um mehr formale statistische Maßnahmen wie die Durbin-Watson-Statistik verwenden. Autokorrelation kann mit entsprechenden Transformationen der Regressionsvariablen eliminiert werden.

  • heteroscedasticity eine Situation bezieht sich auf, wo die Abweichungen der Residuen eines Regressionsmodells nicht gleich sind. Dieses Problem kann mit einem Grundstück der residuals- Transformationen der Daten identifiziert werden können manchmal verwendet werden, um dieses Problem zu überwinden.

  • Multikollinearität ist ein Problem, das nur mit Mehrfachregressionsanalyse entstehen können. Es bezieht sich auf eine Situation, in der zwei oder mehrere der unabhängigen Variablen sind stark miteinander korreliert. Dieses Problem kann mit formalen statistischen Maßnahmen, wie die Varianz Inflationsfaktor (VIF) nachgewiesen werden. Wenn multicollinearity vorhanden ist, einer der stark korrelierten Variablen müssen aus der Regressionsgleichung entfernt werden.

Schritt 9: Interpretieren Sie die Ergebnisse

Der geschätzte abfangen und Koeffizienten eines Regressionsmodells können wie folgt interpretiert werden. Der Schnittpunkt zeigt, was der Wert von Y sein würde, wenn X gleich Null waren. Die Steigung zeigt die Auswirkungen auf die Y einer Änderung in X.

Basierend auf den Tabellen in Schritt 4 wird der geschätzte intercept 0,007893308. Dies zeigt, dass das überschüssige monatliche Rendite zu Coca-Cola Lager 0,007893308 wäre oder 0,7893308 Prozent, wenn der überschüssige monatliche Rendite auf die SP 500 0 Prozent waren.

Auch ist die geschätzte Neigung 0,48927098. Dies zeigt, dass eine 1-prozentige Steigerung in der überschüssigen monatlichen Rückkehr in die SP 500 in einer 0,48927098 Prozent Anstieg der Überschuss monatliche Rendite zu Coca-Cola Lager führen würde. Gleichwertig verringern ein 1 Prozent des überschüssigen monatlichen Rückkehr in die SP 500 in einem 0,48927098 Prozent Rückgang im Überschuss monatliche Rendite zu Coca-Cola Lager führen würde.

Schritt 10: Prognose für zukünftige Werte

Schätzungsweise Regressionsmodell verwendet werden kann Prognosen des zukünftigen Wert der abhängigen Variablen zu erzeugen. In diesem Beispiel ist der Schätzgleichung:

image2.png

Nehmen wir an, ein Analyst Grund zu der Annahme hat, dass der überhöhten monatlichen Rückkehr in die SP 500 in September 2013 0.005 oder 0,5 Prozent sein. Die Regressionsgleichung kann das überschüssige monatliche Rendite zu Coca-Cola Lager zur Vorhersage verwendet werden, wie folgt:

image3.png

Die prognostizierte Überschuss monatliche Rendite zu Coca-Cola Lager 0,010339663 oder 1,0339663 Prozent.

Menü