Endogénéité

En économétrie, l'endogénéité se réfère généralement à une situation dans laquelle une des variables explicatives est corrélée avec le terme d'erreur. La distinction entre les variables endogènes et exogènes vient des modèles d'équations simultanées, où on sépare les variables entre celles qui sont déterminées par le modèle et celles qui sont prédéterminées. Ignorer la simultanéité dans l'estimation provoque un biais des estimateurs car cela viole l'hypothèse d'orthogonalité présente dans le théorème de Gauss-Markov. Le problème de l'endogénéité est malheureusement souvent ignoré par les chercheurs faisant de la recherche non-expérimentale, ce qui empêche de faire de bonnes recommandations en matière de politique à mener[réf. nécessaire]. La méthode des variables instrumentales est souvent utilisée pour régler le problème de l'endogénéité.

En plus de la simultanéité, la corrélation entre les variables explicatives et le terme d'erreur peut survenir quand une variable omise agit à la fois sur la variable expliquée et sur une (ou des) variable(s) explicative(s). Cette corrélation peut également arriver quand il y a des erreurs de mesure sur les variables expliquées.

Exogénéité versus endogénéité

Dans un modèle stochastique, on peut définir les notions de faible exogénéité, forte exogénéité et super exogénéité. Une variable est :

  • faiblement exogène si les coefficients d'intérêt sont tous inclus dans l'équation que l'on cherche à estimer, et si l'estimation de ces coefficients n'est pas contrainte par la valeur des coefficients apparaissant dans d'autres équations du modèle[1] ;
  • fortement exogène si elle est faiblement exogène et qu'elle n'est pas causée au sens de Granger ;
  • super exogène si les coefficients ne varient pas.

Quand les variables explicatives ne sont pas stochastiques, elles sont fortement exogènes. Si la variable explicative est corrélée avec le terme d'erreur, alors le coefficient estimé par l'estimateur des moindres carrés ordinaires (MCO) sera biaisé. Il existe plusieurs méthodes de correction de ce biais, comme la méthode des variables instrumentales.

Modèles statiques

Cette partie présente les principales causes d'endogénéité.

Variable omise

Dans ce cas, l'endogénéité vient du fait qu'une des variables explicatives corrélée à la fois avec la variable expliquée et avec le terme d'erreur n'est pas prise en compte dans l'équation. Par exemple, supposons que le « vrai » modèle devant être estimé est :

y i = α + β x i + γ z i + u i {\displaystyle y_{i}=\alpha +\beta x_{i}+\gamma z_{i}+u_{i}}

mais que l'on oublie d'inclure la variable z i {\displaystyle z_{i}} (par exemple parce que l'on ne dispose pas de données dessus), alors z i {\displaystyle z_{i}} sera incluse dans le terme d'erreur et l'équation que nous estimerons en réalité sera :

y i = α + β x i + ε i {\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}} (avec ε i = γ z i + u i {\displaystyle \varepsilon _{i}=\gamma z_{i}+u_{i}} )

Si la corrélation entre x {\displaystyle x} et z {\displaystyle z} n'est pas nulle et que z {\displaystyle z} agit directement sur y {\displaystyle y} (ce qui revient à dire que γ 0 {\displaystyle \gamma \neq 0} ), alors x {\displaystyle x} est corrélée avec le terme d'erreur.

Erreur de mesure

Supposons que nous n'ayons pas une parfaite mesure d'une des variables explicatives. Par exemple, imaginons qu'au lieu d'observer x i {\displaystyle x_{i}^{*}} , on observe x i = x i + ν i {\displaystyle x_{i}=x_{i}^{*}+\nu _{i}} ν i {\displaystyle \nu _{i}} est le « bruit » mesuré. Dans ce cas, un modèle sous la forme :

y i = α + β x i + ε i {\displaystyle y_{i}=\alpha +\beta x_{i}^{*}+\varepsilon _{i}}

peut alors s'écrire :

y i = α + β ( x i ν i ) + ε i {\displaystyle y_{i}=\alpha +\beta (x_{i}-\nu _{i})+\varepsilon _{i}}

y i = α + β x i + ( ε i β ν i ) {\displaystyle y_{i}=\alpha +\beta x_{i}+(\varepsilon _{i}-\beta \nu _{i})}

y i = α + β x i + u i {\displaystyle y_{i}=\alpha +\beta x_{i}+u_{i}} (où u i = ε i β ν i {\displaystyle u_{i}=\varepsilon _{i}-\beta \nu _{i}} )

Puisque x i {\displaystyle x_{i}} et u i {\displaystyle u_{i}} dépendent de ν i {\displaystyle \nu _{i}} , ces deux variables sont corrélées et l'estimation de β {\displaystyle \beta } par les MCO sera biaisée à la baisse. En revanche, une erreur de mesure de la variable expliquée ne cause pas d'endogénéité (bien qu'elle augmente la variance du terme d'erreur).

Simultanéité

Supposons qu'on ait un modèle avec deux équations « structurelles » dans lesquelles les variables z i {\displaystyle z_{i}} et y i {\displaystyle y_{i}} s'influencent réciproquement :

y i = β 1 x i + γ 1 z i + u i {\displaystyle y_{i}=\beta _{1}x_{i}+\gamma _{1}z_{i}+u_{i}}

z i = β 2 x i + γ 2 y i + v i {\displaystyle z_{i}=\beta _{2}x_{i}+\gamma _{2}y_{i}+v_{i}}

Chercher à estimer chaque équation donnera de l'endogénéité. Par exemple, pour la première équation, on a E ( z i u i ) 0 {\displaystyle \operatorname {E} (z_{i}u_{i})\neq 0} . Si l'on cherche à exprimer z i {\displaystyle z_{i}} (en supposant que 1 γ 1 γ 2 0 {\displaystyle 1-\gamma _{1}\gamma _{2}\neq 0} ), on obtient

z i = β 2 + γ 2 β 1 1 γ 1 γ 2 x i + 1 1 γ 1 γ 2 v i + γ 2 1 γ 1 γ 2 u i {\displaystyle z_{i}={\frac {\beta _{2}+\gamma _{2}\beta _{1}}{1-\gamma _{1}\gamma _{2}}}x_{i}+{\frac {1}{1-\gamma _{1}\gamma _{2}}}v_{i}+{\frac {\gamma _{2}}{1-\gamma _{1}\gamma _{2}}}u_{i}}

Si l'on suppose que x i {\displaystyle x_{i}} et v i {\displaystyle v_{i}} ne sont pas corrélées avec u i {\displaystyle u_{i}} , on a donc

E ( z i u i ) = γ 2 1 γ 1 γ 2 E ( u i u i ) 0 {\displaystyle \operatorname {E} (z_{i}u_{i})={\frac {\gamma _{2}}{1-\gamma _{1}\gamma _{2}}}\operatorname {E} (u_{i}u_{i})\neq 0}

Par conséquent, si l'on essaie d'estimer l'une des deux équations structurelles, on se retrouvera bloqué par l'endogénéité.

Modèles dynamiques

Le problème de l'endogénéité est particulièrement prévalent dans l'étude de liens de causalité dans les séries temporelles. Dans un système causal, il est fréquent que la valeur de certains facteurs en t {\displaystyle t} dépendent de la valeur d'autres facteurs en t 1 {\displaystyle t-1} . Supposons par exemple que le niveau de contamination de la peste soit indépendant de tout autre facteur dans une période donnée, mais soit influencé par le niveau de précipitations et d'engrais utilisés au cours de la période précédente. Dans ce cas, il serait correct de dire que la contamination est exogène dans la période donnée mais endogène dans le temps.

Notons ce modèle y = f ( x , z ) + u {\displaystyle y=f(x,z)+u} . Si la variable x {\displaystyle x} est faiblement exogène pour le paramètre α {\displaystyle \alpha } , et que y {\displaystyle y} ne cause pas x {\displaystyle x} au sens de Granger, alors la variable x {\displaystyle x} est fortement exogène pour le paramètre α {\displaystyle \alpha } .

Simultanéité

En général, la simultanéité se produit dans les modèles dynamiques de la même manière que dans les modèles statiques décrits ci-dessus.

Notes et références

  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Endogeneity (econometrics) » (voir la liste des auteurs).
  1. Claudio Araujo, Jean-François Brun et Jean-Louis Combes, Économétrie : licence, master, Rosny, Bréal, coll. « Amphi économie », , 2e éd. (1re éd. 2004), 312 p. (ISBN 978-2-7495-0301-1, BNF 41344958), p. 27.
  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l’économie