Cours pour débuter avec la statistique économétrie
Chapitre 1 Introduction
Le modèle
Le modèle central auquel on s’intéresse dans ce cours est le modèle linéaire que l’on écrit en toute généralité
y = α + β1x1 + • • • + βK xK + u = xb + u
Dans ce modèle interviennent différentes grandeurs :
— y la variable expliquée ou dépendante
— x1, . . . , xK , K variables explicatives ou indépendantes
— u une perturbation
— b = (α, β1, • • • , βK)0 le paramètre à estimer
Parmi ces éléments les variables y et x sont observées. En revanche le paramètre b est inconnu et la perturbation u inobservée.
D’où vient le modèle ? - 1 de la théorie écono-mique
— Le modèle vient d’abord d’idées sur les relations entre y et x.... Ces idées peuvent avoir un lien très étroit avec la théorie économique. Il peut s’agir par exemple d’une fonction de production
Y = F (K, L)
On pourrait estimer la fonction de production parmi toutes les fonctions possibles. On ferait alors des régressions dites non paramétriques. Le cadre que l’on considère ici est plus simple et consiste à restreindre l’ensemble des possibilités et de se placer dans un ensemble de fonctions de productions dépendant d’un nombre fini de pa-ramètres. On retient souvent la spécification de Cobb-Douglas, ce qui implique en particulier une restriction sur les possibilités de substitution par rapport au cadre général :
Y = AKαLβ
Cette spécification conduit à une relation log linéaire :
y = a + αk + βl
qui est le modèle auquel on s’intéresse. Dans ce cadre on peut noter que la perturba-tion a une interprétation naturelle, il s’agit de la constante a représentant le niveau de la technologie, susceptible de varier d’une entreprise à l’autre. En revanche le mo-dèle fait l’hypothèse qu’il y a homogénéité des autres coefficients dans la population d’entreprises.
Un autre exemple de modèle directement déduit de la théorie économique est celui des demandes de facteurs. Si on spécifie une fonction de coût C (Q, pX , u) , où Q est la production, pX le vecteur des prix et u le niveau de la technologie, la demande pour un facteur donné est donnée par le Lemme de Shephard :
X0d = ∂C (Q, pX , u)
Comme dans le cas précédent on se restreint en général à une forme paramétrique de la fonction de coût. Une spécification standard est la fonction de coût translog avec deux facteurs, capital de coût exp(c) et travail de coût exp(w) :
LogC = a + αc + βw + 0.5δcc2 + δw,ccw + 0.5δww2 + log (Q) − log (u)
La constante représente là aussi le niveau de la technologie. Ce type de spécification conduit à des fonctions de demande spécifiant la part de chaque facteur. Par exemple pour le travail on a
wL
Q = β + δw,cc + δww
On voit que dans cette spécification la perturbation n’a pas d’interprétation aussi naturelle que dans le cas précédent. Il faut considérer que soit le paramètre β est hétérogène, soit la part observée s’écarte de la part théorique pour des raisons non expliquées.
Le modèle peut aussi provenir d’une relation moins structurelle entre les variables. Par exemple un type d’équations très souvent estimé est l’équation de Mincer qui fait dépendre le salaire du nombre d’années d’étude et de l’expérience. Par exemple :
log (wi) = a0 + assi + aeei + ui
où as représente le gain lié à une année d’étude supplémentaire et ae le gain lié à une année d’expérience supplémentaire. Les paramètres économiques auxquels on s’intéresse alors sont le rendement de l’éducation ou le rendement de l’expérience. La modélisation sous-jacente est celle du capital humain : le capital humain s’accumule d’abord durant la période des études puis durant la vie active par l’expérience, en apprenant sur le tas. Si on fait l’hypothèse d’un marché du travail concurrentiel, les différences de rémunérations entre les agents traduiront des différences dans le capital humain. On peut remarquer concernant cette équation que l’on ne s’intéresse pas seulement à expliquer les différences moyennes de revenus entre les agents mais que l’on souhaite aussi parvenir à une estimation plus ambitieuse qui puisse conduire à une interprétation causale : si on augmente la durée des études de un an d’un individu quel sera son gain en terme de rémunération ?
Un autre exemple dans lequel le modèle entretient des rapports encore plus ténus avec des paramètres structurels mais possède une interprétation causale est celui de l’incidence de la taille d’une classe sur le taux de réussite des élèves de la classe. On peut légitimement se poser la question de savoir si la réduction de la taille des classes conduit à une amélioration du taux de réussite scolaire. On peut ainsi considérer un modèle du type :
τ i = a0 + attaillei + xiax + ui où τ i représente le taux de réussite d’une classe. Dans cette spécification que l’on pourrait appeler fonction de production scolaire, on introduit un ensemble d’autres variables. En effet on se doute bien que de nombreux facteurs affectent la réus-site d’une classe. Par exemple l’environnement scolaire est certainement un facteur important. On pourrait se dire que comme on ne s’intéresse pas à la variable d’en-vironnement on ne la met pas dans la régression. D’un côté on y gagne car on n’a pas à faire l’effort de mesurer cette variable, mais d’un autre côté cette variable contribue aussi à déterminer la taille de la classe. Il est possible que dans certains milieux défavorisés la taille des classes soit plus petites. Si on ignore le rôle de l’envi-ronnement scolaire et qu’on ne l’intègre pas dans la régression, on risque de mesurer un effet de la taille de la classe qui soit un mixte de l’effet propre de la taille et de l’effet de l’environnement. Il donc important dans ce type de modèle, entretenant des rapports larges avec la théorie, d’introduire des facteurs annexes qui permet-tront d’isoler l’effet propre de la taille de la classe. On cherche à contrôler pour un certain nombre de facteurs extérieurs.
Enfin, on peut avoir une approche descriptive des données. Il est important de remarquer que dans ce cas les paramètres n’ont pas d’interprétation structurelle.
Les données
Les données constituent le cœur de l’économétrie. Leur recueil et leur examen descriptif constituent aussi en général une part importante de tout travail économétrique. Il y a principalement trois grands types de données :
4 CHAPITRE 1. INTRODUCTION
Données temporelles ou longitudinales. Elles sont indicées par le temps t. On dispose ainsi de séries dites temporelles : yt, xt, par exemple les séries trimestrielles de la consommation et du revenu, de l’inflation... En général le nombre d’observation T est assez réduit, de l’ordre de la cinquantaine. On note en général y le vecteur T × 1 (y1, . . . , yT )0 et x la matrice T × (K + 1) : (x01, . . . , x0T )0 où xt est le vecteur ligne formé des valeurs des différentes variables explicatives (dont la constante) à la date t.
Données en coupe. yi, xi. Leur indice correspond à l’identifiant d’un individu ou d’une entreprise. Ces données peuvent représenter par exemple le salaire d’un in-dividu pour y et son diplôme, son expérience... pour les variables explicatives. Les échantillons dont on dispose sont en général de beaucoup plus grande taille : le nombre d’observation N dépasse le plus souvent la centaine et peut aller jusqu’à plusieurs dizaines de milliers. On note là encore en général y le vecteur N × 1
(y1, . . . , yN )0 et x la matrice N × (K + 1) : (x01, . . . , x0N )0 où xi est le vecteur ligne formé des valeurs des différentes variables explicatives (dont la constante) pour l’in-
dividu i.
= Données à double indice, dites de panel : yit, xit. On dispose d’informations sur des individus i = 1, . . . , N que l’on suit sur plusieurs périodes, t = 1, . . . , T. Les NT ob-servations zit correspondent à N observations vectorielles ”individuelles” zi1, . . . ziT .
On note en général yi le vecteur T × 1 (yi1, . . . , yiT )0 et xi la matrice T × (K + 1) :
1, . . . , xiT0 )0 et vecteur NT × 1 ³ N ´0
(xi0 y le y 1, . . . , y et x la matrice NT × (K + 1) :
(x01, . . . , x0N )0 où xi est la matrice formée des valeurs des différentes variables expli-catives (dont la constante) pour l’individu i aux différentes dates.
L’estimation
Estimer le modèle c’est trouver une fonction des observations y et x
b = b ¡y, x¢
dont on souhaite qu’elle vérifie certaines conditions. Par exemple l’estimateur peut être
b
choisi tel ³ ´ = Z
b b y, x f y, x dydx = b
— qu’il soit "sans biais" E b
— qu’il satisfasse un critère : minimisation de la somme des carrés des résidus b =
¡ ¢ ¡ ¢ b X
arg min X
(y − xb)2 ; maximisation de la log-vraisemblance b = arg max log lb(y, x)
— qu’il soit de variance minimale
— qu’il soit convergent, c’est à dire qu’il se rapproche de la vraie valeur du paramètre lorsque le nombre d’observations devient grand.
1.5. POURQUOI ESTIMER LE MODÈLE ?
Pourquoi estimer le modèle ?
— tester l’existence d’un effet, i.e. vérifier qu’une variable x a un effet spécifique sur une variable y. Par exemple on peut s’interroger sur l’effet des taux d’intérêt sur l’investissement, c’est à dire sur l’existence d’un canal monétaire de la politique monétaire. Dans le cadre d’un modèle accélérateur profit standard, I = α∆Qt + βπ + γr + v, on peut s’interroger sur le fait que le coefficient du taux d’intérêt γ soit nul ou non. On s’intéresse donc à l’hypothèse H0 : γ = 0, et on souhaite que les données permettent de répondre à cette question. De façon similaire, dans le cas de la fonction de production scolaire on peut s’interroger sur l’existence d’un effet de la taille de la classe sur le taux de réussite. On va alors s’intéresser à l’hypothèse H0 : at = 0, et là aussi on souhaite que les données nous permettent de choisir entre oui ou non. L’estimation du modèle et la confrontation du paramètre à zéro est la voie la plus naturelle pour prendre cette décision. La question est ici de savoir si le paramètre est significatif au sens statistique du terme.
— quantifier cet effet, ce qui est utile à des fins de simulations. Par exemple dans les deux cas précédents on est aussi intéressé par donner un ordre de grandeur de l’effet à attendre d’une variation de la variable. Si on voulait par exemple prendre une décision de politique économique consistant à baisser la taille des classes, ce qui est très coûteux, on est intéressé certes à savoir si cela aura un effet non nul mais aussi à savoir l’ordre de grandeur de cet effet. S’il est très faible on ne prendra pas alors aussi facilement la décision de réduire la taille des classes. L’ordre de grandeur du paramètre est aussi important. La question est ici de savoir si le paramètre est
significatif au sens économique du terme.
— prévoir. Dans le modèle yt = xtβ + ut, le paramètre β peut être estimé sur les
observations t = 1, . . . , T
: β. Connaissant x T +1 on calcule la prévision de y à la
date T + 1 : yT +1 = xT +1β b
b b
D’où vient le modèle ? - 2 de relations stochas-tiques
Le modèle provient aussi de relations stochastiques entre les variables. L’écriture de la relation
y = xb + u
ne constitue pas en fait un modèle économétrique. Comme on l’a vu il s’agit d’une relation plus ou moins fondée. Si on l’admet fondée, le paramètre b a un sens en lui-même. Il a une définition économique, par exemple l’élasticité de la production au capital. Pour que ce modèle soit un modèle économétrique il faut lui adjoindre une restriction stochastique. Une façon naturelle de procéder est de spécifier la loi jointe des observations l (y, x; b) . Ceci revient à spécifier la loi du résidu sachant les variables explicatives : l (u |x) . La situation de base est celle dans laquelle cette loi est choisie comme une loi normale ne dépendant pas des variables x. On impose donc dans ce cas une restriction stochastique essentielle pour l’analyse économétrique
l (u |x) = l (u) = ϕ (u/σ) /σ
où ϕ est la densité de la loi normale. Imposer cette restriction permet de définir la densité des observations
l (y, x; b) = l (y |x; b) l (x) = ϕ ((y − xb) /σ) l (x) /σ
et donc d’estimer les paramètres en appliquant par exemple la méthode du maximum de vraisemblance. L’estimateur auquel on parvient est alors celui des moindres carrés ordinaires. On peut aussi faire des hypothèses sur la loi de u sachant x qui soient moins fortes que la spécification de la loi complète. Par exemple on peut se contenter de spécifier :
E (u |x) = E (u) = 0
Cette propriété est satisfaite si on spécifie la loi conditionnelle de u sachant x comme une loi normale indépendante de x. L’inverse est faux et cette spécification est donc moins exigeante que la précédente. Elle permet, elle aussi, d’estimer le modèle. Elle implique en effet des restrictions du type E (x0 (y − xb)) = 0 appelées intuitivement conditions d’orthogonalité dont on verra qu’elles sont suffisantes pour estimer les paramètres du modèle. On remarque à ce stade que dans cette spécification il y a d’ores et déjà un paramètre de moins : la variance des résidus n’intervient plus.
Ces restrictions stochastiques définissent un paramètre statistique. On pourrait ainsi définir autant de paramètres b qu’il y a de restrictions stochastiques envisageables, c’est à dire une infinité. On pourrait par exemple considérer le paramètre bZ associé à des restrictions stochastiques E (z0 (y − xbZ)) = 0 dont on verra qu’elles aussi peuvent être utilisées souvent pour conduire à une estimation du paramètre. Il n’est pas certain que le paramètre statistique associé à une restriction stochastique coïncide avec le paramètre économique. L’estimation peut ainsi être non convergente, c’est à dire que la valeur du paramètre estimée ne se rapprochera pas de la vraie valeur (économique) du paramètre lorsque le nombre d’observation augmente, ou être biaisée, c’est à dire que l’espérance du paramètre n’est pas la vraie valeur (économique) du paramètre. Une partie importante de l’économétrie, qui passe par une réflexion sur le modèle, les données et les méthodes consiste à rechercher des conditions dans lesquelles le paramètre statistique coïncide avec b le paramètre économique. La question est-ce que p lim b = b0, la vraie valeur économique du paramètre, est en dernier ressort la question la plus centrale et la plus importante de l’économétrie, et assez naturelle : est-ce que j’ai bien mesuré ce que je voulais ? C’est beaucoup moins facile qu’il n’y paraît, car de nombreux facteurs affectent les décisions individuelles et il est difficile d’isoler l’effet d’une unique cause.
1.7. PLAN 7
Plan
Le cours débute dans le chapitre 2 par l’estimateur des moindres carrés, c’est à dire le vecteur des coefficients de la projection orthogonale de y sur l’espace vectoriel engendré par les variables explicatives. On présente d’abord les propriétés algébriques de cet estimateur et ses propriétés statistiques sous des hypothèses minimales telles que l’indépendance et l’équidistribution des observations (Théorème de Frish-Waugh, Théorème de Gauss-Markov, estimation des paramètres du second ordre, le R2 et l’analyse de la variance). On montre ensuite dans le chapitre 3 comment la spécification de la loi des résidus comme une loi normale permet de compléter l’analyse en particulier en permettant d’obtenir la loi des estimateurs, étape incontournable pour procéder à des tests d’hypothèses simples (test de Student) ou définir des intervalles de confiance pour les paramètres. On examine ensuite dans le chapitre 4 et dans le même cadre où la loi des résidus est supposée normale, le cas important des estimations sous contraintes linéaires (dans les paramètres). On présente alors les tests d’hypothèses linéaires sur les paramètres par le biais des tests de Fisher. Ces résultats sont obtenus sous des hypothèses fortes :
— Indépendance des résidus et des variables explicatives : l (u |x) = l (u)
— Homoscédasticité V (u |x) = σ2I
— Spécification de la loi des résidus : l (u) normale.
Les chapitres suivants vont progressivement revenir sur chacune de ces hypothèses. On va d’abord examiner dans un cadre très proche la loi asymptotique des estimateurs, c’est à dire lorsque le nombre d’observations devient grand. On va chercher à développer le même genre de propriétés permettant de faire de l’inférence mais sans spécifier la loi des résidus. Les résultats seront obtenus sous les hypothèses :
— Absence de corrélation entre les résidus et les variables explicatives E (ux0) = 0
— Homoscédasticité V (u |x) = σ2I
Le comportement asymptotique des estimateurs est examiné dans le chapitre 5. Dans le chapitre 6 on revient sur les hypothèses d’indépendance et d’équidistribution
des paramètres. On présente l’estimateur des moindres carrés généralisée ainsi que diffé-rentes façons de traiter la situation dite d’hétéroscédasticité, i.e. situation dans laquelle la variance des résidus dépend des variables explicatives. On aborde aussi succinctement la question des données de panel et de l’estimation de modèles faisant intervenir des systèmes d’équations. Le cadre dans lequel on se situe est juste basé sur
— Absence de corrélation entre les résidus et les variables explicatives E (ux0) = 0 Les chapitres 7, 8 et 9 utilisent la méthode des moindres carrés généralisés en s’ap-
puyant sur une connaissance a priori de la structure de corrélation des résidus. Le chapitre 7 s’intéresse plus particulièrement au cas des régressions empilées. Dans le chapitre 8, on considère le cas d’une régression en coupe dans laquelle on a hétéroscédascticité du résidu, ce qui peut être le cas par exemple pour une équation de salaire, la variance du résidu étant généralement croissante avec le revenu. Dans le chapitre 9, on considère le cas d’es-timations où le résidu peut être modélisé comme une série temporelle de comportement connu. On construit l’estimateur les moindres carrés quasi-généralisés en s’appuyant sur la connaissance de la forme de l’autocorrélation du résidu.
Dans le chapitre 10, on considère la situation dans laquelle E (ux0) 6= 0. On aborde la question de l’identification, fondamentale en économétrie. On montre comment à l’aide de variables extérieures z, dites instrumentales, il est possible d’estimer le paramètre d’intérêt. On revient donc en partie sur certains aspects des généralisations précédentes pour mieux se concentrer sur l’hypothèse d’identification. Les résultats sont obtenus sous les hypothèses
— Absence de corrélation entre les résidus et des variables z : E (uz0) = 0,
— Rg (z0x) = dim x
— Homoscédasticité V (u |x, z ) = σ2I
On présente aussi deux tests importants : le test d’exogénéité et le test de suridentifi-cation qui sont des guides importants dans le choix des variables instrumentales.
Dans le chapitre 11 on présente une généralisation importante de la méthode à variable instrumentale et qui englobe la plupart des méthodes économétriques standards. Il s’agit de la méthode des moments généralisée et on montre en particulier comment elle permet d’étendre la méthode à variables instrumentales au cas dans lequel les perturbations sont hétéroscédastiques et à d’autres cas tels que celui de l’économétrie des données de panel ou l’estimation de systèmes d’équations. Les hypothèses s’écrivent un peu différemment ce qui souligne le caractère général de cette méthode
— E (g (z, θ)) = 0
où z représente l’ensemble des variables du modèle, c’est à dire inclus les y et les x. Dans le chapitre 12, on présente succinctement certains modèles non linéaires proches
des modèle linéaires. On s’intéresse ainsi au modèles dits probit pour lesquels la variable à expliquer n’a plus un support continu sur R mais prend ses valeurs dans {0, 1} . La modélisation sous-jacente consiste à introduire une variable latente, i.e. non observée complètement
I∗ = zc + u
et dont les réalisations gouvernent l’observation de la variable I :
I = 1 ⇐⇒ I∗ > 0
On aborde également d’autres situations importantes permettant d’aborder la questions de la sélectivité des échantillons, c’est à dire la situation dans laquelle on n’observe la variable dépendante que sous une condition liée par ailleurs à la variable dépendante elle-même :
y∗ = xb + u
I∗ = zc + u
1.7. PLAN 9
les réalisations de I∗ gouvernent l’observation de la variable I et de la variable y :
½
I∗ > 0 ⇒ I = 1
y = y∗
I∗ ≤ 0 ⇒ I = 0
Ce type de modèle appelé modèle Tobit est souvent utilisé, en particulier pour abor-der l’endogénéité de variables explicatives prenant la valeur 0 ou 1 dans des modèles à coefficients variables
yi = λiIi + vi
Ce type de modèle est souvent utilisé pour aborder l’évaluation des effets microécono-miques des politiques de l’emploi comme les stages de formations.
Dans le chapitre 13, on s’intéresse à l’évaluation des politiques publiques. On intro-duit notamment l’estimateur par différence de différences qui s’applique à une expérience naturelle. On parle d’expérience naturelle lorsqu’une partie de la population a fait l’objet d’une nouvelle politique, tandis qu’une autre partie de la population n’a pas fait l’objet de cette politique et donc peut servir de population témoin. On ne peut observer le com-portement des individus touchés par une mesure s’ils n’avaient pas été touchés, on verra comment on peut néanmoins construire des estimateurs évaluant l’impact d’une nouvelle politique.
Table des matières
1 Introduction 1
1.1 Le modèle ..................... ......... 1
1.2 D’où vient le modèle ? - 1 de la théorie économique . .. . . . . 1
1.3 Les données . . . . . . .................... ......... 3
1.4 L’estimation ..................... .............. 4
1.5 Pourquoi estimer le modèle ? .. .. .. . . 5
1.6 D’où vient le modèle ? - 2 de relations stochastiques .. . . . . . 5
1.7 Plan .. ......................... 7
2 L’estimateur des moindres carrés ordinaires 11
2.1 Définition et propriétés algébriques .. .. . . . . . . 11
2.1.1 Définition .. .. .. .. 11
2.1.2 Interprétation géométrique .. .. . . . . . . . 12
2.1.3 Théorème de Frish-Waugh .. .. . . . . . . . 13
2.2 Modèle et propriétés statistiques .. .. .. 15
2.2.1 Quand l’estimateur des mco est-il sans biais ? .. . . . . 15
2.2.2 Quelle est la précision de l’estimateur des mco ? .. . . . 16
2.2.3 L’estimateur des mco est-il le plus précis : le théorème de GaussMarkov
.. .. .. .. . 17
2.2.4 Estimation des paramètres du second ordre .. . . . . . . 19
2.2.5 Analyse de la variance .. .. .. . 20
2.3 Variable omise et régresseur additionnel .. .. . . . . 21
2.4 Résumé .. ..................... . . 21
3 Les MCO sous l’hypothèse de normalité des perturbations. 25
3.1 Normalité de l’estimateur des mco .. .. . . . . . . . 25
3.2 Ecart-types estimés, tests et intervalles de confiance .. . . . . . 27
3.2.1 Ecart-type ................... . . . . . . . 27
3.2.2 Un résultat central .. .. .. . . . 28
3.2.3 Intervalle de confiance .. .. .. . 29
3.2.4 Tests de la forme λ0 b = μ .. .. .. 30
3.3 Un exemple . . . . . . ..................... . . 32
3.4 Comparaison avec l’estimateur du Maximum de Vraisemblance . . . . . . . 35
3.5 Résumé .. ..................... . . 37
3.6 Annexe : Distribution de la norme de la projection d’un vecteur normal . . 37
4 Estimation sous contraintes linéaires 39
4.1 Formulation . . . . . . ..................... . . 41
4.2 L’Estimateur des Moindres Carrés Contraints (MCC) .. . . . . 42
4.3 Espérance et variance de ˆbmcc .. .. .. . 43
4.4 Estimateur de la variance des résidus σ2 .. .. . . . 45
4.5 Loi de l’estimateur des moindres carrés contraints .. . . . . . . 46
4.6 Estimation par intégration des contraintes .. .. . . 48
4.7 Tester les contraintes : le test de Fisher .. .. . . . . 50
4.8 Applications du test de Fisher .. .. .. . 52
4.8.1 Un test en deux étapes .. .. .. . 52
4.8.2 Test de la nullité globale des paramètres .. . . . . . . . 54
4.8.3 Le Test de Chow de stabilité des paramètres .. . . . . . 55
4.9 Résumé .. ..................... . . 56
5 Propriétés asymptotiques de l’estimateur des MCO 59
5.1 Rappel sur les convergences .. .. .. . . 59
5.1.1 Définition : Convergence en probabilité, Convergence en loi, Convergence en moyenne quadratique .. .. . . . . . 59
5.1.2 Loi des Grands Nombres et Théorème Centrale Limite . . . . . . . 60
5.1.3 Différents résultats concernant les convergences .. . . . 63
5.1.4 Illustration .................. . . . . . . . 65
5.2 Propriétés asymptotiques de l’estimateur des MCO .. . . . . . 67
5.3 Tests asymptotiques .. .. .. . . . . . . 71
5.3.1 Test d’hypothèses linéaires .. .. . . . . . . . 72
5.3.2 Test d’hypothèses non linéaires .. .. . . . . 77
5.4 Exemple .. ..................... . . 78
5.5 Résumé .. ..................... . . 79
6 Le modèle linéaire sans l’hypothèse d’homoscédasticité 81
6.1 Présentation : Homoscédasticité et hétéroscédasticité.. . . . . . 81
6.1.1 Quelques exemples .. .. .. . . . 81
6.1.2 Conclusion des exemples et définition du modèle linéaire hétéroscé-dastique .. .. .. .. . 86
6.2 Estimation par les MCO et les MCG .. .. . . . . . 87
6.2.1 Propriétés des moindres carrés ordinaires .. . . . . . . . 87
6.2.2 La méthode des Moindres Carrés Généralisés (MCG) .. 88
TABLE DES MATIÈRES v
6.2.3 Propriétés statistiques de l’espérance et de la variance conditionnelle des MCG .. .. .. .. 92
6.3 L’estimateur des MCQG .. .. .. . . . . 93
7 Le modèle hétéroscédastique en coupe 95
7.1 Inférence robuste à l’hétéroscédasticité .. .. . . . . 96
7.1.1 Propriétés asymptotiques de l’estimateur .. . . . . . . . 97
7.1.2 Test d’hypothèses dans le modèle hétéroscédastique .. . 98
7.1.3 Estimation sous contraintes linéaires en présence d’hétéroscédasticité 99
7.2 Test d’hétéroscédasticité .. .. .. . . . . 100
7.2.1 Le test de Breush-Pagan .. .. .. 100
7.2.2 Test de Goldfeld-Quandt .. .. .. 103
7.3 L’estimateur des MCQG dans le cas où V (ui |xi) = h (θ, xi) .. 104
7.3.1 Application . ................. . . . . . . . 106
7.4 Exemple : estimation d’une équation de salaire .. . . . . . . . 107
8 Autocorrélation des résidus dans les séries temporelles 113
8.1 Différentes formes d’autocorrélation des perturbations .. . . . . 113
8.1.1 Processus stationnaires au premier et au second ordres . . . . . . . 113
8.1.2 Perturbations suivant une moyenne mobile (MA) .. . . 114
8.1.3 Perturbations suivant un processus autorégressif (AR) .. 115
8.1.4 Perturbation suivant un processus ARMA(p,q) .. . . . . 118
8.2 Estimateur des MCO lorsque les perturbations suivent un AR(1) . . . . . . 119
8.3 L’estimateur de Newey-West de la matrice de variance de bbmco . . . . . . . 122
8.4 Les MCQG dans le modèle AR (1) : l’estimateur de Prais-Watson. . . . . . 124
8.5 Détection de l’autocorrélation .. .. .. . 127
8.5.1 Un test asymptotique .. .. .. . . 127
8.5.2 Le test de Durbin et Watson .. .. . . . . . . 127
8.6 Résumé .. ..................... . . 129
9 L’estimateur des MCQG dans le cas où Ω = IN ⊗ Σ (θ) 131
9.1 Le cas des régressions empilées.. .. .. . 136
9.2 Illustration : estimation d’une fonction de production sur données individuelles . . 137
9.3 Résumé .. ..................... . . 138
10 Variables instrumentales 141
10.1 Trois exemples types d’endogénéité des régresseurs .. . . . . . . 142
10.1.1 Erreur de mesure sur les variables .. .. . . . 142
10.1.2 Simultanéité .................. . . . . . . . 143
10.1.3 Omission de régresseurs, hétérogénéité inobservée .. . . 143
10.2 La méthode des variables instrumentales .. .. . . . 145
10.2.1 Modèle à variables endogènes et non convergence de l’estimateur des mco .. .. .. .. . 145
10.2.2 Résoudre le problème de l’identification par l’utilisation de variables instrumentales .. . 146
10.2.3 Identification .. .. .. . . . . . . 148
10.2.4 Moindres carrés indirects .. .. .. 149
10.2.5 Propriété asymptotiques des estimateurs des MCI .. . . 150
10.3 L’estimateur des doubles moindres carrés .. .. . . 152
10.3.1 Existence d’un estimateur optimal .. .. . . . 152
10.3.2 L’estimateur optimal comme estimateur des doubles moindres carrés 153
10.3.3 Cas des résidus hétéroscédastiques .. .. . . . 155
10.4 Interprétation de la condition rang E (z0 ixi) = K + 1 .. . . . . . 156
10.5 Test de suridentification .. .. .. . . . . 157
10.5.1 Idée du test .................. . . . . . . . 157
10.5.2 Approche formelle .. .. .. . . . 158
10.5.3 Mise en oeuvre du test .. .. .. . 161
10.6 Test d’exogénéité des variables explicatives .. .. . . 163
10.6.1 Intérêt et idée du test .. .. .. . 163
10.6.2 Approche formelle .. .. .. . . . 163
10.7 Illustrations ...................... . . . . . . . 167
10.7.1 Réduction du temps de travail et gains de productivité . . . . . . . 167
10.8 Résumé .. ..................... . . 172
11 La Méthode des moments généralisée 173
11.1 Modèle structurel et contrainte identifiante : restriction sur les moments . . 173
11.2 Définir un modèle par le biais de conditions d’orthogonalit é .. 175
11.2.1 Maximum de vraisemblance .. .. . . . . . . 176
11.2.2 Modèle d’espérance conditionnelle, moindres carrés non linéaires . . 176
11.2.3 Méthode à variables instrumentales pour une équation seule . . . . 177
11.2.4 Méthode à variables instrumentales pour un système d’ équations. . 177
11.2.5 L’économétrie des données de panel .. .. . . 178
11.3 Principe de la méthode : .. .. .. . . . . 182
11.4 Convergence et propriétés asymptotiques .. .. . . . 183
11.5 Estimateur optimal.................. . . . . . . . 186
11.5.1 Existence d’un estimateur optimal .. .. . . . 186
11.5.2 Mise en oeuvre de l’estimateur optimal : deux étapes .. 187
11.6 Application aux Variables Instrumentales .. .. . . . 187
11.6.1 Variables instrumentales dans un système d’équations - cas général 187
11.6.2 Régressions à variables instrumentales dans un système homoscé- dastique .. .. .. .. . 189
11.6.3 Application aux données de panel .. .. . . . 190
11.6.4 Estimateur VI optimal dans le cas univarié et hétéroscédastique . . 192
11.7 Test de spécification .. .. .. . . . . . . 193
11.7.1 Test de suridentification .. .. .. 193
11.7.2 Tester la compatibilité de conditions d’orthogonalité additionnelles . 195
11.7.3 Application test de suridentification et d’exogénéité pour un estimateur à variables instrumentales dans le cas univarié et hétéroscé-dastique .. .. .. .. . 196
11.7.4 Application aux données de panel .. .. . . . 197
11.8 Illustrations ...................... . . . . . . . 198
11.8.1 Réduction du temps de travail et gains de productivité . . . . . . . 198
11.8.2 Salaires et heures .. .. .. . . . . 199
11.9 Résumé .. ..................... . . 203
12 Variables dépendantes limitées 205
12.1 Modèle dichotomique .. .. .. . . . . . . 206
12.1.1 Modèle à probabilités linéaires .. .. . . . . . 207
12.1.2 Les modèles probit et logit.. .. . . . . . . . 208
12.2 Variables latentes................... . . . . . . . 209
12.3 Estimation des modèles dichotomiques .. .. . . . . 211
12.3.1 Conditions de 1er ordre pour la maximisation .. . . . . 213
12.3.2 Dérivées secondes de la log-vraisemblance - condition de concavité . 214
12.3.3 Matrice de variance-covariance de bb .. .. . . 215
12.4 Illustration : participation des femmes sur le marché du travail . . . . . . . 216
12.5 Sélectivité : le modèle Tobit .. .. .. . . 217
12.5.1 Présentation de la sélectivité .. .. . . . . . . 217
12.5.2 Rappels sur les lois normales conditionnelles.. . . . . . . 222
12.6 Estimation du modèle Tobit .. .. .. . . 226
12.6.1 Pourquoi ne pas estimer un modèle Tobit par les MCO ? . . . . . . 226
12.6.2 Estimation par le maximum de vraisemblance .. . . . . 227
12.6.3 Estimation en deux étapes par la méthode d’Heckman . . . . . . . 228
12.6.4 Des extensions paramétriques simples .. .. . 230
12.6.5 Le modèle de sélection semi paramétrique.. . . . . . . . 232
12.6.6 Illustration : le modèle d’offre de travail d’Heckman .. . 234
12.7 Modèles de choix discrets : le Modèle Logit Multinomial .. . . 238
12.7.1 Estimation du modèle logit multinomial : .. . . . . . . . 240
12.8 Résumé .. ..................... . . 241
13 Evaluation 243
13.1 Le Modèle causal ................... . . . . . . . 245
13.1.1 Choix de la variable d’intérêt et choix de l’état de référence . . . . . 245
13.1.2 Paramètres d’intérêt .. .. .. . . 246
viii TABLE DES MATIÈRES
13.1.3 Biais de sélectivité .. .. .. . . . 247
13.2 L’estimateur des Différences de Différences .. .. . . 248
13.2.1 Estimateur en coupe .. .. .. . . 249
13.2.2 Estimateur Avant-Après .. .. .. 249
13.2.3 Estimateur par différence de différence.. .. . 250
13.2.4 Exemple : La Contribution Delalande .. .. . 252
13.3 Indépendance conditionnelles à des observables .. .. 254
13.3.1 Identification sous l’hypothèse d’indépendance conditionnelles à des observables .. .. .. . . . . . . . 254
13.3.2 Le score de propension (propensity score) .. . . . . . . . 256
13.3.3 Méthodes d’estimation .. .. .. . 256
13.3.4 Vraisemblance de l’hypothèse d’indépendance conditionnelle à des observables.. .. .. .. 262
13.4 Le modèle de sélectivité sur inobservables .. .. . . . 267
13.4.1 Expression des paramètres d’intérêt dans le cas général . . . . . . . 268
13.4.2 Le cas Normal.. .. .. . . . . . . 270
13.4.3 Des extensions paramétriques simples .. .. . 271
13.4.4 Le modèle de sélection semi paramétrique.. . . . . . . . 273