Cours en économétrie financière
Chapitre 1 Variables aléatoires et limites
1.1 Qu’estce que l’économétrie ?
La définition du terme econométrie a evolu´ depuis l’émergence de cette discipline dans les années 1930. A l’origine, elle représentait une voie de formalisation de l’économie par l’usage de mathématiques, probabilités et statistiques. La formalisation présente des avantages et des inconvénients : elle permet d’établir des arguments précis et rapidement compréhensibles grˆace à une absence d’ambigu¨ıté. En revanche, elle fait aussi apparaître le domaine plus abstrait et accroît les barrières à l’entrée pour les néophytes. Par ailleurs, elle peut entraîner la théorie dans des directions o`u des théorèmes peuvent être établis, et ainsi éviter des problèmes économiques importants mais dont la formalisation se révèle plus ardue.
Dans ce sens traditionnel, la quasiintégralit´ de la microéconomie et l’essentiel de la macro enseignées appartiennent à l’“économétrie”. La revue la plus associée à ce courant est Econometrica, fondée dans les années 30. Une des plus prestigieuses, elle publie essentiellement ce qu’on appelle dorénavant l’économie théorique et la théorie econométrique.
Dans les années 1960, la définition traditionnelle de l’économétrie s’est révélée désuette car la plupart des domaines de l’économie avaient eté gagnées par l’approche econométrique, bien que subsistent des débats sur le dégr´ de formalisation de l’analyse. Une rédéfinition du terme s’ensuivit, et le nouveau sens est plus proche de l’utilisation du suffixe métrie rencontr´ dans d’autres sciences, comme la biométrie.
L’économétrie moderne concerne le développement de méthodes probabilistes et statistiques dans le contexte d’une compréhension détaillée des données, et des théories économiques, les concernant afin d’obtenir une analyse économique empirique rigoureuse. Elle se situe à l’interface entre l’informatique, les statistiques, les probabilités et la théorie économique. Elle est donc très influencée pas des développements hors du domaine propre de la pensée économique, en particulier informatiques et probabilistes. Divers chercheurs font davantage porter l’accent sur l’un ou l’autre de ces ingrédients, ce qui génère une grande part des conflits dans ce domaine. Les termes importants de la définition cidessus sont empiriques et rigoureuses : il s’agit bien d’une discipline qui vise à être appliquée à des problèmes concrets et ainsi ignore une grande part des développements théoriques purs sans possibilité d’application ; par ailleurs, l’économétrie a dans une certaine mesure vocation à rapprocher l’économie des sciences expérimentales : il s’agit de tirer des evénements passés et des données le maximum d’informations afin d’utiliser les “expériences historiques”, à défaut de pouvoir les réproduire ex abstractum.
L’économétrie appliquée utilise, quant à elle, les dévéloppements théoriques pour analyser des cas concrets afin d’obtenir des recommandations politiques, de tester la théorie économique ou de suggérer de nouvelles manières d’améliorer cette dernière. Au vu de la rapidité des développements, il est essentiel pour toute personne qui s’intéresse aux études économiques de pouvoir en comprendre les forces et faiblesses car des méthodes econométriques appliquées à mauvais escient entraînent souvent des résultats sans fondements.
Au cours de la dernière décennie, divers économètres ont re¸cu le prix Nobel d’économie :
En microéconométrie, Dan McFadden a développ´ des méthodes permettant d’analyser de manière formelle comment les individus prennent des décisions économiques, par exemple comment les habitants de San Francisco choisissent entre divers modes de transport ; et ce, afin de prévoir l’impact de l’introduction de nouvelles formes de transport et donc de savoir si elle se révélerait bénéfique pour le bienêtre global et de quantifier cet aspect. Jim Heckman a pour sa part etudi´ comment analyser les facteurs influen¸cant les choix individuels en matière de quantité de travail.
En econométrie financière, Rob Engle a analysé la modification de la volatilité au cours du temps. Ceci lui a permis d’étudier comment des agents rationnels devraient equilibrer risque (volatilité) et rentabilit´ au cours du temps. Une autre application concerne l’évaluation du risque associé à un investissement bancaire (riskmetrics).
En macroéconométrie, Clive Granger a permis une modélisation temporelle de variables instables, comme le revenu et la consommation, qui sont liées par des relations économiques de long terme.
La compréhension de l’économétrie nécessite par conséquent une maîtrise des outils de probabilités et de statistiques.
1.2 Notions de probabilités
1.2.1 Espaces et axiomes
La théorie probabiliste est construite autour de la notion d’ensemble. Les principales définitions concernent les evénements possible et leur probabilité.
Définition 1 (Espace d’échantillonnage) L’ensemble Ω est nommé espace d’échantillonnage s’il contient toutes les réalisations possibles considérées, par exemple si un consommateur a la possibilité d’acheter 0,1,2 ou 3 bouteilles de Coca Light : Ω = {0, 1, 2, 3} .
Définition 2 (Evénement) Un evénement est un sousensemble de Ω (ou Ω luimême) : exemple l’événement A = {0} correspond à un consommateur n’achetant pas de Coca Light, B = {1, 2} s’il achète une ou deux bouteilles.
Les principales notations concernant les ensembles sont :
Union. A ∪ B, ex. A ∪ B = {0, 1, 2} .
Intersection. A ∩ B, ex. A ∩ B = ∅.
Complémentarit´. A | c | ¯ | c | = {1, 2, 3} |
ou A = Ω\A, ex. A |
La théorie probabiliste est construite autour des développements de la théorie des ensembles. En particulier, on appelle espace probabilisable le couple (Ω, F) o`u F est une tribu (sigma algèbre) associée à Ω, il s’agit de l’ensemble des combinaisons d’événements possibles1. Pour un espace d’échantillonnage Ω, une fonction de probabilité Pr est une fonction définie sur une tribu associée
Pr Ai = Pr (Ai) .
i=1 i=1
1Une collection de sousensembles de S est appelée tribu F si elle satisfait à trois conditions :
i.e. l’ensemble vide est un membre de la tribu, le complémentaire de tout membre est un membre, toute union de membres de la tribu appartient à la tribu.
Remarque 1 – Les probabilités sont des fonctions s’appliquant à des ensembles
– La tribu représente tous les sousensembles de Ω et fournit ainsi la base sur laquelle les evénements valides peuvent être définis.
– Tous les evénements ont probabilités positives ou nulles.
– Au moins un evénement de l’espace d’échantillonnage arrive. L’espace d’échantillonnage est l’ Univers considér´.
– Si les evénements sont disjoints (pas de superposition) alors la probabilité qu’un d’entre eux (et un seul) arrive est la somme des probabilités que chacun survienne. Par exemple pour deux evénements disjoints {A1,A2} , alors
Pr (A1 ∪ A2) = Pr (A1) + Pr (A2) .
Exemple 1 Divisons Ω en deux evénements {A, Ac} . Alors Ω = {A} ∪ {Ac} et ces evénements sont nécessairement disjoints. Par conséquent
Pr (A ∪ Ac) = Pr (A) + Pr (Ac) = Pr (Ω) = 1
donc
Pr (Ac) = 1 − Pr (A) = Pr (Ω\A) .
Puisque Pr (Ac) ≥ 0, on en déduit que
Pr (A) ≤ 1.
Enfin, les propriétés de la tribu nous permettent d’écrire Ω = Ω ∪ ∅ et donc
Pr (∅) = 0.
Exemple 2 Soient deux evénements A et B appartenant à F. Ces evénements ne sont pas nécessairement disjoints et nous ne pouvons utiliser le troisième axiome directement. Cependant
Pr (A ∪ B) = Pr (A) + Pr (B) − Pr (A ∩ B) .
Ainsi la probabilité qu’au moins un de A ou de B se produise est la probabilité qu’A arrive plus celle de B moins la probabilité que les deux se produisent.
1.2.2 Indépendance
Considérons deux evénements A et B appartenant à F. On s’intéresse ici au concept selon lequel la réalisation d’un evénement ne modifie pas la probabilité qu’à un autre evénement de se réaliser. Quand ceci est vrai, on parle d’indépendance. Mathématiquement, on note que A et B sont indépendants (dans F) si et seulement si
Pr (A ∩ B) = Pr (A) × Pr (B) .
Noter que deux evénements ne peuvent être indépendants s’ils sont disjoints, car alors Pr (A ∩ B) = 0. On note parfois l’indépendance entre deux evénements :
A ⊥⊥ B.
Exemple 3 Soit A le rendement (géométrique) d’un actif sur un jour donné et B son rendement pour le jour suivant. Beaucoup de modèles en économie financière font l’hypothèse d’indépendance de A et de B. Ceci est pourtant rejet´ empiriquement car si A et B sont typiquement presque noncorrélés, il ne sont pas indépendants. Une forte volatilité à tendance à suivre une forte volatilité.
Exemple 4 Par définition si on jette un dé deux fois successives, le résultat du premier jet n’influence pas celui du second, et ainsi les deux résultats sont indépendants.
1.2.3 Probabilité conditionnelle
Il est parfois souhaitable de changer d’espace d’échantillonnage, d’univers pour calculer les probabilités. On peu soit redéfinir Ω à chque fois, par exemple en calculant séparément avec un Ω pour les employés masculins de plus de 45 ans et un pour les employées féminines de moins de 21 ans... Afin d’éviter toute confusion, on utiliser le concept de probabilité conditionnelle, qui vise le même but, mais conserve Ω constant. Si on conditionne sur B, les axiomes de probabilité demeurent les mêmes :
Pr (ω ∈ A|ω ∈ B) ≥ 0
Pr (ω ∈ B|ω ∈ B) = | 1 | |
Pr ω ∈ [i=1 Ai|ω ∈ B | = | Xi=1 Pr (ω ∈ Ai|ω ∈ B) |
si les Ai sont disjoints.
Exemple 5 Si Ω représente l’ensemble des niveau de salaire de population résidant en France. On peut par exemple s’intéresser à
Pr (salaire|employe´)
Pr (salaire|f emme)
Pr (salaire|f emme, employe,´ fran¸cais)
Remarquer que les evénements sont indépendants au sein de Ω. Il s’agit de définir au préalable Ω et toutes les propositions en dépendent.
Il est souvent plus utile de définir la probabilité conditionnelle à l’aide de la distribution conjointe : si nous connaissons la distribution conjointe des salaires et de l’emploi il serait agréable de pouvoir déduire de manière automatique des informations concernant la probabilité conditionnelle des salaires, connaissant le statut d’emploi. On procède de la manière suivante.
Soit un univers comportant deux réalisations A et B. On peut s’intéresser soit à Pr (A) , soit à Pr (B) , soit encore à Pr (A ∩ B) . Enfin on peut aussi s’intéresser à Pr (A|B) pourvu que Pr (B) > 0 (i.e. que B ait une chance de se réaliser). Il s’agit ainsi de contraindre notre monde de sorte que B se réalise et de se demander ce qui se passe alors pour A. Ceci ne peut arriver que si A et B peuvent arriver coinjointement, on définit alors :
Pr (A|B) = Pr (A∩B).
Pr (B)
Il est facile de constater que cette définition satisfait aux axiomes de probabilité. La probabilité conditionnelle est un concept vital en econométrie. On peut alors s’intéresser à la probabilité conditionnelle coinjointe de deux evénements :
Pr (A ∩ B|C) .
Si Pr (A ∩ B|C) = Pr (A|C) × Pr (B|C) , on dit alors que conditionnellement à B, A et C sont indépendents.
Exemple 6 Supposons que A soit la richesse accumulée au cours de la vie ; B le fait d’étudier à HEC ; C les capacités, l’éducation, la formation. L’indépendance entre A et B sachant C revient à dire que le label HEC n’apporterait aucune valeur pour aucun individu, ce qui est une déclaration plus forte qu’une absence de valeur ajoutée en moyenne.
En réarrangeant les formules précédentes
Pr (B) Pr (A|B) = Pr (A ∩ B) ,
et
Pr (A) Pr (B|A) = Pr (A ∩ B) ,
en réarrangeant on obtient un des théorèmes les plus connus en probabilités, le
Théorème 2 (Théorème de Bayes) si Pr (A) > 0 et Pr (B) > 0,
Pr (B|A) = Pr (A ∩ B) = Pr (B) Pr (A|B).
Pr (A) Pr (A)
Celuici revient à dire que pour passer de Pr (A|B) à Pr (B|A) , il suffit de multiplier par le ratio Pr (B) / Pr (A) .
1.3 Variables aléatoires
Nous avons pour l’instant utilsé ω pour représenter chacun des evénements associés au triplet (Ω, F, Pr) , i.e. F est génér´ à partir de Ω, ω ∈ F, et Pr est la fonction qui associe une probabilité.
Ces evénements ne sont pas nécessairement numériques. En particulier pour diverses applications on peut choisir de s’intéresser à de mulitples facettes d’un même evénement et ainsi utiliser des fonctions numériques de cet evénement. Si on choisit une fonction X (ω) qui mène à une valeur numérique (potentiellement un vecteur ou une matrice), on appelle X variable aléatoire. Les distributions sont des familles spécifiques de variables aléatoires.
Exemple 7 – Soit Ω l’univers des nouveaunés en France en 2005. Pour chaque ωi individuel, i.e. chaque naissance, on peut choisir de s’intéresser à des fonctions diverses : la taille, le poids du nouveauné, la durée de la grossesse, qui sont des fonctions réelles ; le nombre de frères et soeurs de l’enfant, qui est une fonction entière ; ou une fonction indicatrice qui prend la valeur 1 si l’enfant a des cheveux et 0 sinon.
– Distribution de Bernoulli. Une personne est employée un non ; on note employ´ ω = E, sans emploi ω = U. Soit X (ω = E) = 1 et X (ω = U) = 0 la variable indicatrice qui renvoie 1 si un individu possède un emploi et 0 sinon. On note Pr (X = 1) = p et Pr (X = 0) = 1 − p. La distribution de Bernoulli joue un rôle important en microéconométrie quand des variables prennent les valeurs 0 et 1.
– Distribution Binômiale. Si on réalise n tirages indépendants de la distribution de Bernoulli (par exemple en choisissant n personnes au hasard au sein de la population fran¸caise et en leur demandant s’ils ont un emploi, 1 si vrai, 0 si faux), et on note le nombre de fois que la réponse est 1. Alors le total est appel´ distribution binômiale : soit p la proportion de la population ayant un emploi
Xi | = 1) = p, Pr (Xi = 0) = 1 − p, Xi ∼ iid | ||||
Y = | Xi, | Pr (Xi | |||
Alors | |||||
Pr (Y | = y) = | n! | py (1 − p)n−y , y = 0, 1, ..., n. | ||
y! (n | − | y)! |
1.3.1 Fonction de distribution
La fonction de distribution d’une variable aléatoire X : Ω → R (ou N) est
définie par | |
FX : | R(ou N) → [0, 1] |
: | x → Pr (X ≤ x) . |
o`u X est ici evaluée sur Ω, i.e. pour l’ensemble des evénements. La densit´ de X est (pour les variables aléatoires continues)
∂F∂xX .
On note que pour les fonctions continues Pr (X = x) = 0
pour tout x et qu’on peut noter en revanche Pr (X ∈ [x, x + dx]) = fX (x) dx
et que si X prend un nombre fini de valeurs fX (x) = Pr (X = x) .
Le lien entre les distribution et densit´ est donc fourni par
Z x
FX (x) = fX (u) du. −∞
On note que pour les variables aléatoires réelles (définies sur R)
x → | x | → | |
FX (x) | 1, FX (x) | →−∞ | 0, |
→ ∞ |
fX (x) → 0.
x→±∞
Les quantiles d’une distribution sont fournies par la fonction inverse de FX . Ainsi si on souhaite savoir quelle est la valeur x telle que pour une proportion p de la population X prend une valeur inférieure ou égale à x, p = FX (x) et donc
x = FX−1 (p)
est appelée fonction quantile de X. On appelle médiane le quantile 0,5 (50% de la population de parts et d’autres de cette valeur).
Exemple 8 Les quantiles sont des mesures essentielles de l’inégalit´. Ainsi des politiques économiques peuvent par exemple cibler les 10% de la population ayant les revenus les plus faibles.
Exemple 9 Une variable aléatoire exponentielle possède la distribution
fX (x) = β exp (−x/β) , x, β ∈ R+.
Sa fonction de distribution est
FX = 1 − exp (−x/β) ,
et sa fonction quantile
FX−1 (u) = −β log (1 − u) .
1.3.2 Distribution Normale
La distribution Normale ou Gaussienne est la plus couramment utilisée. Elle apparaît naturellement lorsque on s’intéresse à la distribution de la moyenne et présente des propriétés pratiques de translation. Sa forme ne paraît malheureusement pas immédiatement attractive : sa densit´ est
Les distributions étant des familles de variable aléatoire, on constate ici que chaque X Gaussienne est paramétrée par sa moyenne µ et sa variance σ2, ce qu’on note
X ∼ N µ, σ2 .
Mathématiquement, on peut penser à la densit´ fX de la manière suivante :
log fX (x) = c − 2σ12 (x − µ)2 .
La logdensit´ est quadratique en x, la constante c est determinée de sorte que
Z +∞
Pr (Ω) = 1 = fX (x) dx. −∞
La densit´ Normale a R comme support est centrée autour de µ, σ contrôle sa dispersion. Une propriét´ importante de la distributon Normale est que si X ∼ N (µ, σ2) alors
γ + λX ∼ N γ + λµ, λ2σ2 ,
i.e. les transformations affines d’une Normale sont Normales. Ceci entraîne qu’on puisse écrire toute distribution Gaussienne comme loi
X = µ + σN,
o`u N suit une Normale standard N ∼ N (0, 1) . Ainsi si X et Y suivent deux Normales indépendantes
1.3.3 Autres distributions
Il existe une multitude de distributions parmi lesquelles on en rencontre fréquemment certaines en econométrie.
Khideux
iid
Supposons que Xi ∼ N (0, 1), (souvent écrit NID(0, 1) ou IN(0, 1) , ce qui signifie que les Xi sont des copies indépendantes et identiquement Normalement distribuées),alors
v X
Y = Xi2 ∼ χ2ν ,
i=1
une distribution khideux avec ν “degrés de liberté”. L’espérance et la variance d’une distribution χ2ν sont respectivement ν et 2ν.
Uniforme
On contraint parfois les variables sur de petits intervalles. L’exemple le plus simple est la distribution uniforme standard
fX (x) = 1, x ∈ [0, 1] .
Cette variable n’a que le segment [0, 1] comme support. Cette distribution est souvent utilisée dans les modèles stylisés afin d’introduire une idée ou un concept. Elle est aussi utilisée en simulation. Une Uniforme plus générale se définit comme
fX (x) = | 1 | , x ∈ [a, b] . | |
b − a | |||
Poisson
Les modèles de comptage sont souvent utilisés en économie, par exemple le nombre de brevets déposés en un intervalle de temps, le nombre d’échanges sur un marché... La distribution la plus courante est celle de Poisson :
e−λλx | ||
fX (x) = | x! | , x = 0, 1, 2, ... |
Student
Si Z suit une N(0, 1) et X une χ2ν et est indépendante de Z, alors le ratio
Z tν = p X/ν
suit une distribution dite de Student avec ν degrés de libert´. Celleci a la même forme qu’une distribution Normale, mais avec des bords plus épais. Quand ν augmente, tν se comporte de plus en plus comme une Normale, entre ν = 30 et 100 une Normale standard est une bonne approximation, au delà de 100 on ne peut les distinguer.
Fischer
Si X1 et X2 sont deux distributions khideux indépendantes avec pour degrés de libert´ ν1 et ν2, alors le ratio
X1/ν1Fν1,ν2 =X2/ν2
suit une loi de Fischer avec ν1 et ν2 degrés de libert´. Quand ν2 est nettement plus grand que ν1, comme est courant en econométrie, X2/ν2 tend vers 1 et Fν1,ν2 se comporte comme un χ2ν1 divisé par ν1.
Figure 1.1 – Graphiques des densités des distributions Standard Normale, Normales, de Student et Khideux.
fX2(x2) |
HEC majeure Economie, 2005
1.3.4 Distributions multivariées
Tous les résultats précédents sont aussi valables lorsqu’on s’intéresse au vecteur multivarié de dimension p :
X = (X1, ..., Xp)0 .
Les eléments de ce vecteur ne sont pas nécessairement indépendants, ils peuvent par exemple représenter une série chronologique ou un panel d’observations économiques. En particulier, si p = 2 de sorte que
X=X1 X2
alors
FX (x1, x2) = Pr (X1 ≤ x1, X2 ≤ x2) qui, dans le cas continu s’écrit
Z x1Z x2
FX (x1, x2) = fX (u1, u2) du1du2.
−∞ −∞
Et de manière similaire
fX (x1, x2) = ∂2FX . ∂x1∂x2
Quand X1 et X2 sont indépendantes, la densit´ s’écrit
fX (x1, x2) = fX1 (x1) fX2 (x2) .
Dans le cas général en intégrant par rapport à une variable sur son support, on obtient la densit´ marginale de la seconde :
Z +∞
fX2 (x2) = fX (u1, x2) du1. −∞
La distribution conditionnelle prend la forme
FX1|X2=x2(x1) = Pr (X1≤x1|X2=x2)
ce qui donne la densit´ conditionnelle
∂ Pr (X1 ≤ x1|X2 = x2) fX1|X2=x2 (x1) =∂x1
qui possède toutes les propriétés d’une densité, en particulier on peut montrer que
fX1|X2=x2 (x1) = fX(x1, x2).
1.3.5 Moments
Soit X une variable aléatoire, on définit de manière générale les moments de X comme l’intégrale (lorsqu’elle existe)
E [g (X)] = g (x) fX (x) dx
avec des cas spécifiques de fonction et est un opérateur linéaire : pour polynômiales g (·) . E [·] est appel´ espérance a et b constantes
E [a + bg (X)] = a + bE [g (X)] .
Espérance mathématique
Le cas le plus simple d’espérance est la moyenne ou moment de premier ordre définie par
Z
µ (X) = E [X] = xfX (x) dx.
et de manière plus générale on définit le rième moment (non centré)
Z
µr (X) = E [Xr] = xrfX (x) dx.
Variance
Dans le cas d’une variable univariée, la variance est définie comme second moment de la variable centrée X − E [X] :
V [X] = E (X E [X])
= (x − E [X])2 fX (x) dx
= E X2 − (E [X])2 .
La variance est égale à l’espérance du carré, moins le carré de l’espérance.
Exercice 1 Prouver que V [a + bX] = b2V [X] .
Exercice 2 Montrer que l’espérance et la variance de la distribution Normale :
X | √2πσ2 | "− | 2σ2 | # |
sont µ et σ2 respectivement.
Exercice 3 Quelles sont les espérance et variance d’une distribution uniforme standard ?
Covariance
La covariance de X et Y est définie, lorsqu’elle existe comme
Cov [X, Y ] = E [(X − E [X]) (Y − E [Y ])]
Z Z
= (x − E [X]) (y − E [Y ]) fX,Y (x, y) dxdy
= E [XY ] − E [X] E [Y ] .
Exercice 4 Prouver que Cov [a + bX, c + dY ] = bdCov [X, Y ] , i.e. que la covariance est invariante par translation.
…
L’indépendance implique la noncorrélation lorsque la covariance existe.
Cor [X, Y ] ∈ [−1, 1] .
Plus la corrélation est proche de ±1, plus les variables sont liées.
Exercice 7 Prouver que
Cor [a + bX, c + dY ] = Cor [X, Y ] .
Matrice de Covariance
Si X est multivariée, alors
Cov [X] = E (X − E [X]) (X − E [X])0 .
Cette matrice est symétrique, i.e. Cov [X] = Cov [X]0, et définie, i.e. pour tous vecteurs u : uCov [X] u0 ≥ 0. La matrice de covariance de X = (X1, ..., Xn)0 s’écrit
Cov [X2, X1 | ] | V [X2] | · · · | Cov [X2 | , Xn] | |||
V [X1]Cov [X1, X2 | ] | ·. ·.·. | Cov [X1 | , Xn] | ||||
Cov [X] = | ... | ... | ... | |||||
Cov [Xn, X1 | ] | Cov [Xn, X2] | V [Xn] |
Un résultat important : si B est une matrice de constantes, a un vecteur, alors
E [a + BX] | = | a + BE [X] |
Cov [a + BX] | = | BCov [X] B0. |
La matrice de corrélation est définie de manière similaire avec des 1 sur la diagonale principale et les corrélations de parts et d’autres.
Distribution Normale multivariée
La variable aléatoire X de dimension n est dite suivre une distribution Normale multivariée d’espérance µ et de matrice de covariance Σ (symétrique et positive définie, i.e. pour tous z 6= 0, zΣz0> 0) si
fX (x) = |2πΣ|−1/2 exp | −2 | (x − µ) Σ−1 (x − µ)0 | ,x∈Rn. |
Si a est q × 1 et B est q × n alors
1.3.6 Estimateurs
Une statistique S (X) est une fonction d’une variable aléatoire (vectorielle) X. Quand on utilise cette statistique pour apprendre des propriétés du modèle probabiliste, on dit qu’on estime le modèle. La version aléatoire de cette fonction S (X) est appelée estimateur, dans le cas d’un vecteur observ´
HEC majeure Economie, 2005
(une réalisation, ou un échantillon de données) on parle d’estimation S (x) . L’usage de X et de x est le même que précédemment, X est une variable aléatoire qui possède une certaine distribution, x est une valeur qui provient d’un tirage de X ou d’une réalisation d’un evénement.
Exemple 11 L’example le plus simple est la moyenne arithmétique de variables aléatoires
1 | n | ||
Xi | |||
S (X) = n | |||
Xi. | |||
Si les Xi sont NID(µ, σ2) , alors en utilisant le fait que S (X) est une combinaison linéaire de Normales :
σ2
S (X) ∼ N µ, n .
Si n est très grand, l’estimateur a une variance qui tend vers zéro et donc sa distribution tend vers une constante, l’espérance commune à tous les Xi.
Biais
On suppose qu’on ait défini un estimateur afin d’estimer une certaine quantité θ. On peut souhaiter que S (X) soit en moyenne proche de θ. Une manière de voir ceci est de s’intéresser au biais d’estimation E [S (X) − θ] .
Exemple 12 Si Xi ∼NID(µ, σ2) alors
1 | n | ||
Xi | |||
X = | n | Xi | |
la moyenne sur l’échantillon est un estimateur de biais nul.
Quand le biais est nul on parle d’estimateur non biaisé. Les estimateurs nonbiaisés peuvent être très imprécis car ils peuvent présenter une très forte dispersion. Une manière d’évaluer leur imprécision est via le critère de moyenne d’erreur quadratique (Mean Square Error, ou MSE) :
E (S (X) − θ)2 = V [S (X)] + (E [S (X) − θ])2 .
Et ainsi un estimateur plus précis peut se révéler biaisé.
23
G. Chevillon, Econométrie
Exercice 8 Estimer σ2 à l’aide d’un échantillon aléatoire tiré de NID(µ, σ2) en utilisant
Montrer que le minimum de MSE est atteint pour k = −1 tandis que l’estimateur est nonbiaisé pour k = 1. Pour ce faire remarquer que
…
1.4 Approximations asymptotiques
1.4.1 Motivations
Exemple 13 Convergence Classique
1
Xn = 3 + n → 3 quand n → ∞.
Mais que dire de
Y Xn = 3 +n
quand Y est une variable aléatoire ? Il existe diverses mesures de convergences, certaines nécessitant l’existence de moments, d’autres non.
La théorie des distributions peut se révéler très compliquée et parfois inextricable. Par conséquent, nous sommes souvent obligés d’utiliser des approximations. Parmi les nombreuses méthodes, celle qui domine consiste à rechercher l’erreur faite par une approximation consistant à supposer qu’on possède un grand échantillon et qu’on est proche des distributions asymptotiques pour la taille de l’échantillon. Cette idée est particulièrement attractive si on estime un paramètre et qu’on souhaite augmenter la précision avec le nombre d’observations. Deux résultats principaux sont utilisés dans la littérature afférente : la loi des grands nombres et le théorème limite central. Ces approximations sont des exemples de concepts plus généraux de “convergence en probabilité” et de “convergence en distribution”.
Formellement, nous observons une suite de variables aléatoires X1, ..., Xn telles que, lorsque n croît, Xn se comporte comme une autre variable aléatoire ou une constante X.
Table des matières
1 Variables aléatoires et limites 7
1.1 Qu’estce que l’économétrie ? . . . . . . . . . . . . . . . . . . . . 7
1.2 Notions de probabilités . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Espaces et axiomes . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Probabilité conditionnelle . . . . . . . . . . . . . . . . . 11
1.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Fonction de distribution . . . . . . . . . . . . . . . . . . 14
1.3.2 Distribution Normale . . . . . . . . . . . . . . . . . . . . 15
1.3.3 Autres distributions . . . . . . . . . . . . . . . . . . . . . 16
1.3.4 Distributions multivariées . . . . . . . . . . . . . . . . . 19
1.3.5 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.6 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Approximations asymptotiques . . . . . . . . . . . . . . . . . . 24
1.4.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.3 Autres mesures de convergence . . . . . . . . . . . . . . 27
1.4.4 Notation de l’ordre . . . . . . . . . . . . . . . . . . . . . 29
2 Inférence 31
2.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3 Stratégies de test . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Erreurs de test . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.2 Fonction de puissance . . . . . . . . . . . . . . . . . . . 35
2.3.3 Tests unilatéraux . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Test de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.1 Les autres tests de restriction . . . . . . . . . . . . . . . 39
3 Régression 41
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1 La régression linéaire et ses problèmes potentiels . . . . 41
3.1.2 Notation vectorielle et matricielle . . . . . . . . . . . . . 43
3.2 Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . 44
3.2.2 Moindres carrés (Least squares) . . . . . . . . . . . . . . 50
3.2.3 Erreurs de spécification . . . . . . . . . . . . . . . . . . . 53
3.2.4 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . 55
4 Séries temporelles 57
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1 Qu’appelleton série temporelle ? . . . . . . . . . . . . . 57
4.1.2 Quels sont les buts de cette analyse ? . . . . . . . . . . . 59
4.1.3 En quoi cette démarche consistetelle ? . . . . . . . . . . 62
4.2 Concepts des séries temporelles . . . . . . . . . . . . . . . . . . 63
4.2.1 Processus stochastiques . . . . . . . . . . . . . . . . . . . 63
4.2.2 Stationnarité . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.3 Ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3 La caractérisation des séries temporelles en économie . . . . . . 68
4.3.1 Moyenne de l’échantillon . . . . . . . . . . . . . . . . . . 68
4.3.2 ACF, fonction empirique d’autocorrélation . . . . . . . . 68
4.3.3 PACF, fonction empirique d’autocorrélation partielle . . 69
4.4 Processus intégrés . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5 Quelques processus courants . . . . . . . . . . . . . . . . . . . . 73
5 Méthodes sans modèle 75
5.1 Extrapolation déterministe des séries . . . . . . . . . . . . . . . 75
5.1.1 Tendances linéaires . . . . . . . . . . . . . . . . . . . . . 75
5.1.2 Tendances autorégressives . . . . . . . . . . . . . . . . . 77
5.1.3 Modèles non linéaires . . . . . . . . . . . . . . . . . . . . 77
5.2 Moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3 Lissages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3.1 Moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . 79
5.3.2 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . 79
5.4 Ajustements saisonniers . . . . . . . . . . . . . . . . . . . . . . 80
5.4.1 Méthode multiplicative . . . . . . . . . . . . . . . . . . . 80
5.4.2 Méthode additive . . . . . . . . . . . . . . . . . . . . . . 81
6 Modèles linéaires de séries temporelles 83
6.1 Processus linéaires . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.1.1 Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.1.2 Théorème de décomposition de Wold . . . . . . . . . . . 84
6.1.3 Modélisation ARMA . . . . . . . . . . . . . . . . . . . . 85
6.2 Prédiction des processus ARMA(p, q) . . . . . . . . . . . . . . . 89
6.3 Algorithme de BoxJenkins . . . . . . . . . . . . . . . . . . . . . 91
6.3.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . 91
6.3.2 Travailler sur données stationnaires . . . . . . . . . . . . 91
6.3.3 Etablir une hypothèse . . . . . . . . . . . . . . . . . . . 92
6.3.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.3.5 Diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4 Estimation des modèles dynamiques . . . . . . . . . . . . . . . . 94
6.4.1 Equations de YuleWalker . . . . . . . . . . . . . . . . . 94
6.4.2 Fonction de vraisemblance . . . . . . . . . . . . . . . . . 94
6.4.3 Maximum de vraisemblance d’un ARMA . . . . . . . . . 95
7 Les variables intégrées 99
7.1 Les tests de racine unitaire . . . . . . . . . . . . . . . . . . . . . 99
7.1.1 Problèmes des processus intégrés . . . . . . . . . . . . . 100
7.1.2 Test de DickeyFuller . . . . . . . . . . . . . . . . . . . . 100
7.2 Les différents tests . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.3 Les tendances et constantes . . . . . . . . . . . . . . . . . . . . 101
7.4 Modèles univariés de cointégration . . . . . . . . . . . . . . . . . 104
7.4.1 Procédure en deux étapes d’Engle et Granger . . . . . . 104
7.4.2 Procédure en une étape de Banerjee, Dolado et Mestre . 106
7.4.3 Références biblio