Cours d’introduction a l’estimation statistique
Cours d’introduction à l’estimation statistique
CHAPITRE I Estimation ponctuelle
En statistique, comme dans la théorie des probabilités le hasard intervient fortement. Mais dans la théorie des probabilités, on suppose la loi connue précisément et on cherche à donner les caractéristiques de la variable qui suit cette loi. L’objectif de la statistique est le contraire : à partir de la connaissance de la variable, que peut-on dire de la loi de cette variable ?
1. Définitions
Soit X une variable aléatoire dont la densité de probabilité f(x; ) dépend d’un paramètre appartenant à I R. A l’aide d’un échantillon issu de X, il s’agit de déterminer au mieux la vraie valeur de . On pourra utiliser deux méthodes :
- estimation ponctuelle : on calcule une valeur vraisemblable de
- estimation par intervalle : on cherche un intervalle dans lequel se trouve avec une probabilité élevée.
Définition 1. Un n-échantillon de X est un n-uplet (X1; X2; : : : ; Xn) tel que les Xk ont la même loi que X et sont indépendantes.
Une réalisation de l’échantillon est alors un n-uplet (x1; x2; : : : ; xn) de valeurs prises par l’échantillon.
Définition 2. Une statistique de l’échantillon est une variable aléatoire '(X1; X2; : : : ; Xn) où ' est une application de Rn dans R.
Un estimateur T de est une statistique à valeurs dans I. Une estimation est la valeur de l’estimateur correspondant à une réalisation de l’échantillon.
Exemple : Xn = n1X Xk est un estimateur de l’espérance mathématique.
k=1
Définition 3. Le biais de l’estimateur T de est E[T ] . S’il est nul, on dit que T est un estimateur sans biais.
L’estimateur Tn est asymptotiquement sans biais si lim E[Tn] = .
On note souvent le biais b (T ).
Définition 4. L’estimateur est dit convergent si la suite (Tn) converge en probabilité vers :
…
On parle d’estimateur fortement convergent lorsqu’on a convergence presque sûre.
D’après Bienaymé-Tchebychev pour qu’un estimateur asymptotiquement sans biais soit convergent il suffit que
Var(Tn) ! 0:
n!+1
2. Critères de comparaison d’estimateurs
Un bon critère de comparaison est le risque quadratique.
Définition 5. Soient T un estimateur de . Le risque quadratique est défini par
R(T; ) = E[(T )2]
On peut alors comparer deux estimateurs.
Définition 6. On dit que T1 est un meilleur estimateur que T2 si
8 2 I; R(T1; ) R(T2; )
et
9 2 I; R(T1; ) < R(T2; ):
Un estimateur est dit admissible s’il n’existe pas d’estimateur meilleur.
L’erreur quadratique moyenne de T se décompose en deux termes, le carré du biais et la variance de T :
E[(T )2] = b2(T ) + Var(T ):
Cette décomposition permet de se ramener à une discussion sur la variance pour les estimateurs sans biais de .
Définition 7. Soient T1 et T2 deux estimateurs sans biais de . On dit que T1 est un plus efficace que T2 si
8 2 I; Var(T1) Var(T2)
et
9 2 I; Var(T1) < Var(T2):
On parle d’estimateur à variance minimale si seul le premier point est vérifié, c’est-à-dire : Var(T1) Var(T2):
3. Exemples fondamentaux
Soit X une variable aléatoire telle que E[X] = m et Var(X) = 2.
3.a. Estimation de m.
Théorème 8.
La moyenne empirique Xn = n1X Xk est un estimateur sans biais et convergent de m.
k=1
D’après la loi forte des grands nombres Xn est même fortemement convergent. Il est possible de déterminer la loi asymptotique de la moyenne empirique.
3.b. Estimation de 2 en supposant m connu.
Théorème 10.
Lorsque m est connu
1X(Xkm)2 n
k=1
est un estimateur sans biais et convergent de 2.
…
k=1
avec k= E((X m)k).
Donc Sn2 est un estimateur convergent. La loi forte des grands nombres appliquée aux variables (Xk m)2 entraîne même la convergence presque sûre vers 2.
Comme dans le cas de la moyenne empirique le TCL nous permet de déterminer la loi asymptotique de Sn2 ; on a lorsque n est assez grand :
2 | L | 2 | 4 | )=n): |
Sn | N ( | ; ( 4 |
3.c. Estimation de 2 lorsque m est inconnu.
En général on ne connaît pas m ; on le remplace par un estimateur et on introduit la variance empirique associée :
Sn2 = n1X(Xk Xn)2:
k=1
Théorème 11.
La variance empirique Sn2 est un estimateur biaisé et convergent de 2. Il est asymptotique-ment sans biais.
Chapitre I. Estimation ponctuelle
D’autre part, on peut montrer que :
Var(Sn2) = n144n22 4 2 4 + n13 4 3 4 ! 0
avec k= E((X m)k). L’estimateur est donc convergent.
Le résultat précédent et le lemme de Slutsky (Probabilité 2, Jean-Yves Ouvrard, p. 347) permet de déterminer la loi asymptotique de Sn2 :
…
Théorème 12.
La variance empirique corrigée
k=1
est un estimateur sans biais et convergent de 2.
Cela se montre facilement en remarquant que
Scn2=n1Sn2:
4. Cas particulier de la loi normale
On suppose dans ce paragraphe que X suit la loi normale N (m; 2). On sait que Xn = n1X Xk suit
4. Cas particulier de la loi normale
Définition 13. Soient X1; : : : ; Xn, n variables aléatoires indépendantes identiquement distribuées de loi N (0; 1). La loi du 2 à n degrés de liberté est la loi de la variable aléatoire
Comme B est une matrice symétrique, il existe une matrice orthogonale U et une matrice diagonale D telle que B = U DUt
Or les valeurs propres de B sont :
- la valeur propre simple 0 dont le sous-espace propre associé a pour équation x1 = = xn ;
- la valeur propre d’ordre (n 1) égale à 1 dont le sous-espace propre associé a pour équation
x1 + x2 + + xn = 0
En ordonnant convenablement la base de vecteurs propres on peut choisir
010
D = | B | ... ...C |
B | C | |
B | C |
5. Construction d’estimateur par la méthode du maximum de vraisemblance
On a Y = BX = U DUtX et X
(Xk Xn)2 = Y tY = XtU DUtU DUtX = (UtX)tD(UtX)
k=1
Or le vecteur aléatoire Z = UtX est gaussien de loi N (0; UtInU) = N (0; UtU) = N (0; In). D’où
On en déduit immédiatement que si (X1; : : : ; Xn) est un échantillon d’une variable aléatoire N (m; 2) la variable aléatoire
le résultat découle de ce qui précède.
5. Construction d’estimateur par la méthode du maximum de vraisemblance
5.a. Cas discret. On suppose donnée une observation X tirée selon une loi P , 2 . On supposera ici que P est discrète et on pose :
f (x) = P (X = x):
On appelle alors fonction de vraisemblance la fonction LX ( ) = f (X). Quand on dispose d’un n échantillon (X1; : : : ; Xn) de loi P , la vraisemblance s’écrit alors
Y LX1;:::;Xn( ) =f(Xi):
i=1 ^
Lorsque la fonction de vraisemblance admet un unique maximum atteint en = gn(X1; : : : ; Xn), on peut utiliser cette valeur pour estimer . On dit alors que
T = gn(X1; : : : ; Xn)
est l’estimateur par maximum de vraisemblance de .
Cet estimateur est naturel puisqu’il conduit à privilégier la valeur de la "plus probable" au vu de l’observation. Il possède en général de bonnes propriétés. L’inconvénient est que ce maximum peut ne pas exister ou ne pas être unique et il peut être difficile à exhiber.
En pratique, la recherche de ce maximum se fait par dérivation de L relativement à . On peut de ma-nière équivalente maximiser le logarithme de la vraisemblance (la fonction logarithme étant croissante, maximiser la vraisemblance et la log-vraisemblance revient au même, mais souvent les calculs sont plus simples).
Exemple : Estimation du paramètre d’une loi de Bernoulli.
Ici on suppose =]0; 1[ et les Xi suivent une loi de Bernoulli de paramètre 2 . On a
8 < f (x) = P (X = x) = 1: 0
si x = 1 si x = 0 sinon
Chapitre I. Estimation ponctuelle
Posons Sn = X1 + + Xn. Ainsi Sn est le nombre de 1 dans l’échantillon et n Sn le nombre de 0. La vraisemblance et la log-vraisemblance s’écrivent alors :
LX1;:::;Xn ( ) = Sn (1 )n Sn lnLX1;:::;Xn ( ) = Snln + (n Sn)ln(1 ):
Un calcul montre alors que le maximum est atteint en
^ 1 = n Sn:
Par conséquent l’estimateur de par maximum de vraisemblance est
…
qui est également l’estimateur de la moyenne.
5.b. Cas à densité. On suppose donnée une observation X tirée selon une loi P , 2 . On supposera ici que P admet une densité par rapport à la mesure de Lebesgue notée f .
On appelle alors fonction de vraisemblance la fonction LX ( ) = f (X). Quand on dispose d’un n échantillon (X1; : : : ; Xn) on a la vraisemblance
Y LX1;:::;Xn( ) =f(Xi):
i=1
Ensuite, on procède comme dans le cas discret.
Exemple : On cherche à estimer le paramètre inconnu d’une loi exponentielle. La vraisemblance s’écrit :
N LX1;:::;Xn ( ) = exp ( XXi= ) Pni=1Xi
i=1^
Le maximum est atteint en un unique point n = Xn:
CHAPITRE II Estimation par intervalle
1. Définition d’une région de confiance
Soit 2]0; 1[ un niveau de risque fixé par le statisticien.
Définition 1. Une région de confiance de de niveau de confiance 1 est un ensemble (dépendant de l’observation mais pas du paramètre inconnu ), C(X) , telle que
8 2 ; P ( 2 C(X)) 1
On dit alors qu’on a une région par excès. Dans le cas où on a égalité on parle de niveau exactement égal à 1 .
Lorsqu’on a X = (X1; : : : ; Xn), on parle de région de confiance asymptotique de niveau 1 , si
8 2 ; | lim |
n!+1P(2C(X1; : : : ; Xn))1 |
Les valeurs usuelles de sont 1%, 5% ou 10%. Dans le cas unidimensionnel, la plupart du temps, une région de confiance s’écrit sous la forme d’un intervalle (unilatère ou bilatère). Un intervalle de confiance de niveau de confiance 95% a une probabilité au moins égale à 0; 95 de contenir la vraie valeur inconnue . Par passage au complémentaire, le niveau de risque correspondant à une majoration de la probabilité que la vraie valeur du paramètre ne soit pas dans C(X). A niveau de confiance fixé, une région de confiance est d’autant meilleure qu’elle est de taille petite. Avant d’aller plus loin, rappelons la notion de quantile d’une loi de probabilité.
Définition 2. Soit 2]0; 1[. On appelle quantile d’ordre d’une loi de probabilité P, la quantité z = inf fx; P(] 1; x]) g:
Par exemple pour la loi N (0; 1), le quantile d’ordre 97; 5% est 1:96, et celui d’ordre 95% est 1:645.
2. Construction de régions de confiance
Une première méthode consiste à appliquer l’inégalité de Bienaymé-Tchebychev. Rappelons que si X est une variable aléatoire ayant un moment d’ordre 2, alors
8" > 0; P(jX E(X)j > ") Var(X)
"2
Appliquons cette inégalité dans le cas de variables aléatoires idépendantes X1; : : : ; Xn identiquement distribuées de loi de Bernoulli B( ), où l’on souhaite estimer à l’aide de Xn. On a
Pour = 5% et n = 100, la précision de l’intervalle est 0:14 et 0:23 avec la première méthode. Il peut s’avérer plus pratique de chercher un intervalle de confiance asymptotique.
Supposons que nous cherchions un intervalle de confiance pour un paramètre à partir d’un échantillon de taille n de loi P . Lorsqu’on dispose de suffisamment de données et pour les modèles les plus classiques, le théorème central limite s’avère être un très bon outil, pour obtenir un intervalle de confiance asymptotique. Par exemple si on souhaite estimer la moyenne d’une variable aléatoire dont on connait la variance 2 = 1. On prend un n-échantillon (X1; : : : ; Xn). L”application du TCL donne :
On obtient alors l’intervalle de confiance asymptotique de niveau suivant
où q1=2est le quantile d’ordre 1 =2 de la loi N (0; 1).
Ce n’est pas toujours aussi évident. Si on part d’une variable aléatoire de Bernoulli dont on veut estimer le paramètre . En considérant l’estimateur du maximum de vraisemblance Xn, le TCL donne :
Ici la loi limite dépend de ce qui est gênant pour construire un intervalle de confiance. Dans ce cas, on peut surmonter ce problème, en remarquant que (1 ) 0:25. On obtient donc un intervalle de confiance asymptotique : Xn2pn
Dans le cas où on considère (X1; : : : ; Xn) un échantillon de loi de Poisson de paramètre > 0 à estimer, le TLC donne :
Des outils plus élaborés doivent être utilisés pour construire un intervalle de confiance si on ne connaît pas de majorant de . Le lemme de Slutsky permet de surmonter certaines difficultés comme le montre l’exemple suivant.
…
ce qui signifie que sur un grand nombre d’expériences cet intervalle contiendra effectivement m dans 95% des cas en moyenne.
3.b. Estimation de la moyenne quand la variance est inconnue.
Définition 5. Soient X et Y deux variables aléatoires indépendantes suivant respectivement la loi normale centrée réduite et la loi du 2 à n degrés de liberté. La variable aléatoire
Cette variable n’a pas d’espérance pour n = 1 et pas de variance pour n 2. Sinon on a E(T ) = 0 et
Var(T ) = n=(n 2).
Chapitre II. Estimation par intervalle
fTk
Théorème 6.
Lorsque 2 est inconnu un intervalle de confiance au niveau1 de m est
où tn1;1=2est le quantile d’ordre 1 =2 de la loi de Student à n 1 degrés de liberté.
Cela provient du résultat précédent et de l’estimation de 2 parScn2.
Exemple : pour n = 10, avec un niveau de confiance de 95% et un intervalle symétrique on obtient l’intervalle
…
L’intervalle de confiance est plus grand que celui obtenu lorsqu’on connaît la variance.
3.c. Estimation de la variance quand la moyenne est connue.
Théorème 7.
Lorsque m est connu un intervalle de confiance au niveau 1 de 2 est
1 | n | 1 | n | |
u2 | (Xk m)2 | ; u1 | (Xk m)2 | |
X | X | |||
k=1 | k=1 |
où u1 et u2 sont les quantiles d’ordre =2 et 1 =2 de la loi du 2 àndegrés de liberté.
Exemples d’intervalles bilatères et unilatères pour la loi du 2 :
…
k=1
Chapitre II. Estimation par intervalle
D’où on en déduit le résultat.
3.d. Estimation de la variance quand la moyenne est inconnue.
Théorème 8.
Lorsque m est inconnu un intervalle de confiance au niveau 1 de 2 est
…
où u1 et u2 sont les quantiles d’ordre =2 et 1 =2 de la loi du 2 àn1degrés de liberté.
Démonstration. On estime m par Xn, puis suit une loi du 2 àn 1 degrés de liberté. Ensuite on procède comme dans la preuve précédente.
Lorsqu’on s’intéresse à l’écart-type on prend les racines carrées des bornes des intervalles obtenus pour la variance.
4. Comparaison de moyennes et de variances
Soient (X1; X2; : : : ; Xn1 ) un échantillon d’une population suivant la loi normale N (m1; 12) et (Y1; Y2; : : : ; Yn2 ) un échantillon d’une population suivant la loi normale N (m2; 22) ; ces deux échantillons sont supposés indépendants. Nous souhaitons comparer les moyennes, m1 et m2, et les variances, 12 et 22, à l’aide de ces échantillons. Pour cela nous allons construire des intervalles de confiance pour m1 m2 et pour 12 et
…
Lorsqu’on 1 et 2 sont inconnues mais non nécessairement égales, on utilise la méthode approchée suivante.
…
Le résultat s’obtient par les mêmes méthodes que pour les théorèmes précédents.
La loi de Fisher-Snedecor peut être obtenue comme le quotient de deux lois du 2 indŐpendantes :
2n1=(n1 1)
F(n11; n21) =2 1=(n21) n21
5. Estimation d’une proportion
Dans une certaine population, la proportion d’individus ayant une propriété donnée est égale à p. Soit X le nombre d’individus d’un échantillon de taille n ayant la propriété.
5. Estimation d’une proportion
5.a. Estimation ponctuelle.
Théorème 14.
Un estimateur sans biais et consistant de p est :
T = Xn
En effet, le nombre X d’individus de l’échantillon ayant la propriété suit la loi binomiale B(n; p). On a :
(T ) = | E(X) | = p | et Var | (T ) = | Var(X) | = | p(1 p) | ||
n | n2 | n! | |||||||
E |
5.b. Estimation par intervalle.
On ne sait pas déterminer exactement un intervalle de confiance. On utilise des solutions approchées, qui fonctionnent lorsqu’on dispose d’échantillon de grande taille. Ainsi, lorsque n est grand ou=et p voisin de 0; 5 on peut approcher la loi binomiale par une loi normale.
Rappel : Soit une suite de variables aléatoires Zn suivant la loi binomiale B(n; p) ; la suite des variables
…
Le paramètre p doit donc être compris entre les racines de l’équation du second degré. On vérifie aisément qu’elle a deux racines réelles appartenant à l’intervalle [0; 1]. D’où, on obtient l’intervalle de confiance indiqué.
5.c. Méthode du Bootstrap
A partir d’un échantillon X = (X1; X2; : : : ; Xn) on détermine un estimateur ponctuel s(X) d’un paramètre . Sauf dans quelques cas particuliers (s(X) = Xn par exemple) le calcul de la variance n’est pas aisé, ce qui rend problématique la détermination d’intervalles de confiance pour ?. En 1979 une nouvelle méthode a été développé. Cette méthode s’appuie sur des concepts simples permettant, à partir d’une réalisation (x1; x2; : : : ; xn) de l’échantillon, d’obtenir une estimation de la variance de s(X) et un intervalle de confiance pour .
On considère que la réalisation de l’échantillon (x1; x2; : : : ; xn) est représentative de la population et on tire parmi les xk, au hasard et avec remise, un échantillon bootstrapé X = (X1 ; X2 ; : : : ; Xn) ; en pratique on tire n nombres au hasard entre 1 et n et on associe au nombre tiré k la valeur Xk . Sur cet échantillon bootstrapé on peut calculer un estimateur s(X ) par le même algorithme que celui qui donne s(X).
On répète le tirage un grand nombre de fois, B, ce qui donne une population de valeurs de s(X ) S = s1; s2; : : : ; sB que l’on peut représenter par un histogramme. Sur cette population on peut calculer une estimation de la moyenne et de l’écart-type :
…
La population S peut être triée par valeurs croissantes ce qui permet de déterminer un intervalle de confiance en gardant une certaine proportion des valeurs centrales. Par exemple si B = 1000 et si les valeurs triées de S sont 1 2 1000 , l’intervalle de confiance à 95% est [ 25; 975].
Table des Matières
Chapitre I. Estimation ponctuelle 5
1. Définitions 5
2. Critères de comparaison d’estimateurs 6
3. Exemples fondamentaux 6
3.a. Estimation de m 6
3.b. Estimation de σ en supposant m connu 7
3.c. Estimation de σ lorsque m est inconnu 7
4. Cas particulier de la loi normale 8
5. Construction d’estimateur par la méthode du maximum de vraisemblance 11
5.a. Cas discret 11
5.b. Cas à densité 12
Chapitre II. Estimation par intervalle 13
1. Définition d’une région de confiance 13
2. Construction de régions de confiance 13
3. Exemples classiques d’estimation par intervalle 15
3.a. Estimation de la moyenne quand la variance est connue 15
3.b. Estimation de la moyenne quand la variance est inconnue 15
3.c. Estimation de la variance quand la moyenne est connue 16
3.d. Estimation de la variance quand la moyenne est inconnue 18
4. Comparaison de moyennes et de variances 18
4.a. Intervalle de confiance de la différence de deux moyenne 18
4.b. Intervalle de confiance du rapport de deux variances 20
5. Estimation d’une proportion 20
5.a. Estimation ponctuelle 21
5.b. Estimation par intervalle 21
5.c. Méthode du Bootstrap 22