Cours d’introduction a l’estimation statistique

Participez au vote ☆☆☆☆☆★★★★★

Cours d’introduction à l’estimation statistique

CHAPITRE I Estimation ponctuelle

En statistique, comme dans la théorie des probabilités le hasard intervient fortement. Mais dans la théorie des probabilités, on suppose la loi connue précisément et on cherche à donner les caractéristiques de la variable qui suit cette loi. L’objectif de la statistique est le contraire : à partir de la connaissance de la variable, que peut-on dire de la loi de cette variable ?

1. Définitions

Soit X une variable aléatoire dont la densité de probabilité f(x; ) dépend d’un paramètre appartenant à I R. A l’aide d’un échantillon issu de X, il s’agit de déterminer au mieux la vraie valeur de . On pourra utiliser deux méthodes :

- estimation ponctuelle : on calcule une valeur vraisemblable de

- estimation par intervalle : on cherche un intervalle dans lequel se trouve avec une probabilité élevée.

Définition 1. Un n-échantillon de X est un n-uplet (X₁; X₂; : : : ; X_n) tel que les X_k ont la même loi que X et sont indépendantes.

Une réalisation de l’échantillon est alors un n-uplet (x₁; x₂; : : : ; x_n) de valeurs prises par l’échantillon.

Définition 2. Une statistique de l’échantillon est une variable aléatoire '(X₁; X₂; : : : ; X_n) où ' est une application de Rⁿ dans R.

Un estimateur T de est une statistique à valeurs dans I. Une estimation est la valeur de l’estimateur correspondant à une réalisation de l’échantillon.

Exemple : X_n = _n¹^X X_k est un estimateur de l’espérance mathématique.

k=1

Définition 3. Le biais de l’estimateur T de est E[T ] . S’il est nul, on dit que T est un estimateur sans biais.

L’estimateur T_n est asymptotiquement sans biais si lim E[T_n] = .

On note souvent le biais b (T ).

Définition 4. L’estimateur est dit convergent si la suite (T_n) converge en probabilité vers :

…

On parle d’estimateur fortement convergent lorsqu’on a convergence presque sûre.

D’après Bienaymé-Tchebychev pour qu’un estimateur asymptotiquement sans biais soit convergent il suﬃt que

Var(T_n) ! 0:

n!+1

2. Critères de comparaison d’estimateurs

Un bon critère de comparaison est le risque quadratique.

Définition 5. Soient T un estimateur de . Le risque quadratique est défini par

R(T; ) = E[(T )²]

On peut alors comparer deux estimateurs.

Définition 6. On dit que T₁ est un meilleur estimateur que T₂ si

8 2 I; R(T₁; ) R(T₂; )

9 2 I; R(T₁; ) < R(T₂; ):

Un estimateur est dit admissible s’il n’existe pas d’estimateur meilleur.

L’erreur quadratique moyenne de T se décompose en deux termes, le carré du biais et la variance de T :

E[(T )²] = b²(T ) + Var(T ):

Cette décomposition permet de se ramener à une discussion sur la variance pour les estimateurs sans biais de .

Définition 7. Soient T₁ et T₂ deux estimateurs sans biais de . On dit que T₁ est un plus eﬃcace que T₂ si

8 2 I; Var(T₁) Var(T₂)

9 2 I; Var(T₁) < Var(T₂):

On parle d’estimateur à variance minimale si seul le premier point est vérifié, c’est-à-dire : Var(T₁) Var(T₂):

3. Exemples fondamentaux

Soit X une variable aléatoire telle que E[X] = m et Var(X) = ².

3.a. Estimation de m.

Théorème 8.

La moyenne empirique X_n = _n¹^X X_k est un estimateur sans biais et convergent de m.

k=1

D’après la loi forte des grands nombres X_n est même fortemement convergent. Il est possible de déterminer la loi asymptotique de la moyenne empirique.

3.b. Estimation de ² en supposant m connu.

Théorème 10.

Lorsque m est connu

¹^X_(Xk_m)2 n

k=1

est un estimateur sans biais et convergent de ².

…

k=1

avec _k= E((X m)^k).

Donc S_n² est un estimateur convergent. La loi forte des grands nombres appliquée aux variables (X_k m)² entraîne même la convergence presque sûre vers ².

Comme dans le cas de la moyenne empirique le TCL nous permet de déterminer la loi asymptotique de S_n² ; on a lorsque n est assez grand :

2	L	2	4	)=n):
^Sn	N (		; ( ₄	)=n):

3.c. Estimation de ² lorsque m est inconnu.

En général on ne connaît pas m ; on le remplace par un estimateur et on introduit la variance empirique associée :

S_n² = _n¹^X(X_k X_n)²:

k=1

Théorème 11.

La variance empirique S_n² est un estimateur biaisé et convergent de ². Il est asymptotique-ment sans biais.

Chapitre I. Estimation ponctuelle

D’autre part, on peut montrer que :

Var(S_n²) = _n¹₄⁴_n²_{2 4} 2 ⁴ + _n¹_{3 4} 3 ⁴ ! 0

avec _k= E((X m)^k). L’estimateur est donc convergent.

Le résultat précédent et le lemme de Slutsky (Probabilité 2, Jean-Yves Ouvrard, p. 347) permet de déterminer la loi asymptotique de S_n² :

…

Théorème 12.

La variance empirique corrigée

k=1

est un estimateur sans biais et convergent de ².

Cela se montre facilement en remarquant que

^Scn²⁼_n₁^Sn²^:

4. Cas particulier de la loi normale

On suppose dans ce paragraphe que X suit la loi normale N (m; ²). On sait que X_n = _n¹^X X_k suit

4. Cas particulier de la loi normale

Définition 13. Soient X₁; : : : ; X_n, n variables aléatoires indépendantes identiquement distribuées de loi N (0; 1). La loi du ² à n degrés de liberté est la loi de la variable aléatoire

Comme B est une matrice symétrique, il existe une matrice orthogonale U et une matrice diagonale D telle que B = U DU^t

Or les valeurs propres de B sont :

la valeur propre simple 0 dont le sous-espace propre associé a pour équation x₁ = = x_n ;
la valeur propre d’ordre (n 1) égale à 1 dont le sous-espace propre associé a pour équation

x₁ + x₂ + + x_n = 0

En ordonnant convenablement la base de vecteurs propres on peut choisir

010

D =	B	^.._{. .}.^.C
	B	C
	B	C

5. Construction d’estimateur par la méthode du maximum de vraisemblance

On a Y = BX = U DU^tX et X

(X_k X_n)² = Y ^tY = X^tU DU^tU DU^tX = (U^tX)^tD(U^tX)

k=1

Or le vecteur aléatoire Z = U^tX est gaussien de loi N (0; U^tI_nU) = N (0; U^tU) = N (0; I_n). D’où

On en déduit immédiatement que si (X₁; : : : ; X_n) est un échantillon d’une variable aléatoire N (m; ²) la variable aléatoire

le résultat découle de ce qui précède.

5. Construction d’estimateur par la méthode du maximum de vraisemblance

5.a. Cas discret. On suppose donnée une observation X tirée selon une loi P , 2 . On supposera ici que P est discrète et on pose :

f (x) = P (X = x):

On appelle alors fonction de vraisemblance la fonction L_X ( ) = f (X). Quand on dispose d’un n échantillon (X₁; : : : ; X_n) de loi P , la vraisemblance s’écrit alors

Y ^LX₁;:::;X_n^{( ) =}^f^(Xi^):

i=1 ^

Lorsque la fonction de vraisemblance admet un unique maximum atteint en = g_n(X₁; : : : ; X_n), on peut utiliser cette valeur pour estimer . On dit alors que

T = g_n(X₁; : : : ; X_n)

est l’estimateur par maximum de vraisemblance de .

Cet estimateur est naturel puisqu’il conduit à privilégier la valeur de la "plus probable" au vu de l’observation. Il possède en général de bonnes propriétés. L’inconvénient est que ce maximum peut ne pas exister ou ne pas être unique et il peut être diﬃcile à exhiber.

En pratique, la recherche de ce maximum se fait par dérivation de L relativement à . On peut de ma-nière équivalente maximiser le logarithme de la vraisemblance (la fonction logarithme étant croissante, maximiser la vraisemblance et la log-vraisemblance revient au même, mais souvent les calculs sont plus simples).

Exemple : Estimation du paramètre d’une loi de Bernoulli.

Ici on suppose =]0; 1[ et les X_i suivent une loi de Bernoulli de paramètre 2 . On a

8 < f (x) = P (X = x) = 1: ₀

si x = 1 si x = 0 sinon

Chapitre I. Estimation ponctuelle

Posons S_n = X₁ + + X_n. Ainsi S_n est le nombre de 1 dans l’échantillon et n S_n le nombre de 0. La vraisemblance et la log-vraisemblance s’écrivent alors :

L_X₁_;:::;Xn ( ) = ^Sn (1 )^{n Sn} lnL_X₁_;:::;Xn ( ) = S_nln + (n S_n)ln(1 ):

Un calcul montre alors que le maximum est atteint en

_^1 = n S_n:

Par conséquent l’estimateur de par maximum de vraisemblance est

…

qui est également l’estimateur de la moyenne.

5.b. Cas à densité. On suppose donnée une observation X tirée selon une loi P , 2 . On supposera ici que P admet une densité par rapport à la mesure de Lebesgue notée f .

On appelle alors fonction de vraisemblance la fonction L_X ( ) = f (X). Quand on dispose d’un n échantillon (X₁; : : : ; X_n) on a la vraisemblance

Y ^LX₁;:::;X_n^{( ) =}^f^(Xi^):

i=1

Ensuite, on procède comme dans le cas discret.

Exemple : On cherche à estimer le paramètre inconnu d’une loi exponentielle. La vraisemblance s’écrit :

N L_X₁_;:::;Xn ( ) = exp ( ^XX_i= ) ^Pni⁼¹^Xi

i=1^

Le maximum est atteint en un unique point _n = X_n:

CHAPITRE II Estimation par intervalle

1. Définition d’une région de confiance

Soit 2]0; 1[ un niveau de risque fixé par le statisticien.

Définition 1. Une région de confiance de de niveau de confiance 1 est un ensemble (dépendant de l’observation mais pas du paramètre inconnu ), C(X) , telle que

8 2 ; P ( 2 C(X)) 1

On dit alors qu’on a une région par excès. Dans le cas où on a égalité on parle de niveau exactement égal à 1 .

Lorsqu’on a X = (X₁; : : : ; X_n), on parle de région de confiance asymptotique de niveau 1 , si

8 2 ;	lim
	_n!₊₁^P⁽²^C(X1^{; : : : ; X}n⁾⁾¹

Les valeurs usuelles de sont 1%, 5% ou 10%. Dans le cas unidimensionnel, la plupart du temps, une région de confiance s’écrit sous la forme d’un intervalle (unilatère ou bilatère). Un intervalle de confiance de niveau de confiance 95% a une probabilité au moins égale à 0; 95 de contenir la vraie valeur inconnue . Par passage au complémentaire, le niveau de risque correspondant à une majoration de la probabilité que la vraie valeur du paramètre ne soit pas dans C(X). A niveau de confiance fixé, une région de confiance est d’autant meilleure qu’elle est de taille petite. Avant d’aller plus loin, rappelons la notion de quantile d’une loi de probabilité.

Définition 2. Soit 2]0; 1[. On appelle quantile d’ordre d’une loi de probabilité P, la quantité z = inf fx; P(] 1; x]) g:

Par exemple pour la loi N (0; 1), le quantile d’ordre 97; 5% est 1:96, et celui d’ordre 95% est 1:645.

2. Construction de régions de confiance

Une première méthode consiste à appliquer l’inégalité de Bienaymé-Tchebychev. Rappelons que si X est une variable aléatoire ayant un moment d’ordre 2, alors

8" > 0; P(jX E(X)j > ") ^Var(X)

"²

Appliquons cette inégalité dans le cas de variables aléatoires idépendantes X₁; : : : ; X_n identiquement distribuées de loi de Bernoulli B( ), où l’on souhaite estimer à l’aide de X_n. On a

Pour = 5% et n = 100, la précision de l’intervalle est 0:14 et 0:23 avec la première méthode. Il peut s’avérer plus pratique de chercher un intervalle de confiance asymptotique.

Supposons que nous cherchions un intervalle de confiance pour un paramètre à partir d’un échantillon de taille n de loi P . Lorsqu’on dispose de suﬃsamment de données et pour les modèles les plus classiques, le théorème central limite s’avère être un très bon outil, pour obtenir un intervalle de confiance asymptotique. Par exemple si on souhaite estimer la moyenne d’une variable aléatoire dont on connait la variance ² = 1. On prend un n-échantillon (X₁; : : : ; X_n). L”application du TCL donne :

On obtient alors l’intervalle de confiance asymptotique de niveau suivant

où q₁₌₂est le quantile d’ordre 1 =2 de la loi N (0; 1).

Ce n’est pas toujours aussi évident. Si on part d’une variable aléatoire de Bernoulli dont on veut estimer le paramètre . En considérant l’estimateur du maximum de vraisemblance X_n, le TCL donne :

Ici la loi limite dépend de ce qui est gênant pour construire un intervalle de confiance. Dans ce cas, on peut surmonter ce problème, en remarquant que (1 ) 0:25. On obtient donc un intervalle de confiance asymptotique : X_n₂p_n

Dans le cas où on considère (X₁; : : : ; X_n) un échantillon de loi de Poisson de paramètre > 0 à estimer, le TLC donne :

Des outils plus élaborés doivent être utilisés pour construire un intervalle de confiance si on ne connaît pas de majorant de . Le lemme de Slutsky permet de surmonter certaines diﬃcultés comme le montre l’exemple suivant.

…

ce qui signifie que sur un grand nombre d’expériences cet intervalle contiendra eﬀectivement m dans 95% des cas en moyenne.

3.b. Estimation de la moyenne quand la variance est inconnue.

Définition 5. Soient X et Y deux variables aléatoires indépendantes suivant respectivement la loi normale centrée réduite et la loi du ² à n degrés de liberté. La variable aléatoire

Cette variable n’a pas d’espérance pour n = 1 et pas de variance pour n 2. Sinon on a E(T ) = 0 et

Var(T ) = n=(n 2).

Chapitre II. Estimation par intervalle

^fT_k

Théorème 6.

Lorsque ²est inconnu un intervalle de confiance au niveau1 de m est

où t_n₁_;₁₌₂est le quantile d’ordre 1 =2 de la loi de Student à n 1 degrés de liberté.

Cela provient du résultat précédent et de l’estimation de ²parS^c_n².

Exemple : pour n = 10, avec un niveau de confiance de 95% et un intervalle symétrique on obtient l’intervalle

…

L’intervalle de confiance est plus grand que celui obtenu lorsqu’on connaît la variance.

3.c. Estimation de la variance quand la moyenne est connue.

Théorème 7.

Lorsque m est connu un intervalle de confiance au niveau 1 de ²est

1	n	1	n
u₂	(X_k m)²	^; u₁	(X_k m)²
	X		X
	k=1		k=1

où u₁ et u₂ sont les quantiles d’ordre =2 et 1 =2 de la loi du ²àndegrés de liberté.

Exemples d’intervalles bilatères et unilatères pour la loi du ²:

…

k=1

Chapitre II. Estimation par intervalle

D’où on en déduit le résultat.

3.d. Estimation de la variance quand la moyenne est inconnue.

Théorème 8.

Lorsque m est inconnu un intervalle de confiance au niveau 1 de ²est

…

où u₁ et u₂ sont les quantiles d’ordre =2 et 1 =2 de la loi du ²àn1degrés de liberté.

Démonstration. On estime m par X_n, puis suit une loi du ²àn 1 degrés de liberté. Ensuite on procède comme dans la preuve précédente.

Lorsqu’on s’intéresse à l’écart-type on prend les racines carrées des bornes des intervalles obtenus pour la variance.

4. Comparaison de moyennes et de variances

Soient (X₁; X₂; : : : ; X_n₁ ) un échantillon d’une population suivant la loi normale N (m₁; ₁²) et (Y₁; Y₂; : : : ; Y_n₂ ) un échantillon d’une population suivant la loi normale N (m₂; ₂²) ; ces deux échantillons sont supposés indépendants. Nous souhaitons comparer les moyennes, m₁ et m₂, et les variances, ₁² et ₂², à l’aide de ces échantillons. Pour cela nous allons construire des intervalles de confiance pour m₁ m₂ et pour ₁² et

…

Lorsqu’on ₁ et ₂ sont inconnues mais non nécessairement égales, on utilise la méthode approchée suivante.

…

Le résultat s’obtient par les mêmes méthodes que pour les théorèmes précédents.

La loi de Fisher-Snedecor peut être obtenue comme le quotient de deux lois du ²indŐpendantes :

²_n₁=(n₁ 1)

^F⁽ⁿ¹^{1; n}²^{1) =}2 ¹_=(n₂₁₎ n₂1

5. Estimation d’une proportion

Dans une certaine population, la proportion d’individus ayant une propriété donnée est égale à p. Soit X le nombre d’individus d’un échantillon de taille n ayant la propriété.

5. Estimation d’une proportion

5.a. Estimation ponctuelle.

Théorème 14.

Un estimateur sans biais et consistant de p est :

T = ^X_n

En eﬀet, le nombre X d’individus de l’échantillon ayant la propriété suit la loi binomiale B(n; p). On a :

(T ) =	E(X)	= p	et Var	(T ) =	Var(X)	=	p(1 p)
	n				_n2		n!
E

5.b. Estimation par intervalle.

On ne sait pas déterminer exactement un intervalle de confiance. On utilise des solutions approchées, qui fonctionnent lorsqu’on dispose d’échantillon de grande taille. Ainsi, lorsque n est grand ou=et p voisin de 0; 5 on peut approcher la loi binomiale par une loi normale.

Rappel : Soit une suite de variables aléatoires Z_n suivant la loi binomiale B(n; p) ; la suite des variables

…

Le paramètre p doit donc être compris entre les racines de l’équation du second degré. On vérifie aisément qu’elle a deux racines réelles appartenant à l’intervalle [0; 1]. D’où, on obtient l’intervalle de confiance indiqué.

5.c. Méthode du Bootstrap

A partir d’un échantillon X = (X₁; X₂; : : : ; X_n) on détermine un estimateur ponctuel s(X) d’un paramètre . Sauf dans quelques cas particuliers (s(X) = X_n par exemple) le calcul de la variance n’est pas aisé, ce qui rend problématique la détermination d’intervalles de confiance pour ?. En 1979 une nouvelle méthode a été développé. Cette méthode s’appuie sur des concepts simples permettant, à partir d’une réalisation (x₁; x₂; : : : ; x_n) de l’échantillon, d’obtenir une estimation de la variance de s(X) et un intervalle de confiance pour .

On considère que la réalisation de l’échantillon (x₁; x₂; : : : ; x_n) est représentative de la population et on tire parmi les x_k, au hasard et avec remise, un échantillon bootstrapé X = (X₁ ; X₂ ; : : : ; X_n) ; en pratique on tire n nombres au hasard entre 1 et n et on associe au nombre tiré k la valeur X_k . Sur cet échantillon bootstrapé on peut calculer un estimateur s(X ) par le même algorithme que celui qui donne s(X).

On répète le tirage un grand nombre de fois, B, ce qui donne une population de valeurs de s(X ) S = s₁; s₂; : : : ; s_B que l’on peut représenter par un histogramme. Sur cette population on peut calculer une estimation de la moyenne et de l’écart-type :

…

La population S peut être triée par valeurs croissantes ce qui permet de déterminer un intervalle de confiance en gardant une certaine proportion des valeurs centrales. Par exemple si B = 1000 et si les valeurs triées de S sont _{1 2 1000} , l’intervalle de confiance à 95% est [ ₂₅; ₉₇₅].

Table des Matières

Chapitre I. Estimation ponctuelle 5

1. Définitions 5

2. Critères de comparaison d’estimateurs 6

3. Exemples fondamentaux 6

3.a. Estimation de m 6

3.b. Estimation de σ en supposant m connu 7

3.c. Estimation de σ lorsque m est inconnu 7

4. Cas particulier de la loi normale 8

5. Construction d’estimateur par la méthode du maximum de vraisemblance 11

5.a. Cas discret 11

5.b. Cas à densité 12

Chapitre II. Estimation par intervalle 13

1. Définition d’une région de confiance 13

2. Construction de régions de confiance 13

3. Exemples classiques d’estimation par intervalle 15

3.a. Estimation de la moyenne quand la variance est connue 15

3.b. Estimation de la moyenne quand la variance est inconnue 15

3.c. Estimation de la variance quand la moyenne est connue 16

3.d. Estimation de la variance quand la moyenne est inconnue 18

4. Comparaison de moyennes et de variances 18

4.a. Intervalle de confiance de la différence de deux moyenne 18

4.b. Intervalle de confiance du rapport de deux variances 20

5. Estimation d’une proportion 20

5.a. Estimation ponctuelle 21

5.b. Estimation par intervalle 21

5.c. Méthode du Bootstrap 22

Télécharger