Cours de statistique : estimations et intervalles de confiance
Résumé
Cette vignette introduit la notion d’estimateur et ses propriétés : convergence, biais, erreur quadratique, avant d’aborder l’estimation ponctuelle de paramètres de loi : proportion, moyenne, variance. La connaissance des lois de ce estimateurs permet l’estimation par in-tervalle de confiance et donc de préciser l’incertitude sur ces esti-mations : intervalle de confiance d’une proportion, d’une moyenne si la variance est connue ou non, d’une variance.
Introduction
Le cadre est le suivant : on dispose de données observées (en nombre fini) et l’on désire tirer des conclusions de ces données sur l’ensemble de la popu-lation. On fait alors une hypothèse raisonnable : il existe une loi de probabilité sous-jacente telle que les “valeurs observables" des différents éléments de la population étudiée puissent être considérées comme des variables aléatoires indépendantes ayant cette loi.
Un aspect important de l’inférence statistique consiste à obtenir des “esti-mations fiables" des caractéristiques d’une population de grande taille à partir d’un échantillon extrait de cette population. C’est un problème de décision concernant des paramètres qui le plus souvent sont :
– l’espérance mathématique ;
– la proportion p ;
– la variance 2.
Ces paramètres sont a priori inconnus car la taille réelle de la population étant très grande, il serait trop coûteux de tester tous les éléments de la population. Ainsi, comme un échantillon ne peut donner qu’une information partielle sur la population, les estimations que l’on obtiendra seront inévitablement entachées d’erreurs qu’il s’agit d’évaluer et de minimiser autant que possible.
En résumé, estimer un paramètre inconnu, c’est en donner une valeur ap-prochée à partir des résultats obtenus sur un échantillon aléatoire extrait de la population sous-jacente.
Exemple : Un semencier a récolté 5 tonnes de graines de Tournesol. Il a besoin de connaître le taux de germination de ces graines avant de les mettre en vente. Il extrait un échantillon de 40 graines, les dépose sur un buvard humide et compte le nombre de graines ayant évolué favorablement. On remarque que ce contrôle est de type destructif : l’échantillon ayant servi au contrôle ne peut plus être commercialisé. Il s’agit donc d’évaluer la proportion p des graines de la population à grand effectif, présentant un certain caractère X : succès de la germination. Même avec une population d’effectif restreint, un contrôle destructif impose de faire confiance à un échantillon restreint et la valeur exacte de p ne peut être calculée.
Le modèle s’écrit comme n réalisations xi de v.a.r. indépendantes de Ber-noulli Xi définies par :
…
vidus ayant le caractère X dans l’échantillon. En effet, la LGN nous assure de
la convergence en probabilité de la v.a.r. X = 1Pn Xi vers l’espérance de
n i=1
X1, c’est-à-dire p ; X est l’estimateur de la proportion p et p est estimée par
la réalisation xn de X. Dans l’expérience de germination, 36 graines ont eu une issue favorable avec xi = 1. La proportion estimée est x = 40=36 = 0; 9 C’est une estimation dite ponctuelle. D’autre part, dans toute discipline scien-tifique, il est important d’avoir une indication de la qualité d’un résultat ou encore de l’erreur dont elle peut-être affectée. Ceci se traduit en statistique par la recherche d’un intervalle, dit intervalle de confiance, dont on peut assurer, avec un risque d’erreur contrôlé et petit, que cet intervalle contient la “vraie” valeur inconnue du paramètre.
Dans la suite nous nous intéresserons donc à deux types d’estimations :
– soit une estimation donnée par valeur scalaire issue des réalisations des v.a.r. Xi : l’estimation ponctuelle ;
– soit une estimation donnée par un ensemble de valeurs appartenant à un intervalle : l’estimation par intervalle de confiance contrôlé par un risque d’erreur fixé a priori.
Estimation ponctuelle
2.1 Estimateur
Convergence
DÉFINITION 1. — Un n-échantillon aléatoire issu d’une v.a.r. X est un en-semble (X1; : : : ; Xn) de n v.a.r. indépendantes et de même loi que X.
Exemple : Considérons une v.a.r. X représentant le nombre de grippes attra-pées par une personne en un an. On peut supposer que X suit une loi de Poisson de paramètre > 0. Chercher la loi de X, c’est chercher , qui n’est autre que
l’espérance mathématique de X. Par conséquent, la LGN nous indique que Xn est un estimateur convergent de : pour tout > 0,
Soit un paramètre associé à la loi de X, par exemple = E(X) ou = Var(X). À partir de l’observation d’un échantillon aléatoire (X1; : : : ; Xn), on souhaite estimer le paramètre .
DÉFINITION 2. — Un estimateur bn de est une fonction qui dépend unique-ment du n-échantillon (X1; : : : ; Xn). Il est dit convergent s’il est “proche" de au sens de la convergence en probabilité : pour tout > 0,
Dans l’exemple de l’introduction, la quantité n1 … est un estimateur convergent de p et si, par exemple, on a observéP pièces défectueuses sur un lot de 1500 pièces prélevées, l’estimation ponctuelle de p obtenue est xn = 21=1500 = 1; 4%.
Pour estimer l’espérance des variables aléatoires Xi, on utilise la moyenne empirique
car par la LGN, on sait qu’elle converge en probabilité vers l’espérance
= E(X1).
Le but de la théorie de l’estimation est de choisir, parmi toutes les statistiques possibles, le “meilleur" estimateur convergent, c’est-à-dire celui qui donnera une estimation ponctuelle la plus proche possible du paramètre et ceci, quel que soit l’échantillon.
Grâce à l’inégalité de Chebychev, on peut démontrer le théorème suivant :
THÉORÈME 3. — Soit bn un estimateur de . Si l’on a :
lim | et | lim | Var(bn) = 0; |
n!+1E(bn) = | n!+1 |
alors bn est un estimateur convergent de .
Biais
DÉFINITION 4. — Soit bn un estimateur convergent d’un paramètre . On appelle biais la quantité E(bn) . L’estimateur bn est dit sans biais si E(bn) = , et biaisé sinon.
Exemple : La moyenne empirique Xn est un estimateur convergent et sans biais de l’espérance mathématique .
Écart quadratique moyen
Notons que l’on a
E | n(n)2o | = E | n( n E( n) + E( n) )2o |
= E (bn E(bn))2 + (E(bn) )2 + 2(bn E(bn))(E(bn)
= Var(bn) + (biais)2;
n o
car le terme E (bn E(bn))(E(bn) ) est nul. Ainsi, pour rendre l’écart
quadratique moyen E (bn )2 le plus petit possible, il faut que
– E(bn) = , donc choisir un estimateur sans biais,
– la variance Var(bn) soit faible.
On choisira donc, parmi les estimateurs convergents et sans biais, celui qui a la variance la plus petite. En d’autres termes, si bn est un estimateur convergent et sans biais de , on a tout intérêt à ce que bn ne varie pas trop autour de sa moyenne. Cette propriété traduit ce que l’on appelle l’efficacité de l’estimateur.
Remarque : Puisque E(Yi) = 0; on a E(Yi2) = Var(Yi) = 1. Si V suit une loi 2(n), alors
E(V ) = E(Y12 + : : : + Yn2) = n:
2.2 Estimateur d’une moyenne ou d’une proportion
On considère un n-échantillon (X1; : : : ; Xn) issu d’une loi de moyenne et de variance 2, toutes deux inconnues.
1. d’après la LGN, la moyenne empirique Xn est un estimateur convergent de .
2. l’estimateur Xn est sans biais.
3. par indépendance : Var(Xn) = 2 :
loi de Xn :
– si X N ( ; 2), alors Xn N ( ; 2=n).
– lorsque n est grand, d’après le TCL, la loi de Xn est approchée par une loi normale N ( ; 2=n).
L’estimation d’une proportion p est un cas particulier du précédent, au sens où les v.a.r. Xi considérées sont de Bernoulli de paramètre p.
2.3 Estimateur de la variance
DÉFINITION 6. — Soit (Y1; : : : ; Yn) un n-échantillon de v.a.r. de loi N (0; 1).
On appelle loi du chi-deux à n degrés de liberté la loi de la v.a.r. Pn Yi2, et
i=1
on la note 2(n).
Propriétés de la variance empirique :
1. Sn2 est un estimateur convergent de la variance 2.
Ainsi on retrouve le fait que Sn2 est un estimateur convergent et sans biais de
…
Estimation par intervalle de confiance
Pour l’estimation ponctuelle, on considère
– un paramètre inconnu ,
– un ensemble de valeurs observées (x1; : : : ; xn), réalisations d’un n-échantillon aléatoire (X1; : : : ; Xn), et son estimation ponctuelle xn =
1 Pnx .
n i=1i
Les estimations ponctuelles n’apportent pas d’information sur la précision des résultats, c’est-à-dire qu’elles ne tiennent pas compte des erreurs dues aux fluc-tuations d’échantillonnage. Pour évaluer la confiance que l’on peut avoir en une valeur, il est nécessaire de déterminer un intervalle contenant, avec une certaine probabilité fixée au préalable, la vraie valeur du paramètre : c’est l’es-timation par intervalle de confiance.
3.1 Définition d’un intervalle de confiance
Soit (X1; : : : ; Xn) un n-échantillon aléatoire et un paramètre inconnu de la loi des Xi.
DÉFINITION 7. — Soit 2]0; 1[. S’il existe des v.a.r. min(X1; : : : ; Xn) et max(X1; : : : ; Xn) telles que
P 2 [ min(X1; : : : ; Xn); max(X1; : : : ; Xn)] = 1 ;
on dit alors que [ min(X1; : : : ; Xn); max(X1; : : : ; Xn)] est un intervalle de confiance pour , avec coefficient de sécurité 1 : On le note IC1 ( ).
Dans la pratique, on peut prendre par exemple = 5%, ce qui nous donne un IC à 95%. Cela signifie qu’il y a 95% de chance que la valeur inconnue soit comprise entre min(x1; : : : ; xn) et max(x1; : : : ; xn).
3.2 Intervalle de confiance pour la moyenne et la va-riance dans le cas d’un échantillon gaussien
Soit (X1; : : : ; Xn) un n-échantillon de v.a.r. de loi N ( ; 2).
Estimation de l’espérance lorsque la variance 2 est connue
Pour estimer , on utilise la moyenne empirique | 1 | P | n | ||||
X | = | X | |||||
loi N ( ; 2=n). Il en résulte que | n | n | i=1 | i qui a pour |
Estimation de l’espérance lorsque la variance 2 est inconnue
Lorsque la variance 2 est inconnue, il est alors nécessaire de remplacer dans les formules précédentes cette quantité par la variance empirique, qui en est un estimateur convergent. Il faut donc considérer non plus la quantité
pnXn mais plutôt
pn Xn; Sn
qui ne suit plus une loi normale mais une loi dite de Student à n 1 degrés de liberté, que l’on note Tn1. La densité de la loi de Student est une fonction paire, comme la loi normale N (0; 1). On dispose de tables pour obtenir les quantiles de cette loi. On en déduit donc que
pnXn N(0;1);
et que
P z1=2 n Xn z1=2 = 1 :
On obtient donc un IC pour l’espérance avec coefficient de sécurité 1 dans le cas où est connu : il s’agit de l’intervalle aléatoire
…
où xn est l’estimation ponctuelle de associée à la réalisation du n-échantillon
(X1; : : : ; Xn).
ce qui équivaut à
où xn et s2n sont les estimations ponctuelles respectives de la moyenne et de la variance 2.
Remarque : Si les v.a.r. X1; : : : ; Xn ne sont pas gaussiennes mais que n est assez grand (en pratique supérieur à 30), alors le TCL nous garantit que la moyenne empirique suit approximativement la loi N ( ; 2=n). Ainsi, dans le cas où l’on souhaite estimer l’espérance lorsque la variance est connue, l’IC est identique à celui déterminé lorsque les v.a.r. X1; : : : ; Xn suivent la loi N ( ; 2).
Estimation de la variance 2
On estime la variance 2, supposée inconnue, par la variance empirique
…
c’est-à-dire que Sn2 est un estimateur sans biais de 2. De plus, on lit dans des tables les quantiles d’ordre =2 et 1 =2 de la loi du 2(n1), respectivement notés v =2 et v1=2 (il est normal que les quantiles qui nous intéressent ne soient pas opposés car la densité de cette loi n’est pas paire, à l’inverse de la loi normale centrée réduite). On obtient alors
…
On obtient donc un IC pour la variance 2 avec coefficient de sécurité 1 : il s’agit de l’intervalle aléatoire
(n 1)Sn2 | ; | (n 1)Sn2 | |
v1 =2 | v =2 |
3.3 Intervalle de confiance pour la proportion
Revenons à l’exemple introductif : on cherche à estimer la proportion de graines défectueuses du lot de céréales. On prélève un lot de n graines et on note Xi la v.a.r. qui vaut 1 si la graine i germe, et 0 sinon. On estime par
…
Ceci ne fournit pas un IC pour car les bornes de l’intervalle dépendent de . Mais on peut montrer que l’on a le même résultat de convergence, en remplaçant dans les bornes de l’intervalle par son estimateur convergent Xn. On obtient alors
On dit que l’intervalle
…
Pour = 5%, on lit dans les tables z1=2 = z97;5% = 1; 96: Ainsi, le semencier en déduit qu’ayant observé 36 graines germées sur 40, l’intervalle de confiance asymptotique pour est [0:807; 0:993] ; il suffit de remplacer dans les calculs la moyenne empirique aléatoire Xn par l’estimation ponctuelle xn = 36=40).
3.4 Exemple
Une entreprise chimique commercialise un polymère servant à la fabrication de microprocesseurs et stocké dans une cuve dont la caractéristique à contrôler est la viscosité ; celle-ci doit être comprise entre 75 et 95 pour pouvoir com-mercialiser le polymère. Quatre extractions ont été réalisées dans des zones dif-férentes de la cuve et ont conduit aux valeurs de l’échantillon :x1 = 78; x2 = 85; x3 = 91; x4 = 76, réalisation des variables aléatoires X1; X2; X3; X4. L’entreprise a besoin d’estimer la viscosité et aussi de connaître la précision de cette estimation. Ayant choisi a priori un seuil de 5%, il s’agit de fournir aux clients des intervalles de confiances à 95% pour .
Estimations ponctuelles
– Le modèle considère que les variables Xi sont indépendantes selon une loi N ( ; 2) ; représente la moyenne de la viscosité dans la cuve tandis que 2 prend en compte la variabilité de la viscosité au sein de la cuve et celle due à l’erreur de mesure.
– Les paramètres sont la moyenne et la variance 2.
– Les estimateurs sont X de et S2 de 2.
– Les estimations ponctuelles sont x = 82:5 et s = 6:86.
Intervalle de confiance de avec 2 connue
Il est admis que la variabilité du processus de fabrication est constante et connue avec = 5. Dans ce cas, l’estimateur de est gaussien, z1=2 = 1:96 et les formules précédentes conduisent à l’estimation de l’intervalle de confiance de :
[82:5 1:96 5=2; 82:5 + 1:96 5=2] = [77:6; 87:4]:
L’intervalle obtenu est bien à l’intérieur de la spécification ([75; 95]).
Intervalle de confiance de avec 2 estimée
La variance n’est plus supposée constante et connue, elle doit être estimée. L’estimation de l’écart-type est s = 6:86. Celui-ci est certes plus important que la valeur théorique précédente mais surtout, l’estimateur de la moyenne suit maintenant une loi de Student à n 1 = 3 degrés de liberté. La table de la loi en question fournit le 1 =2-quantile t3;0:975 = 3:182. L’intervalle de confiance devient alors :
[82:5 3:182 6:86=2; 82:5 + 3:182 6:86=2] = [71:6; 93:4]:
L’intervalle n’est pas contenu dans la spécification. Notez l’augmentation sen-sible de la taille de cet intervalle par le simple fait de devoir estimer la variance plutôt que de la supposer connue ;
Intervalle de confiance de 2
L’estimateur de la variance suit une loi du chi-deux à = (n 1) = 3 degrés de liberté. Attention, la loi n’est pas symétrique et il faut chercher les deux quantiles à gauche et à droite dans la table ; 23;0:025 = 0:218 et 23;0:975 = 9:35. Avec s = 6:86, l’intervalle de confiance s’écrit :
3 6:862 | ; | 3 6:862 | = [3:9; 25:4]: |
9:35 | 0:218 |
La taille de cet intervalle, souligne le manque de précision de l’estimation de l’écart-type, la taille de l’échantillon y est pour beaucoup.