Cours et exercices en statistique : estimation et intervalle de confiance
1. Introduction
On s’intéresse à l’étude d’un caractère(quantitatif ou qualitatif) des N individus d’une population. Pour chacun des individus de la population, le caractère peut a priori prendre des valeurs aléatoirement différentes. Ainsi, le caractère peut être représenter par unevariable aléatoireX.
Lorsque le caractère est quantitatif (taille des individus,...), X sera une variable aléatoire égale aux valeurs du caractère ; on supposera en général queX est une variable aléatoire d’espérance mathématique (moyenne) , d’ écart-type , et éventuellement deloi normale.
Lorsqu’on n’a pas accès à l’ensemble de la population, on pro cède à un échantillonnage, i.e. au choix de n individus dans la population, sur lesquels on observe la valeur x du caractère X. On aura ainsi un échantillon X1, X2, . . . , Xnest unéchantillon de taillen de X ; pour tout i 1, . . . , n, la variable aléatoireXicorrespondaux valeurs du caractère du i-ème individu obtenu par échantillonage, et aura donc lamême loi deprobabilité queX. De plus, l’échantillonnage étant non-exhaustif (tiragesavec remise), les variablesaléatoiresXi sont indépendantes.
Exemple introductif sur la moyenne
On considère un groupe de quatre enfants, Alexis, Benjamin,Cyril et David, d’âges respectifs 12, 13, 14 et 15 ans. Lorsqu’on choisit un enfant au hasard dans le groupe, on peut considérer :
- X, âge de l’enfant, variable aléatoire de loi uniforme sur 12, 13, 14, 15 :
P X 12 P X 15 14 , de moyenne 13, 5 et d’écart-type 1. 25 1. 118 ;
Cherchons à retrouver ou à approcher ces résultats à partir d ’échantillons non-exhaustifs (avec remise) de taille n 3. Il y en a 43 64, ils forment un univers , ensemble des résultats possibles de l’expérience aléatoire "choisir un échantillon". On peut munir de la tribu des événementsA P et de l’équiprobabilitéP sur , A . A chacun des résultats (échantillons) , on peut associer la moyenne
X x des âges de l’échantillon. On obtient les résultats présentés dans le tableau page 2.On définit ainsi une variable aléatoireX, dont on peut obtenir la loi de probabilité :
xi | 12, 00 | 12, 33 | 12, 67 | 13, 00 | 13, 33 | 13, 67 | 14, 00 | 14, 33 | 14, 67 | 15, 00 | ||
P | xi | 1/64 | 3/64 | 6/64 | 10/64 | 12/64 | 12/64 | 10/64 | 6/64 | 3/64 | 1/64 | |
X |
On peut alors calculer :
- E Xxi P Xxi 13, 5 : on remarque que E XE X .
2. Estimateur - Estimation
2.1. Moyenne et variance d’ échantillon
Considérons un caractère quantitatif représenté par une rivable aléatoireX d’espérance mathématique , d’écart-type , et un échantillon X1, X2, . . . , Xn de taille n de X.
…
3. Intervalle de confiance
3.1. Pour une moyenne
Considérons un caractère quantitatif représenté par une rivable aléatoireX d’espérance mathématique ,
…
3.1.1.1. en remplaçant par sc et on obtient un intervalle de confiance approché deau niveau 1 :
3.2. Pour une variance2
Considérons un caractère quantitatif représenté par une rivable aléatoireX de loi normale N ; , et un échantillon X1, X2, . . . , Xn de taille n de X. La moyenne d’échantillon est d’échantillon estSc2 et la variance corrigée
3.3. Exemple
Un échantillon de 30 enfants d’une ville donnée à fourni les tailles suivantss (en cm) :
70 | 85 | 93 | 99 | 101 | 105 | 110 | 121 | 138 | 166 |
74 | 85 | 93 | 99 | 102 | 106 | 110 | 125 | 140 | 180 |
79 | 87 | 94 | 99 | 102 | 107 | 114 | 128 | 147 | 180 |
On peut considérer la situation suivante. Population : les enfants de la ville considérée.
Caractère : la taille, variable aléatoire de moyenne et de variance 2 (écart-type ). Echantillon X1, X2, . . . , Xn de taille n 30 de X.
Observation de l’échantillon : x1, x2, . . . , xn 70, 74, 79, . . . , 180 .
1) Estimateurs
…
4. Test de conformité
4.1. Pour une moyenne
Considérons un caractère quantitatif représenté par une rivable aléatoireX d’espérance mathématique , d’écart-type , et un échantillon X1, X2, . . . , Xn de taille n de X. La moyenne d’échantillon estX1n
…
4.1.1. Cas d’ un petit échantillon gaussien:n30 et X de loi normale N; 4.1.1.1. Cas connu (exemple introductif)
Il s’agit de faire un choix entre plusieurs hypothèses possibles sur sans disposer d’informations suffisantes pour que ce choix soit sûr. On met en avant deux hypothèses privilégiées l’hypothèse: nulle H0 et l’hypothèse alternative H1. Par exemple, on testera H0:0contre H1:0, avec0fixéarbitrairement. On veut savoir si l’on doit rejeter H0 ou pas.
Test (bilatéral)de H0: 0contreH1 : 0.
On utilise alors une variable aléatoire dont on connait la loi de probabilité lorsqueH0 est vraie. Par
On fixe une valeur0, 1 . En général, on prend petit, le plus souvent 0, 05, 0, 01, 0, 001. On peut | |||
trouver un réelu tel que P u | U u1. Ce réelu peut être trouvé dans la table 2. | ||
On est donc amené à comparer la moyenne | de l’échantillon à la moyenne théorique0. | ||
X | |||
L’hypothèse H0 signifiera que les différences observées sont seulement dûes aux fluctuations | |||
d’échantillonnage (i.e. ne sont pas significatives). | |||
On ne rejettera pas H0 si les différences observées ne sont pas significatives, c’est-à-dire si U est "petite", | |||
ce que l’on peut traduire par u | U u , c’est-à-dire |U| u . | ||
On rejetera donc H0 si les différences observées sont significatives, ce que l’on peut traduire par U u ou U u , c’est-à-dire |U| u . Par construction de u , on a P U u P U u2 , soit encore
P |U| u , i.e. P Uu , u .
x0
En pratique, on calcule u et on décide
- de rejeter H0 si u u , u , car si H0 était vraie, l’événementU u , u aurait une probabilité faible de se réaliser ; on pourra dire que la valeur observéex n’est pas conforme à la valeur théorique 0 mais on ne pourra pas donner de valeur acceptable de ;
- de ne pas rejeter H0 si u u , u , car si H0 était vraie, l’événementU u , u aurait une probabilité forte de se réaliser ; on pourra dire que la valeur observéex est conforme à la valeur théorique 0 et que la valeur 0 ne peut être rejeter. Attention : d’autres valeurs 0, 0 , ... peuvent également convenir.
Erreurs de décision.
Lorsqu’on rejette H0 alors que H0 est vraie, on commet une erreur. On a donc une probabilité de se tromper : est appeléeerreur de première espèce. En effet, lorsque H0 est vraie, on a
P Uu , u .
Lorsque l’on ne rejette pas H0 alors que H0 est fausse, on commet une erreur. On a une probabilité de se tromper : est appeléeerreur de deuxième espèce. Cette erreur est difficilement calculable. La plupart du temps, on ne connait pas la loi de U lorsque H0 est fausse. La valeur 1 est appelée lapuissance dutest.
Test (unilatéral)de H0: 0contreH1 : 0.
On détermineu tel que P U u , i.e. P U u 1 , i.e. u1 1 u2 , et on décide que :
- si u u , alors on ne peut rejeter H0 ;
- si u u , alors on rejette H0 avec une probabilité de se tromper.
…
- si tt , t , alors on ne peut rejeter H0 ;
- si tt , t , alors on rejette H0 avec une probabilité de se tromper.
Test (unilatéral)de H0: 0contreH1 : 0.
On déterminet tel que P Tt 1 , i.e. tt2, et on décide que :
- si t t , alors on ne peut rejeter H0 ;
- si t t , alors on rejette H0 avec une probabilité de se tromper.
Test (unilatéral)de H0: 0contreH1 : 0.
On déterminet tel que P Tt 1 , i.e. tt
- si t t , alors on ne peut rejeter H0 ;
- si t t , alors on rejette H0 avec une probabilité de se tromper.
4.1.2. Cas d’ un grand échantillon:n 30
…
- si uu , u , alors on ne peut rejeter H0 ;
- si u u , u , alors on rejette H0 avec une probabilité de se tromper. Test (unilatéral)de H0:0 contre H1:0.
On détermineu tel que P Uu 1 , i.e. u1 1 u2, et on décide que :
- si u u , alors on ne peut rejeter H0 ;
- si u u , alors on rejette H0 avec une probabilité de se tromper.
Test (unilatéral)de H0: 0contreH1 : 0.
On détermineu tel que P Uu 1 , i.e. u1uu , et on décide que :
- si u u , alors on ne peut rejeter H0 ;
- si u u , alors on rejette H0 avec une probabilité de se tromper.
4.1.3. Exemple
Dans une usine du secteur de l’agroalimentaire, une machine à embouteiller est alimentée par un réservoir d’eau et par une file d’approvisionnement en bouteilles vid es. Pour contrôler le bon fonctionnement de la machine, on veut construire un test d’hypothèse bilatéral qui sera mis en oeuvre toutes les heures.
Pour une production d’une heure, on suppose que la variable aléatoireX qui à toute bouteille, prise au hasard dans cette production, associe le volume d’eau (en litres) qu’elle contient, est une variable aléatoire d’espérance et d’écart-type inconnus. On considère que la machine est bien réglée lorsque le volume d’eau moyen dans une bouteille est 1, 5 l.
On a prélevé un échantillon de 100 bouteilles, et on a obtenunuvolume d’eau moyen de 1,495 l et un écart-type corrigé de 0, 01. Peut-on conclure, au risque 5%,que la machine est bien réglée ?
On peut considérer la situation suivante.
Population : bouteilles produites
Variable X : volume d’eau, variable aléatoire de moyenne et d’écart-type 0, 01. Echantillon E X1, X2, . . . , Xn de taille n 100 de X.
Observation de l’échantillon :ex1, x2, . . . , xn.
On détermineu tel que P u U u 1 (table 2) : pour 0, 05, on trouve u 1; 96. Comme u u , u , on rejette H0 avec une probabilité de se tromper : la machine n’est pas bien
réglée.
4.2. Pour une variance2
Considérons un caractère quantitatif représenté par une rivable aléatoireX de loi normale N ; , et un
- si y2b , alors on ne peut rejeter H0 ;
- si y2b , alors on rejette H0 avec une probabilité de se tromper.
Test (unilatéral)de H0: 220contreH1 : 220.
On déterminea tel que P Y2a 1 , i.e. aa2 et on décide que :
- si y2a , alors on ne peut rejeter H0 ;
- si y2a , alors on rejette H0 avec une probabilité de se tromper.
5. Test d’homogénéité
Dans deux populations P1 et P2, on étudie un même caractère. On cherche à comparer les deux populations quant à ce caractère, et donc à savoir si elles so nt homogènes ou pas.
5.1. Comparaison de deux variances
Soient X1 et X2 des variables aléatoires représentant le caractère dans chaque population, de moyennes respectives 1 et 2, d’écart-types respectifs 1 et 2. De P1 et P2 on extrait un échantillon
E1X1,1, X1,2, . . . , X1,n1de taille n1de X1et un échantillonE2X2,1, X2,2, . . . , X2,n2de taille n2de X2. |
5.1.1. Cas d’ échantillons indépendants
Les échantillonsE1 et E2 sont supposés indépendants. On suppose de plus queX1 et X2 suivent les lois normales N 1; 1 et N 2; 2 .
Test de H0: 2122contreH1 : 2122.
- si f f , alors on ne peut rejeter H0 ;
- si f f , alors on rejette H0 avec une probabilité de se tromper.
5.1.2. Cas d’ échantillons appariés
Deux échantillonsE1 et E2 sont dits appariéslorsque chaque observation x1,i de E1 est associée à une valeur x2,i de E2 (appariés associés par paires). C’est par exemple le cas lorsqueE1 et E2 proviennent d’un même groupe de malades avant et après traitement. Deux échantillons appariés ont donc la même taille
n1n2n.
On suppose que E1 et E2 sont appariés et queX1 et X2 suivent les lois normales N 1; 1 et N 2; 2 .
Test de H0: 2122contreH1 : 2122.
…
On détermineu tel que P Uu 1 , i.e. u1 1 u2, et on décide que :
- si u u , alors on ne peut rejeter H0 ;
- si u u , alors on rejette H0 avec une probabilité de se tromper.
Test (unilatéral)de H0: 12contreH1 : 12.
On détermineu tel que P Uu 1 , i.e. u1uu , et on décide que :
- si u u , alors on ne peut rejeter H0 ;
- si u u , alors on rejette H0 avec une probabilité de se tromper.
5.2.2. Cas de petits échantillons indépendants extraits de populations gaussiennes
On suppose que n1 30 ou n2 30, et que les échantillonsE1 et E2 sont indépendants. On suppose de plus que X1 et X2 suivent les lois normales N 1; 1 et N 2; 2 , et que 1 2 .
…
- si tt , t , alors on ne peut rejeter H0 ;
- si tt , t , alors on rejette H0 avec une probabilité de se tromper.
Test (unilatéral)de H0: 12contreH1 : 12.
On déterminet tel que P Tt 1 , i.e. tt2, et on décide que :
- si t t , alors on ne peut rejeter H0 ;
- si t t , alors on rejette H0 avec une probabilité de se tromper.
Test (unilatéral)de H0:12 | contre H1:1 | 2. |
On déterminet tel que P T t1, i.e. t | t2 2t2, et on décide que : |
- si t t , alors on ne peut rejeter H0 ;
- si t t , alors on rejette H0 avec une probabilité de se tromper.
5.2.3. Cas de petits échantillons indépendants: test de Mann et Whitney
Non traité ici.
DiX1,i | X2,i. Les moyenne et variance corrigée d’échantillon sont alorsDn1 Diet Sc2,d |
avec Sd2 | n1Di2 D2. Désignons par12la moyenne de D. |
5.2.4. Cas de grands échantillons appariés | |
On suppose que n1n2n 30, et que les échantillonsE1 et E2 sont appariés. |
On considère la variable aléatoireDX1X2, dont un échantillon est D1, D2, . . . , Dn, avec
Puisque n 30, UD suit approximativement la loi normale N 0; 1 .
Sc,d
Test (bilatéral)de H0: 12contreH1 : 12.
Ce test est équivalent au test (bilatéral) deH0 : 0 contre H1 : 0 (paragraphe 4.1.2.).
Test (unilatéral)de H0: 12contreH1 : 12.
Ce test est équivalent au test (unilatéral) deH0 : 0 contre H1 : 0 (paragraphe 4.1.2.).
Test (unilatéral)de H0: 12contreH1 : 12.
Ce test est équivalent au test (unilatéral) deH0 : 0 contre H1 : 0 (paragraphe 4.1.2.).
5.2.5. Cas de petits échantillons appariés extraits de populations gaussiennes
On suppose que n1n2n 30, que les échantillonsE1 et E2 sont appariés et queX1 et X2 suivent les lois normales N 1; 1 et N 2; 2 .
Les notations sont les mêmes que dans le paragraphe 5.2.4. Dans ce cas, T suit la loi de Student à n 1 degrés de liberté. On adapte alors les résultats ci-dessus(paragraphes 5.2.4. et 4.1.1.2.).
5.2.6. Cas de petits échantillons appariés: test de Wilcoxon
Non traité ici.
5.3. Exemples
5.3.1. Comparaison de deux moyennes (1)
Dans un article de la revue "Biometrica", le biologiste Latter donne la longueur (en mm) des oeufs de Coucou trouvés dans les nids de deux espèces d’oiseaux :
19,8 22,1 21,5 20,9 22,0 21,0 22,3 21,0
- dans des nids de petite taille (Roitelet) :
20,3 20,9 22,0 22,0 20,8 21,2 21,0
22,0 23,9 20,9 23,8 25,0 24,0 23,8
- dans des nids de taille plus grande (Fauvette) :
21,7 22,8 23,1 23,5 23,0 23,0 23,1
On se demande si le Coucou adapte la taille de ses oeufs à la tai lle du nid.
On peut considérer la situation suivante.
Population 1 : oeufs de Coucou dans des nids de Roitelet.
Variable X1 : la longueur, variable aléatoire de moyenne 1 et de variance 21. Echantillon E1X1,1, X1,2, . . . , X1,n1 de taille n1 15 de X1.
Observation de l’échantillon :e1x1,1, x1,2, . . . , x1,n1 19, 8 , 22, 1 , . . . , 21, 0 .
…
Comme f f , on ne peut rejeter H0 et les variances des deux populations ne sont pas différentes significativement au risque 5%. Pour cette décision de non-rejet, on ne connait pas la probabilité de se tromper (erreur de deuxième espèce).
On a n1 30 ou n2 30, et les échantillonsE1 et E2 sont indépendants. On suppose queX1 et X2
suivent les lois normales N 1; 1 et N 2; 2 . On est alors dans le cas de petits échantillons gaussiens indépendants. D’après le test précédent, on peut admettre1 2 .
Comme t t , t , on rejette H0 avec une probabilité 0, 05 de se tromper. La taille moyenne des oeufs de Coucou sont différentes dans les nids de Roitelet etde Fauvettes.
Comme on observe x1x2, on aurait pu faire le test unilatéral deH0: 12contre H1 : 12.
On déterminet tel que P Ut 1 , i.e. tt : pour 0, 05, on trouve
t 1, 703.
Comme t t , on rejette H0 avec une probabilité de se tromper. La taille moyenne des oeufs de Coucou dans les nids de Roitelet est inférieure à celle dans les nids de Fauvettes.
Ainsi, on peut conclure que le Coucou adapte la grosseur de ses oeufs à la taille du nid. (Il s’agit d’un phénomène de mimétisme qui permet aux oeufs de Coucou de passer plus facilement inaperçus.)
5.3.2. Comparaison de deux moyennes (2)
Chez un groupe de 10 malades, on expérimente les effets d’un raitement destiné à diminuer la pression artérielle. On observe les résultats suivants (valeur de latension artérielle systolique en cm Hg) :
sujet n° | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
avant traitement | 15 | 18 | 17 | 20 | 21 | 18 | 17 | 15 | 19 | 16 |
après traitement | 12 | 16 | 17 | 18 | 17 | 15 | 18 | 14 | 16 | 18 |
On se demande si le traitement à une action significative. On peut considérer la situation suivante.
Population 1 : malades avant traitement.
Variable X1 : la tension, variable aléatoire de moyenne 1 et de variance 21. Echantillon E1X1,1, X1,2, . . . , X1,n1 de taille n1 10 de X1.
Observation de l’échantillon :e1x1,1, x1,2, . . . , x1,n1 15, 18, . . . , 16 . Population 2 : malades après traitement.
Variable X2 : la tension, variable aléatoire de moyenne 2 et de variance 22. Echantillon E2X2,1, X2,2, . . . , X2,n2 de taille n2 10 de X2.
Observation de l’échantillon :e2x2,1, x2,2, . . . , x2,n2 12, 16, . . . , 18 .
On a n1n2n 10 30 et les échantillonsE1 et E2 sont appariés. On suppose queX1 et X2 suivent les lois normales N 1; 1 et N 2; 2 . On a donc de petits échantillons appariés extraits de populations gaussiennes.
On considère la variable aléatoireDX1X2, dont un échantillon est D1, D2, . . . , Dn, avec
…
A partir de l’observation de l’échantillon d1, d2, . . . , dn 3, 2, 0, 2, 4, 3, 1, 1, 3, 2 , on obtient les estimations d 1, 5 et s2c,d 1, 96.
Test (unilatéral) deH0 : 12contre H1 : 12.
Ce test est équivalent au test (unilatéral) deH0 : 0 contre H1 : 0 (test de conformité).
On déterminet tel que P T t 1 , i.e. t t2 (table 3) : pour 0, 05, on trouve t 1, 833. Comme t t , alors on rejette H0 avec une probabilité de se tromper. On conclut que la tension a diminé après le traitement et donc que ce dernier a une actionsignificative.
6. Exercices
Exercice 1. Une usine fabrique des pièces métalliques. Le client réceptionne sa commande. Dans le lot reçu,il prélève un échantillon de 20 billes choisies au hasard etveca remise, et mesure les diamètres suivants :
24,7 | 24,9 | 25,0 | 25,0 | 25,1 | 25,1 | 25,1 | 25,2 | 25,3 | 25,4 |
24,8 | 24,9 | 25,0 | 25,0 | 25,1 | 25,1 | 25,2 | 25,3 | 25,3 | 25,5 |
Exercice 2. On admet que le taux de cholestérol chez une femme suit une loi normaleN; . Sur unéchantillon de 10 femmes, on a obtenu les taux de cholestétol(en g/l) suivants :
3,0 1,8 2,1 2,7 1,4 1,9 2,2 2,5 1,7 2,0
Exercice 3. Dans la fabrication de comprimés effervescents, il est prévu que chaque comprimé doit contenir1625 mg de bicarbonate de sodium. Afin de contrôler la fabric ation de ces médicaments, on a prélevé un échantillon de 150 comprimés, et on a mesuré la quantité decarbonatebi de sodium pour chacun d’eux. On a obtenu les résultats suivants :
Classes | 1610; 1615 | 1615; 1620 | 1620; 1625 | 1625; 1630 | 1630; 1635 |
Effectifs | 7 | 8 | 42 | 75 | 18 |