Cours de statistique pour debutant : la loi normale
Cours de statistique pour débutant : la loi normale
rappel:
La statistique est la science dont l’objet est de recueillir, de traiter et d’analyser des données issues de l’observation de phénomènes aléatoires, c’est-à-dire dans lesquels le hasard intervient. L’analyse des données est utilisée pour décrire les phénomènes étudiés, faire des prévisions et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la compréhension et la gestion des phénomènes complexes. Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières universitaires, de l’économie à la biologie en passant par la psychologie, et bien sûr les sciences de l’ingénieur.
Donnons quelques exemples d’utilisation de la statistique dans divers domaines.
- économie, assurance, finance : prévisions économétriques, analyse de la consommation des ménages, fixation des primes d’assurance et franchises, études quantitatives de marchés, gestion de portefeuille, évaluation d’actifs financiers, ...
- biologie, médecine : essais thérapeutiques, épidémiologie, dynamique des populations, analyse du génome, ...
- sciences de la terre : prévisions météorologiques, exploration pétrolière, ...
- sciences humaines : enquêtes d’opinion, sondages, études de populations, ...
- sciences de l’ingénieur : contrôle de qualité, maîtrise statistique des procédés (méthode “six-sigma”), sûreté de fonctionnement (fiabilité, disponibilité, sécurité,...), maîtrise des risques industriels, évaluation des performances des systèmes complexes,
...
- sciences de l’information et de la communication : traitement des images et des signaux, reconnaissance des formes et de la parole, analyse exploratoire des grandes bases de données, analyse des réseaux de communication, ...
- physique : mécanique statistique, théorie cinétique des gaz, ...
- etc...
...
Lois de distributions
La loi normale
La loi normale repose sur l'estimation de deux paramètres de la population statistique:
- la moyenne µ
- l'écart type σ
La courbe (appelée "fonction de densité de probabilité") a la formule suivante:
La probabilité qu'une variable x prenne une valeur plus petite ou plus grande qu'une certaine valeur xi s'obtient en calculant l'aire sous la courbe:
La loi normale centrée-réduiteN (0,1)
Il s’agit d’une loi loi normale pour laquelle toutes les valeursxisontcentrées-réduites:
Propriétés
- µ = 0 et σ = 1
- Il n’y a pas d’unités
- L’aire totale sous la courbe = 1 (donc l'aire pour z allant de moins l'infini à zéro = 0.5)
- La courbe est parfaitement symétrique: ƒ(z) = ƒ(–z) (donc l'aire pour z allant de moins l'infini à zéro = l'aire pour z allant de 0 à plus l'infini = 0.5)
- La courbe est continue, donc P(z) = 0
- Les probabilités correspondent directement à la surface sous la courbe
Usage le plus simple: on veut trouver la probabilité qu'une valeur z soit inférieure à une valeur limite zi
Cela correspond à la surface de la courbe normale centrée réduite située à gauche du trait vertical marquant la position de la valeur limite zi :
Exemple: probabilité quezsoit inférieur àzi= +0,21 [ qui s'exprime P (z< 0,21) ]:
La première colonne de la table indique l’unitéet la première décimale de zi La première ligne de la table indique la deuxième décimale de zi :
La table ne contient que les valeurs de zi positives parce que:
P (z < 0,21) = 0,5832 P (z > –0,21) = 0,5832
P (0 < z < 0,21) = 0,5832 – 0,5000 = 0,0832 P (–0.21 < z < 0) = 0,5832 – 0,5000 = 0,0832
P (–0,21 < z < 0,21) = 0,0832 + 0,0832 = 0,1664
Robert va à la pêche
Le beau-frère de Robert a pêché un brochet de 538,9 mm dans le lac Raymond. En admettant que la longueur des brochets de ce lac suit une loi normale N(467 mm, 47,9 mm), quelle est la probabilité que Robert pêche un brochet plus long que celui de son beau-frère?
- Traduction: P (x > 538,9mm) = ?
- Transformons 538,9 mm en z:
- Donc: P (x > 538,9 mm) = P (z > 1,501):
P(z > 1,501) = 1 – P(z < 1,501) = 1 – 0,9332 = 0,0668
La probabilité que Robert pêche un brochet plus lon g que celui de son beau-frère est donc de 0,0668.
Robert retourne à la pêche!
Si la longueur des brochets du lac Raymond suit une loi normale N(467 mm, 47,9 mm), entre quelles valeurs se situent 95 % des longueurs des brochets de ce lac ?
- Traduction: P (x1 < x < x2) = 0,95
- Transformons x1 et x2 en z: P (z1 < z < z2) = 0,95
Le problème est donc inverse du précédent: nous avons la probabilité mais pas z
3) P (z < z2) = 0,95 + 0,025 = 0,975
z2= 1,96 On cherche 0.975 dans le corps de la table (φ= 0.9750), et on remontedans les marges pour connaître lez correspondant!
z1= –1,96 par symétrie
4) Retransformons z1 et z2 en x par l'opération inverse d'un centrage-réduction
on multiplie z par l'écart type de la variable, puis on ajoute la moyenne au résultat :
x1 = (z1 × 47,9 mm) + 467 mm = (–1,96 × 47,9 mm) + 467 mm = 37 3,12 mm x2 = (z2 × 47,9 mm) + 467 mm = (1,96 × 47,9 mm) + 467 mm = 560 ,88 mm
Ainsi, 95% des brochets du lac Raymond ont une longueur comprise entre 373,12 mmet 560,88 mm.
Robert veut un gros brochet !
Robert se fait dire que les brochets du lac Abitibi sont plus longs que ceux du lac Raymond :
Il est très probable que certaines tailles de brochets sont représentées dans les deux
lacs. Mais au fait...
A. Quel est le chevauchement entre les deux distributions ?
Considérons les intervalles comprenant 99% des brochets dans chacun des lacs, soit ceux compris entre z1 = –2,575 et z2 = 2,575 dans le cas de la loi N(0,1):
- Traduction: P (x > 590,3 mm) = ?
- Transformons 590,3 mm en z : z = (590,3 mm - 481 mm)/44.8 mm = 2,459
- Donc: P (x > 590,3 mm) = P (z > 2,46)
- P (z > 2,44) = 1 – P (z < 2,46) = 1 – 0,9931 = 0,0069
Même si les plus gros brochets se trouvent effectiv ement dans le lac Abitibi, ils sont visiblement très rares (ils semblent constituer 0,69% des brochets de ce lac). Pas de quoi monter une expédition...
Calcul d’une distribution de probabilités obéissantà la loi normale
Jusqu'ici nous avons passé de la valeur réelle des données à la distribution normale pour quelques valeurs isolées. Nous allons voir ici comment construire une distribution normale dont les paramètres (moyenne et écart type) sont les mêmes que ceux de nos données. Il y a deux méthodes, celle des surfaces et celles des ordonnées.
1. Ce dont nous avons besoin
• La distribution de fréquences de la variable (qui a donc été divisée en classes)
• la moyenne x de l'échantillon ou µ de la population statistique
• l'écart type sx de l'échantillon ou σ de la population statistique.
2. Principe
Trouver la probabilité associée à chacune des classes.
3. Méthodes
a) Méthode des surfaces
• On transforme les bornes de chaque classes en z (en centrant-réduisant les bornes) et on utilise la table III pour déterminer la probabilité associée à chacun de ces intervalles.
b) Méthode des ordonnées
- On transforme les indices de chaque classe en z et on utilise la table IV pour déterminer l’ordonnée (la fréquence relative) associée à chacun de ces indices selon la loi normale centré réduite.
- On utilise une formule pour déterminer la probabilité de chaque classe à partir de son intervalle et de son ordonnée:
Cette formule fait donc intervenir :
-(x2 – x1) l'intervalle de classe (en données brutes, non centrées réduites!)
-f(z) la fréquence relative correspondant à la valeur z (table IV)
- sx l'écart type de l'échantillon.
Exemple : Robert va à la chasse aux gélinottes.
Distribution de fréquences absolues de la longueur (mm) de la rectrice centrale (xi) de 592 gélinotes huppées mâles à un moment donné.
Sachant que moyenne= 154,3 mm et que sx= 18,5 mm, quelle serait la distribution de probabilités de cette variable selon la loi normale ?
A) Méthode des surfaces
B. Méthode des ordonnées
Distribution de fréquences relatives de la longueur (mm) de la rectrice centrale de 592 gélinottes huppées mâles à un moment donné superposée à la distributio n des probabilités de chacune des classes selon la loi normale.
La loi de Student ou loi de t
La distribution de la variable t est utilisée pour comparer les moyennes de deux échantillons, tester une corrélation linéaire, la pente d'une régression, etc. L’objectif ici sera d’apprendre à utiliser la table de t.
Description de la table
Les valeurs dans la table sont des valeurs de tet non des surfaces sous la courbe. On note ces valeurs t(α:υ). La table ne donne que les valeurs positives car la distribution de t est symétrique.
• Les valeurs de la table sont des limites définies sur l'abscisse de la courbe.
• Les probabilités α ou α/2 (= les deux lignes d'en-tête du tableau)sont des surfaces sous la courbe.
La distribution change en fonction du nombre de degrés de libertéυ. Lorsque υ tend vers l'infini, la courbe de t converge vers une courbe normale centrée réduite.
Le seuil α correspond à P(t>t(α:υ)), c'est-à-dire la probabilité que t égale ou dépasse une certaine valeur critique, définie en fonction du seuil de probabilité et du nombre de degrés de liberté.
Attention, le seuil peut être unilatéral ou bilatéral!!!
Si le seuil est bilatéral, la notation est la suivante: P(│t│> t(α/2:υ))
Trouver la probabilité en connaissant les valeurs de t(α;υ)
P(t24 > 2,492) = ? C'est-à-dire: quelle est la probabilité que la valeur detpour 24 degrésde liberté soit plus grande que 2,492 ?
On voit que la probabilité est unilatérale
On lit dans la table t
Pourquoi a-t-on pris la réponse à la ligne "α/2" de la table alors que la question est unilatérale ???
- Les valeurs données à la ligne α donnent la probabilité qu'une valeur de t soit située à l'extérieur de l'intervalledélimité par [–tcritique; +tcritique]. Cet α est donc la somme des deux plages grises situées aux deux extrémitésde la courbe.
- Les valeurs données à la ligne α/2 donnent la probabilité qu'une valeur de t soit supérieure au t critique (si cetest positif; plage grise de droite) ou inférieure au t critique (si ce t est négatif; plage grise de gauche).
- On peut donc interpréter la table de la manière suivante (avec notre exemple) :
- si la question estunilatérale, on veut connaître la probabilité qu'une valeur detsoitsupérieure au t critique. Donc, on s'intéresse uniquement à la valeur +2,492(et nonà –2,492). La surface située plus à droite que cette valeur limite représente 1% de la surface totale comprise sous la courbe exprimé α = 0,01;
- par contre, dans une questionbilatérale, formulée P(|t24| > 2,492), on aurait voulu savoir quelle est la probabilité qu'une valeur de tsoit située à l'extérieurde l'intervalle délimité par [–2,492; +2,492]. Cette probabilité correspond à la somme des deux zones grises, soit α = 0.02 .
La loi du χ2
Définition :
La loi de khi−carré est obtenue en faisant la somme des carrés de plusieurs lois normales :
La forme de la courbe de densité de probabilité change en fonction de υ
Distribution de densité des lois de degrés de liberté.
Table de la loi de khi−carré
La probabilité donnée dans la table est donc unilatérale à droite.
Loi de Fisher−Snedecor ( F)
La loi de F est un rapport de deux lois dedegrés de liberté divisées par leur nombre respectif de degrés de liberté :
La forme de la courbe de densité de probabilité de F change en fonction de υ1 et υ2
Table de la loi de Fisher−Snedecor ( F)
La probabilité donnée dans la table est donc unilatérale à droite.
Intervalles de confiance (I.C.)
• Un I.C. d’un paramètre est une estimation par intervalle de ce paramètre.
Exemple : la moyenne de la variable x de la population statistique se situe entre telle et telle valeurs.
• On attribue un coefficient de risque ( α) aux estimations par I.C.
Exemple : j’ai 5 % de chance de me tromper en disant que la moyenne de la variable x de la population statistique se situe entre telle et telle valeurs.
En général : α =0.05 ou 0.01 ou 0.001
On peut construire la distribution d’échantillonnage (ou deprobabilités) de la moyenne.
On cherche alors les bornes de l’intervalle qui comprend 1-α des valeurs possibles de la moyenne selon sa distribution d’échantillonnage.
Intervalle de confiance de la moyenne : cas général
Dans tous les cas et surtout quand n est petit ( n
L’I.C. de la moyenne peut alors être calculé comme suit :
Intervalle de confiance de la moyenne : cas des grands échantillons
Si n est très grands ( n>30 ), la loi de t tends vers N (0,1) . On peut alors avoir recours une approximation par la loi normale :
ATTENTION : l’approximation par la loi normale n’est valable que si la distribution del’échantillon n’est pas trop asymétrique! Ilfaut donc s’assurer que avant d’avoir recours à cette approximation.
Étant donné que le calcul de l’I.C. de la moyenne par la loi de t est toujours valable, on préférera cette méthode de calcul à l’approximationpar la loi normale afin d’éviter les calculs supplémentaires et les inconvénients que cette dernière entraîne.
En supposant que la distribution de la longueur totale obéit à une loi normale dans ces populations, calculez l’I.C. à 95 % de la moyenne pour chacune de ces populations.
Intervalle de confiance de la variance
Si les observations proviennent d’un échantillon aléatoire simple extrait d’une seule population statistique, la distribution de probabilités de la variance suit une loi de
Cette formule peut être réécrite sous la forme :
L’I.C. de la variance est donc :