Statistique Numérique et Analyse des Données
ArnakDALALYAN
1 Éléments de statistique descriptive 9
1.1 Répartition d’une série numérique unidimensionnelle . . . . . . . . . . . . . . 9
1.2 Statistiques d’une série numérique unidimensionnelle . . . . . . . . . . . . . . 11
1.3 Statistiques et représentations graphiques de deux séries numériques . . . . . 14
1.4 Résumé du Chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Analyse des données multivariées 21
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Exemple : billets suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 La théorie de l’Analyse en Composantes Principales . . . . . . . . . . . . . . . 23
2.4 Représentations graphiques et interprétation . . . . . . . . . . . . . . . . . . . 27
2.5 Résumé du Chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Rappel des bases de la statistique paramétrique 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5 Test d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.7 Résumé du Chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4 Régression linéaire multiple 55
4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Lois associées aux échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . 59
4.3 Le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.4 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.6 Résumé du Chapitre 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5 Tests d’adéquation 73
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2 Tests du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 Résumé du Chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4 | Table des matières | Chapitre 0 |
6 | Tables numériques | 83 |
6.1 Quantiles de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . . 83
6.2 Table de la loi du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.4 Quantiles pour le test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 87
1.1 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Répartitions asymétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 Nuage de points pour les données transformées . . . . . . . . . . . . . . . . . 16
1.7 Nuage de point et droite de régression . . . . . . . . . . . . . . . . . . . . . . . 16
1.8 QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Billets suisses : boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Billets Suisses : matrice de scatter plots . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Billets suisses : projection des individus . . . . . . . . . . . . . . . . . . . . . . 27
2.5 Billets suisses : scree-graph et cercle des corrélations . . . . . . . . . . . . . . . 29
3.1 La log-vraisemblance du modèle de Bernoulli . . . . . . . . . . . . . . . . . . . 41
3.2 La log-vraisemblance du modèle exponentielle . . . . . . . . . . . . . . . . . . 42
3.3 La log-vraisemblance du modèle Uniforme . . . . . . . . . . . . . . . . . . . . 43
3.4 Intervalles de confiance pour le modèle de Bernoulli . . . . . . . . . . . . . . . 45
3.5 Les quantiles de la loi N(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2 La répartition des données du taux d’alcool . . . . . . . . . . . . . . . . . . . . 61
4.3 Données de pluie : droite de régression . . . . . . . . . . . . . . . . . . . . . . 70
5.1 Le test de Kolmogorov s’appuie sur la distance entre fonction de répartition
empirique et théorique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Présentation usuelle de la distance de Kolmogorov. . . . . . . . . . . . . . . . 80
1.1 Données PIB-Consommation d’énergie par habitant . . . . . . . . . . . . . . . 19
2.1 Données des billets suisses authentiques . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Données des billets suisses contrefaits . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Hauteurs d’arbres dans 3 forêts . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.1 Quantiles de la statistique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . 87
Le but de ce chapitre est de présenter les outils graphiques les plus répandus de la statistique descriptive. On considérera les cas d’une série numérique unidimensionnelle et bidimensionnelle.
Avant de rentrer dans le vif du sujet, apportons une petite précision à une idée très largement répandue, selon laquelle le but de la discipline statistique est d’analyser des données issues d’une expérience à caractère aléatoire. Cela sous-entend qu’il n’est pas possible ou qu’il n’est pas utile d’appliquer la méthodologie statistique aux données recueillies par un procédé déterministe (non aléatoire). Cette une déduction erronée. La bonne définition de l’objectif de la Statistique en tant que discipline scientifique, à notre avis, serait d’explorer les «propriétés fréquentielles» d’un jeu de données. Par «propriétés fréquentielles», on comprend les propriétés qui restent invariantes par toute transformation des données (comme, par exemple, la permutation) qui ne modifie pas la fréquence des résultats.
Le but de ce chapitre est d’introduire les statistiques principales et de donner un aperçu des outils graphiques les plus utilisés.
Afin que l’analyse statistique d’une série numérique ait un sens, il faut que les différents éléments de cette série représentent la même quantité mesurée sur des entités différentes. Par exemple, x1, . . . , xn peuvent être les hauteurs de n immeubles choisis au hasard à Paris, ou les températures journalières moyennes à Paris enregistrées au cours de l’année 2009, etc. On dit alors que x1, . . . , xn sont les valeurs d’une variable (statistique) observées sur n individus.
On va différencier deux types de séries numériques : celles qui représentent une variable discrète et celles qui représentent une variable continue . On dit qu’une variable est discrète, si le nombre de valeurs différentes parmi x1, . . . , xn est petit devant n. Cette définition est loin d’être rigoureuse, mais cela n’est en général pas très gênant. Dans les deux exemples donnés au paragraphe précédent, les variables «hauteur d’immeuble» et «température journalière moyenne» sont continues. Si au lieu de mesurer la hauteur d’un immeuble, on comptait le nombre d’étages, ce serait une variable discrète.
Pour les séries numériques représentantes une variable discrète, on définit l’histogramme comme la fonction h : R ? N qui à chaque x ? R associe le nombre d’éléments dans la série x1, . . . , xn égaux à x. Par exemple, l’histogramme de la série numérique
10 8 9 6 5 9 8 7 6 5 6 9 10
(1.1)
8 7 8 7 8 7 6 9 10 9 8 5 9
1 n h(x) = ? 1(xi = x). ni=1 |
Dans le cas où la série numérique qu’on cherche à analyser est continue, on commence par choisir une partition de R en un nombre fini d’intervalles : I0, I1, . . . , Ik. Ayant fixé la partition, on définit l’histogramme de la série x1, . . . , xn comme la fonction h : R ? R+ donnée par la formule
n h(x) = j , n|Ij| | si x ? Ij, |
où nj est le nombre d’éléments de la série qui se trouvent dans le jème intervalle Ij de la partition et |Ij| est la longueur de l’intervalle Ij. Le choix de la partition est une question délicate que l’on n’approfondira pas ici. Dans la plupart des cas, on choisit une partition uniforme (c’est-à-dire, tous les Ij sont de même longueur) d’un intervalle contenant toutes les valeurs de la série numérique. De plus, on essaye de faire en sorte qu’il y ait au moins 5 observations dans chaque intervalle non-vide. Par exemple, l’histogramme de la série numérique
0.11 0.81 0.94 0.62 0.50 0.29 0.48 0.17 0.26 0.55
0.68 0.17 0.28 0.57 0.98 0.77 0.56 0.49 0.31 0.89 (1.2) 0.76 0.39 0.64 0.05 0.91 0.78 0.59 0.79 0.07 0.86
est tracé dans la Figure 1.1 (à droite).
Une représentation alternative des fréquences des valeurs contenues dans une série numérique est la fonction de répartition, appelée également histogramme cumulé. Pour un x ? R, Section 1.2 Statistiques d’une série numérique unidimensionnelle
FIGURE 1.2 – Fonction de répartition empirique (FDRE). A gauche : la FDRE de la série discrète (1.1). A droite : la FDRE de la série (1.2). On voit bien que c’est une fonction en escalier croissante, qui vaut 0 sur l’intervalle ] ??,mini xi[ et qui vaut 1 sur l’intervalle ] maxi xi, +?[.
la valeur en x de la fonction de répartition d’une série numérique x1, . . . , xn est la proportion des éléments de la série inférieurs ou égaux à x, c’est-à-dire :
Fˆn(x) = 1 ?n1(xi ? x). ni=1 |
L’avantage de la fonction de répartition, comparé à l’histogramme, est que sa définition est identique dans le cas d’une variable discrète et dans le cas d’une variable continue.
On appelle une statistique toute fonction qui associe aux données x1, . . . , xn un vecteur S(x1, . . . , xn) ? Rp. On utilise les statistiques pour résumer les données.
Les trois statistiques de tendance centrale les plus utilisées sont la moyenne, la médiane et le mode. On les appelle également les statistiques de position.
La moyenne, notée x¯, est définie par :
1 n x¯ = ? xi. ni=1 |
La médiane, notée Medx, est un nombre réel tel qu’au moins la moitié des données sont ? Medx et au moins la moitié des données sont ? Medx.
Le mode, noté Modex, est la valeur la plus fréquente à l’intérieur de l’ensemble des données.
Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques.
Les trois statistiques de dispersion les plus utilisées sont la variance, l’écart-type et l’écart interquartile.
La variance, notée vx, est la valeur moyenne des carrés des écarts entre les données et la moyenne :
1 n vx = ?(xi ? x¯)2. ni=1 |
?
L’écart interquartile est la différence entre le troisième et le premier quartile : Q3 ? Q1, où le premier quartile Q1 (respectivement, le troisième quartile Q3) est la médiane des données < Medx (resp. > Medx).
Etant donné une série de données unidimensionnelles x1, . . . , xn, on s’intéresse souvent à la plus petite valeur mini xi ou à la plus grande valeur maxi xi prise par les xi. En statistique, on utilise les notations
x(1) = min xi, 1?i?n | x(n) = max xi, 1?i?n |
et on les appelle première et dernière statistiques d’ordre. Plus généralement, on définit la statistique d’ordre de rang k, notée x(k), comme la kème plus petite valeur parmi x1, . . . , xn. Plus précisément, soit (i1, . . . , in) une permutation (il peut y en avoir plusieurs) des indices (1, . . . , n) qui classe les données dans l’ordre croissant :
xi1 ? xi2 ? . . . ? xin.
On appelle alors statistique d’ordre k la valeur x(k) = xik.
Pour toute valeur ? ? [0, 1], on appelle quantile d’ordre ?, noté q?x, de la série x1, . . . , xn, la statistique d’ordre x(m) avec m = [?n]. En utilisant la notion de quantile, on peut redéfinir les quartiles et la médiane comme suit :
Q1 = q0.25x , Medx = q0.5x , Q3 = q0.75x .
En pratique, ces définitions de quartiles et médiane conduisent vers des résultats qui diffèrent légèrement de ceux obtenus par la première définition, mais généralement la différence n’est pas importante et décroît lorsque la taille n de la série augmente.
Section 1.2 Statistiques d’une série numérique unidimensionnelle
On peut facilement vérifier que le coefficient d’asymétrie de toute série numérique symé-
FIGURE 1.3 – Exemples de répartitions asymétriques : le coefficient d’asymétrie est positive pour la distribution à gauche et négative pour celle de droite.
trique est nul. (On dit qu’une série numérique est symétrique par rapport à un nombre réel mu, si pour tout a> 0 la fréquence de la valeur µ + a dans la série est égale à celle de µ ? a.
On peut également vérifier que le coefficient d’aplatissement tend vers zéro lorsque n ? ? si la série numérique représente des réalisations indépendantes de la loi gaussienne N(0, 1).
Un résumé simple et pratique de la répartition d’une série x1, . . . , xn est donné par le quintuplé (A, Q1, Medx, Q3, B), où
A et B représentent les limites inférieure et supérieure de l’intervalle en dehors duquel les données sont considérées comme aberrantes (on les appelle aussi atypiques ou des outliers). et Q3 sont respectivement le premier et le troisième quartile.
Medx est la médiane de l’échantillon.
Ce quintuplé est utilisé pour construire le diagramme en boîte ou à moustaches que nous appellerons désormais boxplot. La forme générale d’un boxplot est montrée dans la Figure 1.4. Les valeurs A et B sont déterminées par les formules
n o
A = min xi : xi ? Q1 ? 1.5(Q3 ? Q1) ,
B = max xi : xi ? Q3 + 1.5(Q3 ? Q1) .
Si la série numérique a une répartition normale (Gaussienne), la probabilité qu’une valeur de la série se trouve en dehors de l’intervalle [A, B] est de 0.7%.
FIGURE 1.4 – La forme typique d’une boîte à moustaches (ou boxplot), le rectangle bleu étant la boîte et les segments [A, Q1] et [Q3, B] étant les moustaches.
Pour compléter le boxplot, on fait apparaître les valeurs aberrantes. Toutes les valeurs qui se trouvent en dehors de l’intervalle [A, B] sont désignées par un symbole (souvent par une étoile). Dans l’exemple de la Fig. 1.4, il n’y a pas de valeur aberrante.
Pour interpréter un boxplot, il faut noter que la moitié des valeurs de la série se trouvent entre Q1 et Q3, c’est-à-dire dans la boîte du
boxplot, la moitié des valeurs de la série se trouvent à gauche de la médiane,
s’il n’y a pas de valeurs aberrantes, toutes les valeurs de la série se trouvent entre A et B. Les boxplots sont pratiques pour comparer deux séries statistiques.
Considérons maintenant le cas de deux séries numériques x1, . . . , xn et y1, . . . , yn correspondant aux valeurs de deux variables prélevées sur le même individu. Par exemple, xi et yi peuvent constituer la taille et le poids d’une personne, la température moyenne et le niveau de pollution à Paris un jour donné,
La statistique la plus utilisée dans le contexte de deux séries numériques est la corrélation. Pour la définir, la notion de covariance doit être introduite. On appelle covariance des séries numériques x1, . . . , xn et y1, . . . , yn la valeur
1 n sxy = ?(xi ? x¯)(yi ? y¯), ni=1 |
où x¯ et y¯ sont respectivement la moyenne des xi et celle des yi.
s ?xy = xy , sxsy |
où sx et sy sont respectivement l’écart-type des xi et celui des yi. Par convention, on pose ?xy = 0 si au moins l’un des deux écart-types sx, sy est nul.
Proposition 1.1.Le coefficient de corrélation est toujours entre ?1 et +1 :
?1 ? ?xy? 1.
Section 1.3 Statistiques et représentations graphiques de deux séries numériques
De plus, |?xy| = 1 si et seulement si les séries x1, . . . , xn et y1, . . . , yn sont liées par une relation affine, c’est-à-dire xi = ayi + b pour tout i = 1, . . . , n.
Démonstration. En utilisant l’inégalité de Cauchy-Schwarz, on vérifie que
1 n n n
|sxy| ? . ni=1 n i=1 i=1
Cela implique que le coefficient de corrélation ?xy = sxy/(sxsy) est toujours entre ?1 et +1. De plus, l’inégalité de Cauchy-Schwarz est une égalité si et seulement si xi ? x¯ = a(yi ? y¯), ce qui entraîne la seconde assertion de la proposition.
Supposons que l’on dispose de deux séries numériques x1, . . . , xn et y1, . . . , yn représentant les valeurs de deux variables prélevées sur n individus. Il est naturel et pratique de représenter ces données sous forme d’un nuage de points. Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig. 4.1) les n points de coordonnées (xi, yi).
FIGURE 1.5 – Le nuage de points représentant les données de la Table 1.1. En haut : le nuage simple. En bas : le nuage annoté
Pour rendre le nuage de point plus lisible, on a souvent recours à une transformation d’une ou des deux variables. Dans l’exemple de la Table 1.1, on obtient un nuage de point plus interprétable (voir la Fig. 4.3) en prenant le logarithme des deux variables.
FIGURE 1.6 – Le nuage de points représentant les logarithmes des données de la Table 1.1.
Afin d’obtenir une droite approximant le nuage de points, on calcule la droite de régression de Y sur X, donnée par l’équation y = ax + b où
|
|
(1.3)
Pour les données de la Table 1.1, la droite de régression ainsi que son équation sont données dans la Fig. 1.7. On voit dans la formule (1.3) que la droite de régression de Y sur X ne coïncide pas, en général, avec la droite de régression de X sur Y. Si l’on note Mi le point qui a pour coordonnées (xi, yi) et par di la distance entre Mi et le point Mi0 = (xi, axi + b), alors la droite de régression est la droite pour laquelle la somme des di au carré est minimale. C’est la raison pour laquelle on dit que la droite de régression est obtenue par la méthode des moindres carrés. On reparlera de cette propriété dans un cadre plus général plus loin dans ce document.
FIGURE 1.7 – Le nuage de points représentant les données de la Table 1.1 superposé de la droite de régression.
Un QQ-plot permet de voir rapidement l’adéquation d’une série numérique à une distribution, ou comparer les répartitions de deux séries numériques.
1er cas : Lorsque l’on s’intéresse à l’adéquation à une distribution, l’axe des ordonnées porte les quantiles qj de la distribution observée, tandis que l’axe des abscisses porte les quantiles q?j correspondants de la loi théorique.
2ème cas : Lorsque l’on s’intéresse à la comparaison de deux distributions, l’axe des ordonnées porte les quantiles qxj de la série x1, . . . , xn, tandis que l’axe des abscisses porte les quantiles qyj de la série y1, . . . , yn.
Le nuage des points (respectivement (qyj , qxj )) s’aligne sur la première bissectrice lorsque la distribution théorique proposée est une bonne représentation des observations (resp., lorsque les répartitions des xi et des yi sont égales).
Si le nuage des points s’aligne sur une droite, alors il existe une transformation affine des observations telle que la distribution théorique proposée est une bonne représentation des observations transformées.
FIGURE 1.8 – QQ-plots pour les données de la Table 1.1. Le graphe de gauche indique que la répartition du PIB est significativement différente d’une loi normale. Le graphe de droite montre que les répartitions du PIB et de la consommation d’énergie ne sont pas liées par une transformation affine.
Pays | PIB / habitant (en $ US, 2004) | |
Afghanistan | 174 | |
Arabie Saoudite | 9285 | |
Arménie | 1034 | |
Chine | 1258 | |
Corée du Sud | 13929 | |
Inde | 631 | |
Iran | 2350 | |
Israël | 18404 | |
Japon | 36647 | |
Koweït | 21420 | |
Pakistan | 81 | |
Philippines | 948 | |
Russie | 4071 | |
Turquie | 4296 | |
Vietnam | 520 |
Exercice 1.1.Le tableau suivant présente les données du PIB par habitant pour 15 pays dont la majeure partie se trouve en Asie. Ces données ont été obtenues sur le site http:¬
. Le boxplot de ces données a la forme suivante :
1. Selon ce diagramme, quelle est la valeur médiane du PIB/habitant en Asie?
2. Y a-t-il des données atypiques?
3. La répartition du PIB/habitant est-elle symétrique? Comment s’interprète cette asymétrie?
Série numérique :
Variable discrète :
Variable continue :
Histogramme :
– variable discrète :
– variable continue :
Fonction de répartition empirique :
Statistiques de tendance centrale :
– moyenne :
– médiane :
– mode :
Statistiques de dispersion :
– variance :
– écart-type :
– écart interquartile :
Statistiques d’ordre :
Quantiles :
Boxplots :
Covariance :
Corrélation :
Nuage de points :
Droite de régression :
QQ-plot :
Section 1.4 Résumé du Chapitre 1
Pays | PIB par habitant | Consommation d’énergie par habitant | |||
(en $ US, en 2004) | (en Tonnes d’équivalent pétrole, en 2002) | ||||
Afrique du sud | 5700 | 2.502 | |||
Algérie | 2575 | 0.985 | |||
Bénin | 512 | 0.340 | |||
Egypte | 976 | 0.789 | |||
Maroc | 1505 | 0.363 | |||
Nigeria | 541 | 0.718 | |||
Sénégal | 637 | 0.319 | |||
Allemagne | 33422 | 4.198 | |||
Espagne | 25777 | 3.215 | |||
France | 33614 | 4.470 | |||
Grèce | 19226 | 2.637 | |||
Italie | 28909 | 2.994 | |||
Luxembourg | 66808 | 9.112 | |||
Norvège | 54894 | 5.843 | |||
Portugal | 15835 | 2.546 | |||
Royaume-Uni | 35193 | 3.824 | |||
Suède | 38746 | 5.718 | |||
Suisse | 47577 | 3.723 | |||
Arabie Saoudite | 9285 | 5.775 | |||
Chine | 1258 | 0.960 | |||
Corée du Sud | 13929 | 4.272 | |||
Inde | 631 | 0.513 | |||
Iran | 2350 | 2.044 | |||
Israël | 18404 | 3.191 | |||
Japon | 36647 | 4.058 | |||
Koweït | 21420 | 9.503 | |||
Philippines | 948 | 0.525 | |||
Russie | 4071 | 4.288 | 4296 | 1.083 | |
Vietnam | 520 | 0.530 | |||
Argentine | 3808 | 1.543 | |||
Brésil | 3210 | 1.093 | |||
Canada | 30014 | 7.973 | |||
Colombie | 2234 | 0.625 | |||
Etats-Unis | 39114 | 7.943 | |||
Paraguay | 1032 | 0.709 | |||
Venezuela | 4203 | 2.141 |
TABLE 1.1 – Ces données sont obtenues du site
Dans toute étude appliquée, la démarche première du statisticien est de décrire et d’explorer les données dont il dispose, avant d’en tirer de quelconques lois ou modèles prédictifs. Or la statistique traite généralement du grand nombre et, les outils informatiques aidant, les bases de données deviennent de plus en plus volumineuses, tant en largeur (quantité d’informations recueillies) qu’en hauteur (nombre d’unités sur lesquelles ces informations sont recueillies).
Cette phase d’exploration descriptive des données n’est en conséquence pas aisée. Si le statisticien est déjà outillé pour analyser la distribution d’une variable ou la relation entre deux variables, ces outils basiques ne permettent pas d’appréhender ce vaste ensemble informatif dans sa globalité. Il ne s’agit naturellement pas d’en donner alors une vision exhaustive, mais bien de répondre à l’une des principales missions du statisticien : extraire d’une masse de données ce qu’il faut en retenir, en la synthétisant ou en simplifiant les structures.
On dispose de p variables X1, . . . , Xj, . . . , Xp, que l’on observe sur n unités statistiques - ou individus : on note xij la valeur de la variable Xj observée sur le i-ème individu. Cet ensemble de données peut donc être mis sous la forme d’un tableau X à n lignes et p colonnes, et de terme courant xij.
Dans la suite - et c’est très généralement le cas en analyse des données, contrairement aux autres domaines de la statistique - on confondra la notion de variable avec le vecteur de dimension n qui la définit sur notre échantillon, c’est-à-dire Xj = (x1j , . . . , xnj ). De même, chaque individu sera assimilé au vecteur de dimension p qui compile ses valeurs sur les variables : Xi = (xi1, . . . , xip).
individu # 1, noté X1
X
? individu # n, noté Xn
Nous choisirons ici un exemple décrivant 6 mesures, notée X1, . . . , X6, relevées sur 200 billets de 1000 Francs Suisses. La Figure 2.1 présente la nature des mesures effectuées alors que l’ensemble des données recueillies est donné dans les Tables 2.1 et 2.2. Sur les 200 billets examinés, il y a eu 100 billets authentiques et 100 billets contrefaits. Cet exemple comporte volontairement un nombre réduit de variables, pour en faciliter la compréhension.
Pour comprendre ce qu’apportent les méthodes d’analyse de données, menons au préalable une brève analyse descriptive de ces tableaux du point de vue des variables.
FIGURE 2.1 – Cette figure montre une coupure de 1000 Francs Suisses (anciens) avec les 6 mesures effectuées.
Etude descriptive des variables
grande et un billet dont la longueur est anormalement petite. On remarque également, en comparant les boxplots de X2 et X3, que la largeur à gauche est typiquement légèrement plus grande que la largeur à droite.
FIGURE 2.2 – Les boxplots des données de billets suisses
Cette figure ne dit cependant rien sur la relation entre les variables. Pour appréhender les distributions bivariées, des outils d’analyse vus à la fin du chapitre précédent peuvent être appliqués à tous les paires de variables. Exemples de tels outils sont la matrice de «scatter plots» (voir Fig. 2.3), ou la matrice des coefficients de corrélation linéaire. Ce dernier représente un intérêt surtout lorsque les nuages sont aplatis ou les répartitions bidimensionnelles sont approximativement gaussiennes.
Voici le tableau des corrélations :
X1 | X2 | X3 | X4 | X5 | X6 | |
X1 | 1.00 | 0.23 | 0.15 | -0.19 | -0.06 | 0.19 |
X2 | 0.23 | 1.00 | 0.74 | 0.41 | 0.36 | -0.50 |
X3 | 0.15 | 0.74 | 1.00 | 0.49 | 0.40 | -0.52 |
X4 | -0.19 | 0.41 | 0.49 | 1.00 | 0.14 | -0.62 |
X5 | -0.06 | 0.36 | 0.40 | 0.14 | 1.00 | -0.59 |
X6 | 0.19 | -0.50 | -0.52 | -0.62 | -0.59 | 1.00 |
Ce tableau montre que les variables X2 et X3 sont les plus corrélées, ce qui est tout à fait logique et cela se voyait déjà sur le scatter plot de la Fig. 2.3.
On voit donc qu’on dispose des outils qui nous permettent d’analyser les variables individuellement ou deux par deux. Il nous manque cependant des outils de synthèse, qui permettraient de dégager la structure globale de ces données. Nous allons en développer un, parmi les plus utilisés.
FIGURE 2.3 – Scatter plots des différentes variables
avec des outils de visualisation performants, X ne peut être appréhendé de façon simple dans sa globalité, ni les relations entre les variables.
La problématique est alors double :
– Comment visualiser la forme du nuage des individus ?
– Comment synthétiser les relations entre variables ?
L’ACP permet justement de répondre à ce type de besoin.
La méthode d’Analyse en Composantes Principales requiert un espace vectoriel muni d’un produit scalaire. Dans ce chapitre, nous considérerons l’espace euclidien Rp muni de son produit scalaire canonique. La métrique associée est donnée par
p
.
j=1
Définition 2.1.Soient x in=1xij et s2j in=1xij la moyenne et la variance de la variable d’intérêt Xj. Lareprésentation centrée de l’individu i est donnée par xe1j , . . . , xejp, où pour tout
1 ? j ? p,
.
Section 2.3 La théorie de l’Analyse en Composantes Principales
Lareprésentation centrée-réduite de l’individu i est donnée par xe1j , . . . , xejp, où pour tout 1 ? j ? p,
e = xij ? x¯j . xij sj
UneACP normée est une ACP menée sur la représentation centrée-réduite.
L’ACP opère toujours sur les représentations centrées. Pour simplifier la présentation, on considérera dans la suite que les variables ont été déjà centrées, dans le sens où
Les différentes variables Xj pouvant être hétérogènes, et correspondre à des échelles de mesure disparates, la représentation centrée-réduite est utilisée pour éviter que le choix de ces unités ait une influence dans le calcul des distances. Cette représentation rend les variables centrées et de variance 1.
Définition 2.2.Soit X1, . . . , Xn un nuage de points dont le barycentre coïncide avec l’origine (c’est le cas pour des variables réduites). L’inertie du nuage X1, . . . , Xn est donnée par
I = 1 ?n kXi 2.
k ni=1
L’inertie JH du nuageautour du sous-espace linéaire H est donnée par
1 ?n 2,
JH = kXi ? PHXik ni=1
où PHXi le projeté orthogonal de Xi sur H.
L’inertie JH autour de H mesure la déformation du nuage lorsque celui-ci est projeté orthogonalement sur H. Pour que la représentation des données par leur projection sur un sous-espace affine ait un sens, il faut qu’elle modifie peu la forme du nuage de points, donc qu’elle minimise l’inertie JH.
Remarquons que d’après le théorème de Pythagore, on a
I = 1 ?n k 2 + kPHXiJH + IH.
Xi ? PHXik
ni=1
Par conséquent, la moindre déformation d’un nuage de points par projection orthogonale sur un sous-espace linéaire est obtenue, de manière équivalente, par minimisation de l’inertie par rapport au sous-espace linéaire ou par maximisation de l’inertie du nuage projeté.
Dans le but de pouvoir visualiser le nuage de points des individus, on aimerait trouver dans Rp un sous-espace linéaire de dimension 2 (c’est-à-dire, un plan) qui approche bien les données. On est donc tout naturellement intéressé par la résolution du problème
H2 = arg min JH = arg max IH
| {z } | {z }
minimisation de la déformation du nuage maximisation de l’inértie du nuage projeté
D’une façon plus générale, on s’intéresse aux sous-espaces linéaires Hk, pour k ? {1, . . . , p ? 1}, définis par
Hk = arg min JH = arg max IH. (2.1)
H:dim(H)=k H:dim(H)=k
Par exemple, si le nuage des individus dans Rp n’est pas bien approximable par un plan, il pourrait être plus intéressant de considérer une visualisation 3 dimensionnelle en projetant les données sur H3. Dans certains cas, cela peut considérablement augmenter l’inertie du nuage projeté.
Montrons maintenant que la recherche d’un sous-espace affine de dimension fixée maximisant l’inertie du nuage projeté peut être menée de manière séquentielle et que l’inertie se décompose en la somme des inerties moyennes du nuage projeté sur des droites orthogonales, dites directions principales de l’ACP.
Soit ? la matrice de variance-covariance associée au nuage de points (dans la représentation centrée, les moyennes X¯ j sont nulles) :
? = 1(X)tX, n
autrement dit ?j,j0 = ?in=1xijxij0 est la covariance entre les variables d’intérêt Xj et Xj0. Notons au passage que lorsqu’on considère des variables réduites, la matrice ? est également la matrice des corrélations des variables Xj.
– Soit uk un vecteur propre unitaire de ? associée à la k-ième plus grande valeur propre. Alors Hk = Vect(u1, . . . , uk) est l’espace vectoriel engendré par les k premiers vecteurs propres de ?.
– La k-ième plus grande valeur propre?k de ? vaut l’inertie du nuage projeté sur le k-ième axe propre uk :
Iuk = ?k.
– l’inertie sur Hk est la somme des inerties moyennes sur les k axes propres principaux :
k
IHk = ??l.
l=1
Démonstration. Cherchons d’abord le vecteur unitaire, i.e. de norme 1, u maximisant l’inertie du nuage projeté sur u. Considérons la projection du nuage sur la direction donnée par le vecteur unitaire u. Le projeté Xi? de l’individu i s’écrit
Xi? = hu, Xiiu
et l’inertie du nuage projeté (nous nous plaçons toujours dans le cadre de la représentation réduite) est
Iu = 1 ?n khu, Xiiuk2 = 1 ?n hu, Xii2 = 1 ?n utXi(Xi)tu = ut?u.
ni=1 ni=1 ni=1
La matrice ? est symétrique, semi-définie positive ; elle est diagonalisable, a toutes ses valeurs propres réelles, et il existe une base orthonormale de vecteurs propres de Rp. Notons ?1 ? ? ?p les valeurs propres triées par ordre décroissant, et u1, , up les vecteurs propres unitaires associés. Alors
p p
Iu . j=1 j=1
Section 2.4 Représentations graphiques et interprétation
Il suffit alors de choisir u = u1 pour maximiser Iu.
Par conséquent, la meilleure droite de projection du nuage est celle de vecteur directeur u1, associé à la plus grande valeur propre ?1 de la matrice ?.
Pour les Hk suivants, on procède par récurrence. Ansi, pour H2 on cherche le vecteur directeur u2 orthogonal à u1 portant l’inertie maximale. Pour tout vecteur u orthogonal à u1, on a p
Iu .
j=2
Donc le maximum est atteint pour u = u2, et ainsi de suite.
Au passage, on a également prouvé la deuxième assertion du théorème : Iuk = ?k. La troisième assertion découle alors du théorème de Pythagore.
L’inertie I du nuage de points est donc égale à la trace de matrice de variance-covariance, ce qui implique I = p, en ACP normée. (En ACP non normée, elle vaut la somme des variances : I p p .) On définit la part d’inertie expliquée sur le l-ième axe propre :
?l = ?l/I. L’inertie portée par un sous-espace de dimension k est donc au mieuxl pour cent de l’inertie totale I.
Sur notre exemple concernant les billets suisses, on peut chercher à visualiser les proximités (en termes de distance normée sur les 6 caractéristiques) entre billets sur le premier plan factoriel (u1 horizontalement, u2 verticalement) (voir Fig.2.4 à gauche). Dans cet exemple,
FIGURE 2.4 – A gauche : projection des individus sur le premier plan factoriel. A droite : la même projection avec des symboles différents pour les billets authentiques et les billets contrefaits. Les triangles correspondent aux billets contrefaits, alors que les cercles représentent les billets authentiques.
l’inertie I = 4.494 se décompose sur les premiers axes ainsi : I1 = 3 (donc ?1 = 66.7%), I2 = 0, 93 (donc ?2 = 20.8%). On visualise donc de façon simplifiée, mais optimale (?1?2 = Iu1?u2 /I =87.5% de l’inertie représentée sur ce plan), les proximités entre les billets.
Les vecteurs directeurs de ces deux premiers axes s’expriment ainsi, dans l’ancienne base :
Vecteur propre | X1 | X2 | X3 | X4 | X5 | X6 | ||||||
u1 | ?0.04 | 0.11 | 0.14 | 0.77 | 0.20 | ?0.58 | 0.01 | 0.07 | 0.07 | ?0.56 | 0.66 | ?0.49 |
Reste à interpréter véritablement ces axes, et à comprendre quels sont les principales relations linéaires entre les caractéristiques techniques
Les composantes principales
La diagonalisation vue précédemment permet de définir p nouvelles variables 1 appelées composantes principales :
p
C Xu? ? Rn,
j=1
ou encore Ci? = hXi, u?i. Elles sont donc combinaisons linéaires des variables d’intérêt Xj initiales. Elles sont centrées puisque les Xj le sont, et on a :
p p
j X.
CovCov X ,
j=1 j0=1
0 si ? 6= ?,
Donc Cov C, ce qui veut dire que les différentes composantes prinsi ? = ?,
cipales sont non-corrélées.
On peut calculer la covariance entre les composantes principales et les variables initiales :
p p
CovCov .
j0=1 j0=1
Il s’ensuit que
Cov C pj
Corr q = ??u?/sj.
Var(C?)Var(Xj)
Donc ?jp=1 s2j Corr.
1. De même que précédemment, on confondra sous le vocable variable la forme linéaire, et sa réalisation surnos n individus, soit encore le vecteur de Rn associé.
2. Ce vecteur est dans le cercle unité car, dans Rn muni du produit scalaire hx, yi = ?in=1xiyi, c’est le vecteur
projeté orthogonal du vecteur unitaire Xj/sj sur le plan engendré par les vecteurs orthonormés C1/pVar(C1)
et C2/pVar(C2).
Section 2.4 Représentations graphiques et interprétation
Retour à l’exemple
On voit, dans cet exemple (voir la partie droite de la Fig. 2.5), que les variables X1, X2 et
X3 sont mal expliquées par les deux premiers axes principaux, car les points représentant ces variables sont éloignés du cercle. En revanche, les 3 autres points sont quasiment sur le cercle, ce qui veut dire que les variables X4, X5, X6 sont très bien expliquées par C1 et C2.
De plus, comme l’angle formé par les vecteurs OX??4 et OX??5 est proche de 90?, les variables X4 et X5 sont très faiblement corrélées.
Combien d’axes analyser ? Il existe plusieurs critères de décision.
Le premier (Kaiser) veut qu’on ne s’intéresse en général qu’aux axes dont les valeurs propres sont supérieures à la moyenne (qui vaut 1 en ACP normée).
Ainsi, dans notre exemple, on ne s’intéressera qu’aux 2 premiers axes.
FIGURE 2.5 – Représentation des valeurs propres et cercle des corrélations pour le premier plan factoriel
Si, pour les variables numériques, la visualisation des vecteurs à l’intérieur du cercle des corrélations donne toute l’information nécessaire à l’analyse, il peut être utile de définir, pour chaque individu, les aides suivantes :
– La contribution à l’inertie du nuage, qui croît avec l’excentricité de l’individu :
kXik2
CTR (Xi) = I
– La contribution à l’inertie portée par un axe (O, u?) :
Ci
CTR? (Xi) =
??
Par construction : ?in=1CTR (Xi) = 1, et ?in=1CTR? (Xi) = 1. La valeur de ces contributions dépend donc fortement du nombre d’individus : une contribution de 5% sera considérée comme forte si l’on manipule les données de milliers d’individus, nettement moins si l’on n’en a qu’une vingtaine (de façon générale, on considèrera que l’individu i a une contribution importante si elle dépasse son poids 1/n).
– La qualité de projection sur l’axe (O, u?) est donnée par le carré du cosinus de l’angle :
C
CO.
Par orthogonalité des u?, la qualité de projection d’un individu sur un sous-espace principal est additive : CO2?+? (Xi) = CO2? (Xi) + CO2? (Xi). D’autre part, on remarque que ??p=1CO2? (Xi) = 1 ; de même que précédemment, cette qualité dépend fortement du nombre initial de variables : on pourra être exigeant si l’on n’en manipule qu’une poignée, on le sera moins s’il y en a davantage.
Pour un axe donné, l’examen parallèle des CTR et des CO2 des individus qui s’y projettent peut donner lieu à quatre cas de figure, dont un pose problème (CO2 faible-CTR forte), qui apparaît lorsqu’un individu a un poids trop fort par rapport aux autres :
CTR faible | CTR forte | |
CO2 faible | Elément très contributif | |
quasi indépendant de l’axe | mais peu illustratif de l’axe | |
CO2 forte | Elément peu contributif | Elément particulièrement |
mais bien illustratif de l’axe | caractéristique de l’axe |
Tableau de données multivariées :
– variables :
– individus :
Matrice des corrélations :
Matrice de scatter-plots :
Représentation centrée :
Section 2.5 Résumé du Chapitre 2
Représentation centrée-réduite :
Analyse en Composantes Principales (ACP) :
– ACP normée :
– Inertie du nuage :
– Inertie autour d’un sous-espace :
– Composantes principales :
Représentation graphiques dérivées de l’ACP :
– Projection des individus :
– Scree-graph :
– Projection des variables :
X1 | X2 | X3 | X4 | X5 | X6 | X1 | X2 | X3 | X4 | X5 | X6 | |
214.8 214.6 214.8 214.8 215 215.7 215.5 214.5 214.9 215.2 215.3 215.1 215.2 214.7 215.1 214.5 214.6 215 215.2 214.7 215 215.6 215.3 215.7 215.1 215.3 215.5 215.1 215.1 214.8 215.2 214.8 215 215.6 215.9 214.6 215.5 215.3 215.3 213.9 214.4 214.8 214.9 214.9 214.8 214.3 214.8 214.8 214.6 214.5 | 131 129.7 129.7 129.7 129.6 130.8 129.5 129.6 129.4 130.4 130.4 129.5 130.8 129.7 129.9 129.8 129.9 129.9 129.6 130.2 129.9 130.5 130.6 130.2 129.7 130.4 130.2 130.3 130 129.7 130.1 129.7 130 130.4 130.4 130.2 130.3 129.9 130.3 130.3 129.8 130.1 129.6 130.4 129.4 129.5 129.9 129.9 129.7 129 | 131.1 129.7 129.6 129.7 130.5 129.7 129.2 129.7 130.3 130.3 129.6 129.6 129.7 129.7 129.8 130.1 129.7 129.6 129.9 129.3 130 130 130 129.9 130.4 130.1 130.3 130 129.3 129.8 129.7 129.6 130.1 130 130.2 130 129.4 130.1 129 129.2 129.6 129.4 129.7 129.1 129.4 129.7 129.7 129.8 129.6 | 9 8.1 8.7 7.5 10.4 9 7.9 7.2 8.2 9.2 7.9 7.7 7.9 7.7 7.7 9.3 8.2 9 7.4 8.6 8.4 8.1 8.4 8.7 7.4 8 8.9 9.8 7.4 8.3 7.9 8.6 7.7 8.4 8.9 9.4 8.4 7.9 8.5 8.1 8.9 8.8 9.3 9 8.2 8.3 8.3 7.3 7.9 7.8 | 9.7 9.5 9.6 10.4 7.7 10.1 9.6 10.7 11 10 11.7 10.5 10.8 10.9 10.8 8.5 9.8 9 11.5 10 10 10.3 10.8 10 10.8 11 9.8 9.5 10.5 9 10.7 9.1 10.5 10.3 10.6 9.7 9.7 10 9.3 9.7 9.4 9.9 9 9.8 10.2 10.2 10.2 10.9 10.3 9.8 | 141 141.7 142.2 142 141.8 141.4 141.6 141.7 141.9 140.7 141.8 142.2 141.4 141.7 141.8 141.6 141.7 141.9 141.5 141.9 141.4 141.6 141.5 141.6 141.1 142.3 142.4 141.9 141.8 142 141.8 142.3 140.7 141 141.4 141.8 141.8 142 142.1 141.3 142.3 140.9 141.7 140.9 141 141.8 141.5 142 141.1 142 | 214.6 215.3 214.5 215.4 214.5 215.2 215.7 215 215.1 215.1 215.1 215.3 215.4 214.5 215 215.2 214.6 214.8 215.1 214.9 213.8 215.2 215 214.4 215.2 214.1 214.9 214.6 215.2 214.6 215.1 214.9 215.2 215.2 215.4 215.1 215.2 215 214.9 215 214.7 215.4 214.9 214.5 214.7 215.6 215 214.4 215.1 214.7 | 129.8 130.6 130.1 130.2 129.4 129.7 130 129.6 130.1 130 129.6 129.7 129.8 130 130 130.6 129.5 129.7 129.6 130.2 129.8 129.9 129.6 129.9 129.9 129.6 129.9 129.8 130.5 129.9 129.7 129.8 129.7 130.1 130.7 129.9 129.9 129.6 130.3 129.9 129.7 130 129.4 129.5 129.6 129.9 129.7 130 130 | 129.4 130 130 130.2 129.5 129.4 129.4 129.4 129.9 129.8 129.3 129.4 129.4 129.5 129.8 130 129.2 129.3 129.8 130.2 129.5 129.5 130.2 129.6 129.7 129.3 130.1 129.4 129.8 129.4 129.7 129.6 129.1 129.9 130.2 129.6 129.7 129.2 129.9 129.7 129.3 129.9 129.5 129.3 129.5 129.9 130.3 129.5 129.8 129.4 | 7.2 9.5 7.8 7.6 7.9 9.2 9.2 8.8 7.9 8.2 8.3 7.5 8 8 8.6 8.8 7.7 9.1 8.6 8 8.4 8.2 8.7 7.5 7.2 7.6 8.8 7.4 7.9 7.9 8.6 7.5 9 7.9 9 8.9 8.7 8.4 7.4 8 8.6 8.5 8.2 7.4 8.3 9 9.1 8 9.1 7.8 | 10 9.7 10.9 10.9 10 9.4 10.4 9 11 10.3 9.9 10.5 10.6 10.8 10.6 10.6 10.3 9.5 9.8 11.2 11.1 10.3 10 10.5 10.6 10.7 10 10.6 10.9 10 10.3 10.3 9.7 10.8 11.1 10.2 9.5 10.2 11.2 10.5 9.6 9.7 9.9 10.7 10 9.5 10.2 10.3 10.2 10 | 141.3 141.1 140.9 141.6 141.4 142 141.2 141.1 141.3 141.4 141.6 141.5 141.5 141.4 141.5 140.8 141.3 141.5 141.8 139.6 140.9 141.4 141.2 141.8 142.1 141.7 141.2 141 140.9 141.8 140.6 141 141.9 141.3 141.2 141.5 141.6 142.1 141.5 142 141.6 141.4 141.5 141.5 142 141.7 141.1 141.2 141.5 141.2 |
TABLE 2.1 – Les données de billets suisses authentiques. Le tableau comprend 100 lignes (individus) et 6 colonnes (variables). Ces variables sont décrites dans la Fig. 2.1. Toutes les valeurs sont en mm.
Section 2.5 Résumé du Chapitre 2
X1 | X2 | X3 | X4 | X5 | X6 | X1 | X2 | X3 | X4 | X5 | X6 | |
214.4 214.9 214.9 215 214.7 215 215.3 214.8 215 215.2 215.2 215.1 215.4 214.9 215.5 214.7 214.7 214.8 214.4 214.8 215.1 215.3 215.1 214.7 214.9 215 215.5 215.1 214.5 214.3 214.5 214.9 214.6 214.2 214.8 214.6 214.9 214.6 214.5 214.8 214.7 214.6 215 214.5 214.9 215 215.3 214.7 214.9 | 130.1 130.5 130.3 130.4 130.2 130.2 130.3 130.1 130.2 130.6 130.4 130.5 130.7 130.4 130.3 130.4 130.6 130.4 130.5 130.2 130.3 130.6 130.8 130.7 130.5 130 130.4 130.7 130.2 130.2 130.2 130.2 130.5 130.2 130 130.1 129.8 130.7 130.4 130.5 130.2 130 130.2 130.5 129.8 130.6 130.5 130.6 130.2 129.9 | 130.3 130.2 130.1 130.6 130.3 130.2 130.1 130.4 129.9 130.8 130.3 130.3 131.1 129.9 130 130 130.1 130.1 130.2 129.9 130.4 130.3 131.1 130.4 130.5 130.3 130.4 130.3 130.2 130.6 130 129.8 130.2 130.4 130.2 130.1 130.2 130.3 130.4 130.2 130.3 129.4 130.4 130.4 129.8 130.4 130.4 130.3 130.1 130 | 9.7 11 8.7 9.9 11.8 10.6 9.3 9.8 10 10.4 8 10.6 9.7 11.4 10.6 8.2 11.8 12.1 11 10.1 10.1 12.3 11.6 10.5 9.9 10.2 9.4 10.2 10.1 9.8 10.7 12.3 10.6 10.5 11 11.9 10.7 9.3 11.3 11.8 10 10.2 11.2 10.6 11.4 11.9 11.4 9.3 10.7 9.9 | 11.7 11.5 11.7 10.9 10.9 10.7 12.1 11.5 11.9 11.2 11.5 11.5 11.8 11 10.8 11.2 10.5 10.4 11 12 12.1 10.2 10.6 11.2 10.3 11.4 11.6 11.8 11.3 12.1 10.5 11.2 11.5 11.8 11.2 11.1 11.1 11.2 10.8 10.2 11.9 11 10.7 11.1 10 10.5 10.7 11.3 11 12.3 | 139.8 139.5 140.2 140.3 139.7 139.9 140.2 139.9 139.4 140.3 139.2 140.1 140.6 139.9 139.7 139.2 139.8 139.9 140 139.2 139.6 139.6 140.2 139.7 140.1 139.6 140.2 140 140.3 139.9 139.8 139.2 139.9 139.7 139.5 139.5 139.4 138.3 139.8 139.6 139.3 139.2 139.9 139.9 139.3 139.8 139.9 138.1 139.4 | 214.9 214.6 214.6 214.5 214.5 215.1 214.2 214.4 214.8 214.6 215.6 214.9 214.6 214.7 214.3 215.1 216.3 215.6 214.8 214.9 213.9 214.2 214.8 214.8 214.8 214.9 214.3 214.5 214.8 214.5 215 214.8 215 214.6 214.7 214.7 214.5 214.8 214.8 214.6 215.1 215.4 214.7 215 214.9 215 215.1 214.8 214.7 214.3 | 130.3 129.9 129.7 130.1 130.3 130 129.7 130.1 130.4 130.6 130.1 130.5 130.1 130.1 130.3 130.3 130.7 130.4 129.9 130 130.7 130.6 130.5 129.6 130.1 130.4 130.1 130.4 130.5 130.2 130.4 130.6 130.5 130.5 130.2 130.4 130.4 130 129.9 130.3 130.2 130.5 130.3 130.5 130.3 130.4 130.3 130.3 130.7 129.9 | 129.9 129.7 129.3 130.1 130 130.3 129.6 130 130.6 130.1 129.7 130.1 130 130.2 130 130.6 130.4 130.1 129.8 129.9 130.5 130.4 130.3 130 130 130.2 130.1 130 130.3 130.4 130.1 130.6 130.1 130.4 130.1 130 130 129.7 130.2 130.2 129.8 130.6 130.2 130.3 130.5 130.3 129.9 130.4 130.8 129.9 | 11.9 11.9 10.4 12.1 11 11.6 10.3 11.3 12.5 8.1 7.4 9.9 11.5 11.6 11.4 10.3 10 9.6 9.6 11.4 8.7 12 11.8 10.4 11.4 11.9 11.6 9.9 10.2 8.2 11.4 8 11 10.1 10.7 11.5 8 11.4 9.6 12.7 10.2 8.8 10.8 9.6 11.6 9.9 10.3 10.6 11.2 10.2 | 10.6 10.1 11 10.3 11.5 10.5 11.4 10.7 10 12.1 12.2 10.2 10.6 10.9 10.5 12 10.1 11.2 12 10.9 11.5 10.2 10.5 11.6 10.5 10.7 10.5 12 12.1 11.8 10.7 11.4 11.4 11.4 11.1 10.7 12.2 10.6 11.9 9.1 12 11 11.1 11 10.6 12.1 11.5 11.1 11.2 11.5 | 139.8 139 139.3 139.4 139.5 139.7 139.5 139.2 139.3 137.9 138.4 138.1 139.5 139.1 139.8 139.7 138.8 138.6 139.6 139.7 137.8 139.6 139.4 139.2 139.6 139 139.7 139.6 139.1 137.8 139.1 138.7 139.3 139.5 139.4 138.5 139.2 139.4 139.2 139.4 138.6 139.2 138.5 139.8 139.6 139.7 140 139.4 139.6 |
TABLE 2.2 – Les données de billets suisses contrefaits. Le tableau comprend 100 lignes (individus) et 6 colonnes (variables). Ces variables sont décrites dans la Fig. 2.1. Toutes les valeurs sont en mm.
3 Rappel des bases de la statistique paramétrique
Dans ce chapitre, nous survolons rapidement les bases du calcul des probabilités et de la statistique. Toutes les notions et tous les résultats présentés ci-dessous constituent les prérequis pour ce cours de « Statistique numérique et analyse des données ». Pour une présentation plus détaillée des sujets traités dans ce chapitre voir le polycopié du cours de 1ère année
Les problèmes statistiques que nous allons étudier dans le cadre de ce module peuvent se résumer de la façon suivante : nous disposons d’un jeu de données qui sont supposées être générées par un phénomène aléatoire. (Rappelons que tout phénomène aléatoire est entièrement caractérisé par sa loi de probabilité.) De plus, nous considérons qu’un travail de modélisation a été effectué à l’issue duquel la loi de probabilité régissant les données a été déterminée à un paramètre inconnu près. Dans ce contexte, les trois types de problèmes que nous allons étudier sont :
estimation : trouver une valeur approchée du paramètre inconnu,
région de confiance : déterminer une région (aussi petite que possible) qui contient le paramètre inconnu avec une probabilité prescrite (généralement 95%),
test d’hypothèse : pour un ensemble ?0 de valeurs possibles du paramètre inconnu, décider au vu des données si oui ou non le paramètre inconnu appartient à ?0.
Afin de faciliter la compréhension, les différentes notions introduites dans ce chapitre seront illustrées dans les deux exemples suivants.
deux valeurs : 0 ou 1. Par convention, la valeur 0 correspond à un jour où le niveau 8 n’a pas été dépassé. Nous modélisons le dépassement du niveau 8 par l’indice ATMO par une variable aléatoire X de loi de Bernoulli ;
Proba(X = 1) = ??, Proba(X = 0) = 1 ? ??
pour une valeur ?? ?]0, 1[ qui nous est inconnue. Cette valeur représente la fréquence moyenne des jours où la qualité de l’air a été mauvaise à Paris.
Exemple 2. (Vitesse du vent) Afin d’étudier la possibilité de l’installation d’une centrale éolienne sur un site donné, on cherche à estimer la probabilité de l’événement « la vitesse du vent sur le site en question est inférieure à 10km/h ». L’intérêt à l’égard de cet événement vient du fait que, lorsque la vitesse du vent est inférieure à 10km/h, une centrale éolienne s’arrête en raison des forces de frottement sec qui s’opposent à la rotation de l’hélice. L’approche la plus simple consiste à modéliser la vitesse du vent sur le site en question à un instant donné par une variable aléatoire de loi exponentielle. En d’autres termes, si X représente la vitesse du vent, on suppose que
Z b
Proba(X ? [a, b]) = p(??; x) dx, p,
a
où ??> 0 est un paramètre inconnu. Si l’on admet que cette modélisation est correcte, on peut calculer la probabilité de l’événement A = « la vitesse du vent est inférieure à 10km/h » par la formule
Proba.
Nous commençons par donner la définition générale d’un modèle statistique, que nous illustrons par la suite dans les deux exemples présentés ci-dessus.
Définition 3.1.On appellemodèle statistique la donnée d’un espace mesurable (Xn, Fn) et d’une famille de mesures de probabilité Pn = {Pn,?, ? ? ?} définies sur (Xn, Fn). L’espace Xn, appeléespace d’états, est constitué de toutes les valeurs qu’aurait pu prendre le jeu de données étudié. La famille Pn décrit l’ensemble des lois de probabilité pouvant avoir généré le jeu de données étudié.
Pour un modèle statistique donné, la problématique générale de la théorie statistique s’énonce de la façon suivante : au vu d’une réalisation x(n) ? Xn tiré au hasard selon une loi Pn,?? ? P, étudier certaines propriétés de Pn,??. Le plus souvent x(n) est un vecteur. On cherche donc à caractériser la loi d’un vecteur aléatoire X(n) à partir d’une réalisation x(n). Bien-entendu, si l’on autorise la famille Pn à être une collection quelconque de lois sur (Xn, Fn), la tâche de l’extraction de l’information fiable sur la loi du vecteur aléatoire X(n) à partir d’une seule réalisation est irréalisable. Afin de pouvoir élaborer une théorie raisonnable et utile pour les applications, on se restreint au cas où la famille Pn a une certaine «structure». Exemples de telles structures sont le modèle à observations i.i.d., le modèle de régression linéaire, etc.
Proba(X1 ? A1, . . . , Xn ? An) = Proba(X1 ? A1) · . . . · Proba(Xn ? An)
= Proba(X ? A1) · . . . · Proba(X ? An)
quels que soient les intervalles A1, . . . , An ? R. Si P désigne la loi de X, on dit alors que X(n) est un échantillon i.i.d. de loi P. Par conséquent, pour définir un modèle à observations i.i.d., il suffit de décrire la famille P = {P?} qui est sensée contenir la loi P de X. Les deux exemples présentés dans l’introduction correspondent à des modèles à observations i.i.d. : dans le premier exemple P = {B(?) : ? ?]0, 1[} où B(?) désigne la loi de Bernoulli de paramètre ?, tandis que dans le deuxième exemple P = {E(??1) : ?> 0}, où E(?) désigne la loi exponentielle de paramètre ?> 0. En conséquence, dans le premier exemple ? = [0, 1] alors que dans le deuxième exemple ? =]0, ?[.
Tout au long de ce chapitre, on appellera statistique toute fonction de l’échantillon X(n).
Supposons maintenant qu’on dispose d’un échantillon i.i.d. X1, . . . , Xn de loi P ? P = {P? :
? ? ?}. Cela veut dire que pour un ?? ? ? inconnu, on a
iid
X1, . . . , Xn ? P??.
Par la suite, on appellera ?? la vraie valeur du paramètre. La première question qu’on se pose est celle du calcul d’une valeur approchée de ?? en utilisant uniquement l’échantillon observé.
Définition 3.2.Soit X1, . . . , Xn un échantillon i.i.d. de loi P ? P = {P? : ? ? ?} avec ? ? Rp pour un p? N. On appelleestimateur de??toute application mesurable
?¯ : Rn ? Rp.
Dans la statistique théorique, on identifie l’application?¯ au vecteur aléatoire?¯(X1, . . . , Xn).
E?? [?¯n] = ??, ??? ? ?,
où l’expressionE?? [?¯n] doit être lue comme « espérance du vecteur aléatoire ?¯n(X1, . . . , Xn) sachant que X1, . . . , Xn?iidP?? ». On dit que l’estimateur?¯n estconvergent (ou consistant), s’il converge en probabilité vers la vraie valeur, c’est-à-dire
lim? P?? (|?¯n ? ??| >?) = 0, ??> 0, ??? ? ?.
n?
La propriété de convergence est centrale en statistique, car elle indique que la valeur estimée de ?? calculée à l’aide de l’estimateur ?¯ est proche de ?? si la taille n de l’échantillon est suffisamment grande. Dans beaucoup de situations, il existe de nombreux estimateurs convergents. On s’intéresse alors aux propriétés plus raffinées des estimateurs : la vitesse à laquelle ?¯n tend vers ?? et la loi asymptotique de la différence ?¯n ? ?? proprement normalisée.
Définition 3.4.On dit que l’estimateur convergent?¯n est asymptotiquement de loi P?? avec la vitesse n??, où ?> 0, si
n, ??? ? ?,
où?Ldésigne la convergence en loi. Si P??? est la loi gaussienne, on dit alors que?¯n estasymptotiquement normal avec la vitesse n??et la variance limite .
Pour démontrer la convergence et la normalité asymptotique des estimateurs, on utilise le plus souvent les résultats probabilistes présentés dans le paragraphe suivant.
Soit ?1, ?2, . . . , ?n, . . . et ?? des variables aléatoires et soit F?n (x) = P(?n ? x) la fonction de répartition de ?n, n ? N ? {?}. On distingue les quatre types de convergence (de {?n} vers ??) suivants :
1. convergence en probabilité : pour tout ?> 0, on a limn?? P(|?n ? ??| >?) = 0,
3. convergence en moyenne quadratique : limn?? E[(?n ? ??)2] = 0,
4. convergence en loi : limn?? F?n (x) = F??(x) pour tout x ? R tel que F?? est continue en x.
Rappelons que les convergences presque sûr et en moyenne quadratique entraînent la convergence en probabilité et cette dernière entraîne à son tour la convergence en loi. Notons aussi que la définition de la convergence en loi, contrairement aux autres types de convergences précitées, ne sous-entend pas que les variables ?n soient définies sur le même espace probabilisé.
Théorème 3.1 (Loi forte des grands nombres).Soit X1, . . . , Xn des variables aléatoires i.i.d. intégrables :E[|X1|] <?. Alors,
1 n p.s.
Xn = ? Xi ?? E[X1], lorsque n ? ?,
ni=1
p.s. où ? désigne la convergence presque-sûr.
Théorème 3.2 (Théorème de la limite centrale).Soit X1, . . . , Xn des variables aléatoires i.i.d. de carré intégrables :E. Alors,
? L
n(Xn ? E[X1]) ?? N(0, Var[X1]), lorsque n ? ?.
Théorème 3.3 (Méthode delta).Soit X1, . . . , Xn des variables aléatoires i.i.d. de carré intégrables et soit G une fonction continûment différentiable sur un ensemble ouvert A tel que P(X1 ? A) = 1.
Alors,
, lorsque n ? ?,
avec la variance limite?2 = G0(E[X1])2Var[X1].
Théorème 3.4 (Théorème de Slutsky).Soit {?n}n?N {?n}n?N deux suites de variables aléatoires définies sur le même espace probabilisé. Si pour une constante a ? Ret pour une variable aléatoire ?? on a
L P
?n ???? ??, et ?n ???? an?? n??
alors
L L ?n + ?n ???? ?? + a, et ?n?n ???? a??. n?? n??
Après avoir vu ce que c’est un estimateur et quelles sont les propriétés souhaitées d’un estimateur, on s’intéresse naturellement à la mise en place d’une procédure générique permettant la construction d’un estimateur pour une large classe de modèles. On se focalise ici sur la méthode d’estimation la plus utilisée : le maximum de vraisemblance. De plus, pour éviter le rappel de notions abstraites (absolue continuité, théorème de Radon-Nykodim) de la théorie de la mesure, on ne donnera pas la définition de l’estimateur du maximum de vraisemblance (EMV) dans le cas le plus général des modèles dominés, mais seulement dans le cadre des modèles i.i.d. discrets et à densité.
Définition 3.5.On dira que le modèle à observations i.i.d. {P? : ? ? ?} estdiscret, s’il existe un ensemble A = {a1, a2, . . .} au plus dénombrable tel que P?(A) = 1 pour tout? ? ?. En d’autres termes, l’ensemble A contient toutes les valeurs possibles prises par les variables de l’échantillon.
L’exemple 1 considéré au début de ce chapitre porte sur un modèle discret, car les variables aléatoires constituant l’échantillon sont des variables de Bernoulli et, par conséquent, prennent leurs valeurs dans l’ensemble fini {0, 1}.
On caractérise un modèle discret par les probabilités discrètes
p(?; ak) = Proba(Xi = ak), ?ak ? A où X1, . . . , Xniid? P?. (3.1)
Z b
P?([a, b]) = Proba(Xi ? [a, b]) = p(?; x) dx, oùXi ? P?, (3.2)
a
pour tout a, b ? R.
Définition 3.7.Soit P = {P? : ? ? ?} un modèle i.i.d. discret ou à densité et soit p(?, x) la fonction définie par (3.1) dans le cas discret et par (3.2) dans le cas à densité. On appellefonction de vraisemblance l’application
n
pn : ? × Rn ? R+, pn(?; x1, . . . , xn) = ? p(?; xi). (3.3)
i=1
On appelleestimateur du maximum de vraisemblance (EMV), noté?ˆnMV, le point du maximum global (s’il existe) de l’application ? 7? pn(?, X1, . . . , Xn). On écrit alors
arg max pn(?; X1, . . . , Xn).
???
Dans l’exemple 1 portant sur la qualité de l’air, on dispose d’un échantillon i.i.d. X1, . . . , Xn de loi de Bernoulli B(??) avec ?? ? ? =]0, 1[. Il s’agit d’un modèle discret avec A = {0, 1}
et
( ?, p(?; x) = 1 ? ?, On vérifie facilement que cela équivaut à | si x = 1, si x = 0. |
p(?; x) = ?x(1 ? ?)1?x, x ? {0, 1}.
Par conséquent, la fonction de vraisemblance s’écrit comme
n
pn(?; x1, . . . , xn) = ??xi (1 ? ?)1?xi = ??ixi (1 ? ?)n??ixi.
i=1
On remarque d’abord que la fonction de vraisemblance est strictement positive sur ]0, 1[. Il en résulte qu’on peut remplacer le problème de maximisation de pn par celui de maximisation de ln = log pn :
?ˆnMV = arg max log pn(?; X1, . . . , Xn) = arg max nnX log ? + n(1 ? X) log(1 ? ?)o, ??]0,1[ ??]0,1[
où X i Xi. On vérifie aisément que la fonction
ln(?) = nX log ? + n(1 ? X) log(1 ? ?),
?ˆnMV = X.
Par la linéarité de l’espérance, on montre que cet estimateur est sans biais :
1 n 1 n
E?[X] = ? E?[Xi] = ?? = ?, ?? ? [0, 1]. ni=1 ni=1
?
De plus, c’est un estimateur consistant et asymptotiquement normal de vitesse 1/ n et de variance limite ?(1 ? ?).
La courbe de la fonction de log-vraisemblance ln pour trois échantillons i.i.d. de loi B(1/2) est représentée dans la Figure 3.1. On y voit clairement la nature aléatoire de l’estimateur du maximum de vraisemblance, qui est dû au fait que l’échantillon a été obtenu par un tirage aléatoire.
FIGURE 3.1 – Modèle de Bernoulli : la fonction de log-vraisemblance et son maximum global. Les trois courbes représentent la log-vraisemblance pour trois échantillons différents de taille 40. La vraie valeur du paramètre dans les trois cas est ?? = 1/2. Les valeurs estimées qu’on obtient pour ces échantillons sont ?ˆnMV = 0.5; 0.55; 0.425.
Dans l’exemple 2 portant sur la vitesse du vent, on dispose d’un échantillon i.i.d. X1, . . . , Xn de loi Exponentielle E(1/??) avec ?? ? ? =]0, +?[. Il s’agit d’un modèle à densité avec :
p(?; x) = ??1e?x/?1l[0,?[(x).
On en déduit la fonction de vraisemblance
n
pn(?; x1, . . . , xn) =??1e?x / = ??n exp n ? 1 ?n xio
i?
i=1 ?i=1
pour tout x1, . . . , xn ? 0. Comme on sait que l’échantillon X1, . . . , Xn est généré par une loi exponentielle, P(Xi ? 0; ?i = 1, . . . , n) = 1. On a donc la fonction de log-vraisemblance
ln(?) = ?n(log ? + ??1X), ??> 0.
]0, X] et décroissante sur [X, +?[. Il en découle que X est le point de maximum global de ln, ce qui entraîne que ?ˆnMV = Xn.
Comme dans l’exemple précédent, ici aussi l’estimateur X est sans biais. De plus, en vertu
de la loi forte des grands nombres et du théorème de la limite centrale, X est consistant et asymptotiquement normal de vitesse n?1/2 et de variance limite ??2, c’est-à-dire
.
Remarque 3.1.Dans les deux exemples précédents la méthode du maximum de vraisemblance nous a conduit à des estimateurs sans biais, consistants et asymptotiquement normaux de vitesse n?1/2. On peut naturellement se demander si ces propriétés sont caractéristiques aux deux modèles considérés ou si elles restent valables dans un cadre plus général. Nous ne donnerons pas ici une réponse exhaustive à cette question, mais seulement quelques éléments de réponse :
- l’EMV n’est en général pas sans biais (on dit qu’il est biaisé), mais son biais tend vers zéro lorsque n ? ? sous certaines conditions de régularité;
- il existe des conditions de régularité assez faibles sur l’application (?, x) 7? p(?; x) garantissant la consistance de l’EMV ainsi que sa normalité asymptotique avec la vitesse n?1/2.
FIGURE 3.2 – Modèle exponentiel : la fonction de log-vraisemblance et son maximum global. Les trois courbes représentent la log-vraisemblance pour trois échantillons différents de taille 40. La vraie valeur du paramètre dans les trois cas est ?? = 20. Les valeurs estimées qu’on obtient pour ces échantillons sont ?ˆnMV = 17.48; 22.61; 14.84.
1 p(?; x) = 1l[0,?](x).
?
Par conséquent, la fonction de vraisemblance a la forme
(
1 1, si xi ? [0, ?] ?i,
pn(?; x1, . . . , xn) =?n 0, sinon
= ??n1l
[x(n),+?[(?),
où x(n) = maxi=1, ,nxi. L’EMV est donc défini par
?ˆnMV = arg max?>0 ??n1l[X(n),+?[(?) = X(n) (= 1max?i?n Xi).
Vérifions d’abord que X(n) est biaisé. Pour cela, on introduit l’événement
A = {X1 ? ??/2; . . . Xn ? ??/2}
qui vérifie P?? (A) = (1/2)n> 0. Comme sur cet événement X(n) ? ??/2, on a
E
Il en résulte que ?ˆnMV = X(n) est un estimateur biaisé.
iid ?]) avec?? ?]0, +?[ et soit?ˆnMV = X(n).
Exercice 3.1.Soit X1, . . . , Xn ? U([0, ?
Section 3.4 Intervalle de confiance
FIGURE 3.3 – Modèle uniforme : la fonction de vraisemblance et son maximum global. Les trois courbes représentent la vraisemblance pour trois échantillons différents de taille 10. La vraie valeur du paramètre dans les trois cas est ?? = 1. Les valeurs estimées qu’on obtient pour ces échantillons sont ?ˆnMV = 0.98; 0.95; 0.87.
1. Vérifier que la fonction de répartition Fn de X(n)est donnée par
? ???0, ?)n, si xsi x ??]]0?, ???], 0, ],
Fn(? , x) = (x/?
??1, si x ?]??, +?].
En déduire la densité de?ˆnMV.
2. Vérifier que la quantité
Bn,
appelée le biais de?ˆnMV, est égale à??/(n + 1).
n. n??
La méthode du maximum de vraisemblance nous permet de calculer une estimation de la vraie valeur du paramètre. Cependant, ayant calculé cette estimation, on peut naturellement s’interroger sur sa qualité. Une façon largement répandue pour décrire la qualité de l’estimation consiste à fournir un intervalle de confiance ou, plus généralement, une région de confiance.
Définition 3.8.Soit X1, . . . , Xn un échantillon i.i.d. de loi P?? avec?? ? ? ? Rp. On appellerégion de confiance de niveau prescrit 1 ? ?, avec ? ? [0, 1], tout sous-ensemble In = I(X1, . . . , Xn) deRp tel que
P?? In contient , ??? ? ?. (3.4)
Si p = 1 et In est un intervalle, on l’appelleintervalle de confiance. Si au lieu d’avoir (3.4) pour n fixé, on l’a de façon asymptotique, c’est-à-dire
lim P?? In contient , (3.5) n??
alors on dit que In est une région de confiance de niveauasymptotique 1 ? ?.
La démarche générale pour construire un intervalle de confiance peut se résumer de la manière suivante.
1. On détermine un estimateur consistant ?¯n ; dans la plupart des cas, la loi de ?¯n est
concentrée autour de la vraie valeur ??. 2. On cherche un ?n = ?(X1, . . . , Xn) > 0 tel que | |
P?? (|?¯n ? ??| >?n) ? ?, | ??? ? ?, |
et l’on définit In = [?¯n ? ?n, ?¯n + ?n].
Remarque 3.2.Si la loi de?¯n ? ??est fortement asymétrique, on remplace la seconde étape par la recherche de deux variables aléatoires ?n = ?(X1, . . . , Xn) , . . . , Xn) > 0 telles que
P, et P,
pour tout?? ? ?, et l’on définit In .
Afin de clarifier le schéma présenté ci-dessus, considérons deux exemples.
de loi B(??) avec ?? ?]0, 1[. Nous avons déjà vu que l’EMV ?ˆnMV = X est consistant dans ce modèle. On cherche donc un ?n tel que
P, ??? ?]0, 1[. (3.6)
D’après l’inégalité de Tchebychev, on a
P.
Or, comme Xn est sans biais, il vient
E?? [(Xn n2 n .
En combinant les deux inégalités précédentes avec l’inégalité élémentaire ab ? (a + b)2/4, on obtient
P.
Il en résulte qu’en choisissant ?n2 = 1/(4n?), l’inégalité (3.6) sera satisfaite. Par conséquent,
In ; Xn
est un intervalle de confiance (IC) de niveau 1 ? ? pour ??. On remarque que le ?n qu’on a trouvé n’est pas aléatoire. En d’autres termes, la longueur de l’IC ne dépend pas de l’échantillon qu’au travers de sa taille n.
FIGURE 3.4 – A gauche : les intervalles de confiance de niveau 90% pour ? = 0.25 dans le modèle de
Bernoulli. On a tiré au hasard 40 échantillons de taille 400. En particulier, on remarque sur le graphe ci-dessus que tous les 40 intervalles contiennent la valeur 0.25 et sont tous de même taille. A droite : les intervalles de confiance de niveau 90% pour ?? = 5 dans le modèle exponentiel. On remarque que sur 40 échantillons de taille 400 tirés au hasard, 4 fois l’intervalle de confiance calculé ne contient pas la vraie valeur.
3.4.2 Modèle exponentiel : intervalle de confiance asymptotique Considérons maintenant l’exemple de modèle exponentielle :
X1, . . . , Xn, .
un intervalle de confiance sous la forme [Xn ? ?n, Xn + ?n]. Dans ce cas, il est impossible
d’appliquer la stratégie utilisée dans l’exemple précédent, car la variance de Xn égale à ??2/n n’est pas bornée sur ? =]0, +?[.
Supposons que la taille n de l’échantillon est suffisamment grande. On peut alors utiliser
une approximation de la loi de Xn par une loi normale, car en vertu du théorème de la limite centrale (TLC),
.
(L’utilisation du TLC est justifiée puisque E
Cela implique que
et, par conséquent,
, ?A ? BR,
n
où ? ? N(0, 1). On peut démontrer que le plus petit ensemble A tel que P(? ? A) = 1 ? ? pour ? ? N(0, 1) est A = [?q1N??/2, q1N??/2] où q1N??/2 désigne le quantile d’ordre 1 ? ?/2 de
FIGURE 3.5 – La courbe de la densité de la loi normale centrée réduite et les quantiles d’ordre 1??/2. la loi normale centrée réduite (voir la Figure 3.5). En choisissant A de cette façon, on obtient
n [?q1N??/2, q1N??/2].
Pour conclure, il suffit de remarquer que
N
q1N??/2, q1N??/2] ? , 1 ?
? ? .
On en déduit que
Xn
In = N / n), 1 ? (q1??/2/?n)
1 + (q1??/2
est un intervalle de confiance de niveau asymptotique 1 ? ? pour ??.
Exercice 3.2.Soit X1, . . . , Xn un échantillon i.i.d. de loi E(1/??) avec?? ?]0, ?[.
1. Prouver que ?
n(Xn ? ??) ???L? N(0, 1).
Xn n??
2. En déduire que
I˜n
est in IC de niveau asymptotique? pour??.
3. Démontrer que, pour les grandes valeurs de n, les intervalles In et I˜n sont très proches. Plus précisément, montrer que siq1N???n/2 ? 1/2 alors
|In \ I˜n| + |I˜n \ In| ? 2q?1N??/2 .
|I˜n| n
Exercice 3.3.Vérifier que, dans le modèle de Bernoulli X1, . . . , Xn? Biid (??),
I˜n = Xn ? ? /2 ; Xn ? n n
est un intervalle de confiance de niveau asymptotique 1 ? ? pour le paramètre??
Section 3.5 Test d’hypothèses
On est donc intéressé par tester l’hypothèse
H0 : ?? ? ?0 contre H. (3.7)
On dit que H0 est l’hypothèse nulle et H1 est l’hypothèse alternative. La décision quant au rejet (ou pas) de l’hypothèse nulle doit bien-entendu être prise au vu de l’échantillon observé. Par conséquent, une procédure de test peut être considérée comme une partition de l’ensemble Rn (c’est l’ensemble des valeurs prises par l’échantillon) en deux classes. Si l’échantillon observé appartient à la première classe de la partition, on rejette l’hypothèse nulle, sinon on l’accepte. Ce raisonnement nous conduit à la définition suivante.
Définition 3.9.On appellerégion critique ourégion de rejet, notée Rn, toute partie mesurable de
Rn. La procédure de test associée à la région critique Rn consiste à - rejeter H0si (x1, . . . , xn) ? Rn, - ne pas rejeter H0si (x1, . . . , xn) 6? Rn.
Lorsqu’on effectue un test en utilisant une procédure basée sur la région critique Rn, deux types d’erreurs sont possibles. L’erreur de première espèce consiste à rejeter à tort l’hypothèse H0. Par opposition, l’erreur de deuxième espèce consiste à accepter à tort l’hypothèse H0. Comme la décision est prise au vu d’un échantillon aléatoire, chacune de ces deux erreurs a une certaine probabilité (généralement non nulle) d’être commise.
Définition 3.10.Lerisque de première espèce d’une procédure de test Rn, noté ?(Rn) est la plus grande valeur atteinte par la probabilité de commettre l’erreur de première espèce :
?(Rn) = sup P?? (X1, . . . , Xn).
????0
?(Rn) = sup P?? (X1, . . . , Xn).
??6??0
On appellepuissance d’une procédure de test Rn l’application qui à chaque valeur? 6? ?0associe la probabilité de rejeter H0: ?Rn (?) = P? (X1, . . . , Xn).
En utilisant ce vocabulaire, une procédure de test Rn serait idéale si les risques de première et de deuxième espèce étaient tous les deux égaux à zéro : ?(Rn) = ?(Rn) = 0. Malheureusement, sauf dans des cas très spécifiques, il n’existe pas de procédure idéale et on doit se contenter par des procédures dont les risques sont contrôlés.
Définition 3.11.Soit? ?]0, 1[ une valeur donnée. Une procédure de test Rn est dite de niveau? si son risque de première espèce ne dépasse pas le niveau? :
?(Rn) ? ?.
On dit que Rn estasymptotiquement de niveau ? si limn???(Rn) ? ?.
Il existe en général un grand nombre de procédures de test de niveau ?. L’une des approches les plus répandues pour départager deux procédures de niveau ? est de donner la préférence à celle dont la puissance est plus grande partout sur ?0c. Dans la même logique, un test de niveau asymptotique ? est dit convergent (et considéré comme un bon test) si pour tout ? 6? ?0 fixé, la puissance ?Rn (?) tend vers 1. Même si l’évaluation de la puissance est une étape importante dans l’étude d’une procédure de test, nous avons fait le choix de ne pas approfondir cette question dans ce cours.
Nous présentons ici un schéma générique qui comprend la plupart des stratégies usuelles de construction des procédures de test pour le problème (3.7). Il s’agit d’effectuer les étapes suivantes :
1. Déterminer un estimateur consistant, noté ?ˆn, du paramètre inconnu ??.
2. Déterminer une fonction T : R × ? ? R telle que
(a) pour tout ?? ? ?, la fonction u 7? T(?? + u, ??) est continue et ne s’annule qu’en 0, c’est-à-dire T(?? + u, ??) = 0 si et seulement si u = 0.
3. Définir, pour deux valeurs réelles a, b telles que a ? 0 ? b, Rn = {(x1, . . . , xn) : T(?ˆn, ?) 6? [a, b] ?? ? ?0}.
4. Choisir a et b de telle sorte que Rn soit de niveau ?.
La justification de cette stratégie est simple. La fonction T joue le rôle d’une distance (signée) entre l’estimateur et les valeurs possibles du paramètre inconnu ??. Comme ?ˆn est consistant et T est continue par rapport à la première variable, on a T(?ˆn, ??) ? T(??, ??) = 0. Par conséquent, si l’hypothèse nulle H0 : ?? ? ?0 est vraie, il existe un élément ? de ?0 tel que T(?ˆn, ?) se trouve dans un voisinage de 0. Cela nous conduit à accepter H0 si T(?ˆn, ?) ? [a, b] pour un élément ? ? ?0 et de la rejeter dans le cas contraire. D’où la définition de la région critique ci-dessus.
Remarque 3.3 (Loi symétrique).Dans la plupart des exemples que nous allons considérer par la suite, la loi de la variable aléatoire T(?ˆn, ??) sera symétrique par rapport à zéro. On prendra alors a = ?b et on pourra réécrire Rn sous la forme
Rn = {(x1, . . . , xn) .
Remarque 3.4 (Test asymptotique).Si on cherche un test de niveau asymptotique?, la condition 2(b) peut être remplacée par la suivante : pour tout?? ? ?0, la variable aléatoire T(?ˆn, ??) converge en loi vers une variable aléatoire dont la loi ne dépend pas de??.
Section 3.5 Test d’hypothèses
Rn,, . . . , xn) : Sn(x1, . . . , xn)
où Sn est une statistique de test et C? est un nombre réel appelé seuil critique du test. Ici, on a ajouté un indice ? à la région critique Rn pour souligner le fait que le test est de niveau ?. Considérons le cas où sup P?? (X1, . . . , Xn).
????0
Intuitivement, il est claire que la région Rn,? grossit lorsque ? augmente. Il existe donc une valeur ?? pour laquelle Rn,?? contient la réalisation observée x1, . . . , xn, alors que pour tous les ?< ??Rn,?? ne contient pas la réalisation observée. Cette valeur ?? est appelée p-value du test Rn,?.
Définition 3.12.On appelle p-value d’un test Rn = Rn,?, notée ??(Rn), la plus petite valeur de ? pour laquelle le test Rn rejette l’hypothèse H0.
En pratique, si la p-value d’un test est inférieure à 5%, alors l’hypothèse H0 sera rejeté au seuil de 5%. De plus, une p-value très petite traduit l’évidence de la décision concernant le rejet de H0.
iid ?) et on cherche à tester l’hypothèse
On observe X1, . . . , Xn ? B(?
H0 : ?? = ?0
contre l’alternative bilatérale
H1 : ?? 6= ?0
où ?0 = 10%. En suivant le schéma générique, on utilise comme estimateur de ?? la propor-
tion empirique Xn=n1 ?in=1Xi. D’après le théorème de la limite centrale, on a
ou encore
.
?
? (1 ? ??) n?
Par conséquent, on pose
T
et
Rn = {(x1, . . . , xn) : |T(Xn, ?0)| >b}.
Pour que Rn soit de niveau ?, il faut que limn?? P?0 (|T(Xn, ?0)| >b) ? ?. Or, la convergence en loi établie ci-dessus implique que
nlim?? P?0 (|T(Xn, ?0)| >b) = P(|?| >b), ? ? N(0, 1).
Nous avons donc construit la procédure de test suivant :
- on rejette H0 : ?? = ?0, avec ?0 = 10%, si 0.3 · qN
N ?? |
q1??/2 Xn ? 0.1| > ?1??/2 .
n - on ne rejette pas H0 si l’inégalité ci-dessus n’est pas satisfaite.
iid ?) et on cherche
Plaçons-nous maintenant dans la situation où on observe X1, . . . , Xn ? E(1/? à tester l’hypothèse
H0 : ?? ? ?0
contre l’alternative unilatérale
H1 : ??< ?0
avec, par exemple, ?0 = 2. Comme dans l’exemple précédent, on utilise l’EMV de ?? qui
n’est autre que la moyenne empirique ?ˆnMV = Xn et qui vérifie
?n(Xn ? ??) ???L? N(0, ??2) n??
en vertu du théorème de la limite centrale. Posons
T et Rn , . . . , xn) .
On vérifie aisément que
?? Xn< ?0(1 ? bn?1/2).
On veut donc déterminer b de telle sorte que
. n
On peut vérifier que la loi de X¯ n/?? est absolument continue et ne dépend pas de ??, ce qui implique que
FXn/
= FXn/
Xn/
???? P(?< ?b) = P(?> b) = 1 ? P(? ? b) n??
où ? ? N(0, 1). Pour que le test soit de niveau asymptotique ?, on choisit b .
Section 3.7 Exercices
Exercice 1. On observe un échantillon X1, . . . , Xn de loi double exponentielle translatée. C’est-
iid ? ? ? R et P?? a pour densité la fonction à-dire, X1, . . . , Xn ? P? où ?
p, ?x ? R.
1. Vérifier que p(??, ·) est bien une densité de probabilité et prouver que la médiane empirique de l’échantillon X1, . . . , Xn est l’EMV de ??.
2. Montrer que la moyenne empirique de l’échantillon est un estimateur consistant et asymptotiquement normal de ??.
3. On suppose que n est grand et on admet le résultat suivant : si X1, . . . , Xn sont i.i.d. de densité p dont la médiane est ??, alors la médiane empirique Mec n de
?)?n(Mec n ? ??) ???L?? N(0, 1). l’échantillon X1, . . . , Xn vérifie 2p(?n?
Au vu de ce résultat et de celui de la question 2, lequel des deux estimateurs Mec n
et Xn préféreriez-vous.
Exercice 2. Soient X1, . . . , Xn des variables i.i.d. de loi exponentielle E(1/??) avec ??> 0.
1. Montrer que la fonction T(x, ?) = (x ??)/? vérifie les conditions 2(a) et 2(b) (voir
paragraphe 3.5.2) avec ?ˆn = Xn.
2. En déduire un test d’hypothèse H0 : ?? = 1 contre H1 : ?? 6= 1.
2. Modèle à observations i.i.d. :x(n) est une réalisation d’un vecteur aléatoire X(n) = (X1, . . . , Xn) dont les coordonnées sont des variables aléatoires indépendantes et identiquement distribuées (i.i.d.).
3. Modèle discret : un modèle à observations i.i.d. tel que X1 prend ces valeurs dans un ensemble fini ou dénombrable, noté A = {a1, a2, . . .}. Un modèle discret est caractérisé par les valeurs p(?; ak) = P?(X1 = ak).
4. Modèle à densité : un modèle à observations i.i.d. tel que X1 admet une densité par rapport à la mesure de Lebesgue, noté p(?; x). Cela équivaut à P?(X1 ? I) = RI p(?; x) dx pour tout intervalle I et tout ? ? ?.
5. Echantillon : le vecteur aléatoire dont on a observé une réalisation. Dans le modèle à observations i.i.d., c’est simplement une suite X1, . . . , Xn de variables aléatoires i.i.d. de loi P??.
6. Statistique : toute variable aléatoire de forme Y = g(X1, . . . , Xn) où g est une fonction mesurable.
7. Vraisemblance : pour un modèle à observations i.i.d., qu’il soit discret ou à densité, la fonction de vraisemblance est donnée par la formule :
n
pn(?; x1, . . . , xn) = ? p(?; xi).
i=1
Pour un modèle discret, p(?; xi) est la probabilité de la valeur xi si la vraie valeur du paramètre est ?. Pour un modèle à densité, p(?; xi) est la valeur de la densité, lorsque la vraie valeur du paramètre est ?, évaluée au point xi.
8. Log-vraisemblance : étant donné les observations X1, . . . , Xn, la log-vraisemblance est :
n
ln(?) = log pn(?; X1, . . . , Xn) = ? log p(?; Xi).
i=1
Cette fonction peut prendre la valeur ?? si l’argument du log s’annule.
Pour un échantillon X1, . . . , Xn donné, on appelle estimateur toute statistique des X1, . . . , Xn :
?ˆn = gn(X1, . . . , Xn).
1. Estimateur sans biais : E?[?ˆn] = ? pour tout ?.
?
3. Estimateur asymptotiquement normal (de vitesse 1/ net de variance limite
.
4. Estimateur du maximum de vraisemblance : la valeur du paramètre ? qui maximise la vraisemblance pn(?; X1, . . . , Xn) ou, de façon équivalente, la log-vraisemblance ln(?), est appelée estimateur du maximum de vraisemblance et est notée ?ˆnMV.
1. Intervalle de confiance de niveau 1 ? ?: on dit que l’intervalle I qui dépend de l’échantillon X1, . . . , Xn est un intervalle de confiance de niveau 1 ? ? pour le paramètre ?, si P?? (?? ? I) ? 1 ? ?. Si cette inégalité est stricte, on parle d’un intervalle de confiance par excès.
2. Intervalle de confiance de niveau asymptotique 1 ? ?: on dit que l’intervalle In qui dépend de l’échantillon X1, . . . , Xn est un intervalle de confiance de niveau asymptotique 1 ? ? pour le paramètre ?, si limn?? P?? (?? ? In) ? 1 ? ?.
3. Exemple générique : si ?ˆn est un estimateur consistant de ? tel que
et l’application est continue, alors
In
est un intervalle de confiance de niveau asymptotique 1 ?? pour ??. Ici, q1N??/2 désigne le quantile d’ordre 1 ? ?/2 de la loi normale centrée réduite : N(0, 1).
Section 3.7 Résumé du Chapitre 3
On cherche à tester l’hypothèse nulle H0 : ?? ? ?0 contre l’alternative H1 : ?? ? ?1.
1. On dit que l’hypothèse H0 est simple, si ?0 ne contient qu’un seul élément :?0 = {?0}. Une hypothèse qui n’est pas simple est dite composite.
3. Erreur de première espèce : le fait de rejeter à tort l’hypothèse nulle.
4. Erreur de deuxième espèce : le fait de ne pas rejeter l’hypothèse H0, alors qu’il fallait le faire.
5. Risque de première espèce : la probabilité de l’erreur de première espèce :
sup P?? (X1, . . . , Xn).
????0
6. Risque de deuxième espèce : la probabilité de l’erreur de deuxième espèce :
sup P?? (X1, . . . , Xn) .
????1
7. Test de niveau?: le risque de première espèce ne dépasse pas le niveau ?.
8. Test de niveau asymptotique?: la limite (inférieure) lorsque n ? ? du risque de première espèce ne dépasse pas ?.
9. Puissance d’un test : la fonction
, . . . , Xn), .
Entre deux tests de niveau ?, celui dont la puissance est plus grande est préférable.
10. P-value d’un test : soit R? la région critique d’un test (de niveau ?). Etant donné les observations x1, . . . , xn, la p-value du test R? est la plus grande valeur de ? pour laquelle l’hypothèse H0 n’est pas rejetée : max{? : (x1, . . . , xn) 6? R?}.
11. Interprétation : une p-value élevée suggère que l’hypothèse nulle ne doit pas être rejetée. Typiquement, si la p-value est > 5% on ne rejette pas l’hypothèse nulle.
Le statisticien planifie une expérience statistique en fonction d’un objectif qui est souvent l’étude de l’effet de certains facteurs de variabilité d’un phénomène. Ces facteurs sont présents sous plusieurs modalités.
L’objectif de la construction de plans d’expérience est de mettre en place un dispositif expérimental permettant d’aboutir à une interprétation statistique des résultats notamment à l’aide de tests d’hypothèses. Pour cela il faut construire un modèle statistique qui distinguera parmi les facteurs de variabilité les facteurs contrôlés et les facteurs aléatoires.
Ce type d’expérience statistique peut être décrit avec le modèle général suivant :
Y = f(?) + ?,
où
– Y = (Yi)i=1, ,n désigne les observations effectuées.
– ? = (?1, . . . , ?p) est un vecteur de paramètres inconnu caractérisant les facteurs contrôlés que l’on souhaite étudier à l’aide de ces observations.
– ? = (?i)i=1, ,n sont des variables aléatoires indépendantes et centrées, représentant l’erreur expérimentale. Le modèle est gaussien si ? est un vecteur gaussien centré.
– f(·) est une application connue qui fixe le modèle. Ce modèle est linéaire si f(?) est une application ? 7? X? où X est une matrice. Le modèle s’écrit alors matriciellement :
Y = X? + ?.
Dans la suite nous considérerons des modèles linéaires gaussiens. Ces deux hypothèses (linéarité et caractère gaussien de l’erreur) doivent être validées. Pour les vérifier on peut, soit utiliser la connaissance a priori que l’on a du modèle, soit construire des tests.
Dans certains cas, lorsqu’il y a plusieurs observations, le caractère gaussien peut être une conséquence du théorème de la limite centrale. Enfin, dans de nombreux cas, on peut rendre le modèle gaussien et linéaire en effectuant des transformations sur les observations.
Dans ce paragraphe nous proposons des exemples illustrant la problématique précédente. Dans les sections suivantes, nous donnerons les éléments permettant de résoudre ce type de problèmes.
Foret 1 | Foret 2 | Foret 3 |
n1 = 13 arbres | n2 = 14 | n3 = 10 |
23.4 | 22.5 | 18.9 |
24.4 | 22.9 | 21.1 |
24.6 | 23.7 | 21.2 |
24.9 | 24.0 | 22.1 |
25.0 | 24.4 | 22.5 |
26.2 | 24.5 | 23.5 |
26.3 | 25.3 | 24.5 |
26.8 | 26.0 | 24.6 |
26.8 | 26.2 | 26.2 |
26.9 | 26.4 | 26.7 |
27.0 | 26.7 | |
27.6 | 26.9 | |
27.7 | 27.4 28.5 |
TABLE 4.1 – Hauteurs d’arbres dans 3 forêts
Le facteur étudié est ici l’influence de la forêt sur la hauteur de ces arbres. La variabilité de la hauteur due ici au tirage d’un échantillon aléatoire dans chaque forêt se décompose donc naturellement en une partie controlée, le facteur (forêt), et une partie aléatoire, la variabilité intrinsèque à la pousse des arbres due au terrain, à la lumière, à la présence ou non d’un autre arbre à proximité
On peut supposer que les hauteurs des différents arbres sont indépendantes (ce qui exige que l’on ne mesure pas des arbres trop rapprochés les uns des autres), et que, pour la forêt numéro k, la mesure d’un arbre suit une loi gaussienne de moyenne mk et de variance?k2; on peut alors comparer les 3 Section 4.1 Généralités
échantillons 2 à 2. Mais si la variabilité des hauteurs des arbres peut être considérée comme identique d’une forêt à l’autre (?12 = ?22 = ?32 = ?2) on observe trois échantillons gaussiens de même variance 2 et de moyennes différentes qui représentent l’effet de chaque forêt (les modalités du facteur “forêt”)
?
sur la pousse des arbres. L’hypothèse d’égalité des variances est appeléehomoscédasticité. Avec ces hypothèses on peut alors écrire :
Yi,j = mi + ?i,j pour la j-ième mesure de la forêt i, j = 1, . . . , ni, i = 1, 2, 3, où? ? N(0, ?2). Ceci s’écrit avec une notation matricielle :
Y = X? + ?,
Y = (Y1,1, . . . ,Y1,n1,Y2,1, . . . ,Y2,n2,Y3,1, . . . ,Y3,n3 )t,
? 1 0 0 ? . ? .. ?? ? ? 1 0 0 ?? ? ? ? ? ? ?? ? ? ? ? 0 1 0 ? ? X = ????? , ? ? ? 0 1 0 ? ? ? ? ? ? ? ? ? ? ? 0 0 1 ? ???? ? ? 0 0 1 | ? m1 ? ? = ? m2 ? m3 |
Ce problème est un problèmed’analyse de la variance à un facteur. Pour répondre à la question “existe-t-il un effet forêt”, on construira un test statistique dont l’hypothèse nulle est :
H0 : m1 = m2 = m3.
Exemple 4.2.Le tableau suivant donne le nombre de jours de pluie et la hauteur de pluie en mm, observés pendant toute l’année à Paris de 1956 à 1995.
Une représentation sur un graphique (fig. 4.1) des données avec en abscisse le nombre de jours de pluie et en ordonnée la hauteur de pluie permet de constater que l’ensemble des points forme un nuage allongé et que la quantité de pluie augmente lorsque le nombre de jours de pluie augmente.
Le facteur hauteur de pluie est alors un facteur à expliquer par le facteur explicatif contrôlé nombre de jours de pluie.
La question que l’on se pose est de savoir si ces deux quantités sont liées par une relation affine, de calculer les paramètres de cette relation et d’avoir une indication sur le caractère prédictif de ce modèle (autrement dit, peut-on déduire de façon satisfaisante la hauteur de pluie à partir du nombre de jours de pluie?).
Le modèle statistique que l’on propose est le suivant :
Yi = ? + ? Xi + ?i
où :
Années | 1956 | 1957 | 1958 | 1959 | 1960 | 1961 | 1962 | 1963 | 1964 | 1965 |
Jours | 154 | 161 | 193 | 131 | 198 | 152 | 159 | 159 | 146 | 196 |
Hauteur | 545 | 536 | 783 | 453 | 739 | 541 | 528 | 559 | 521 | |
Années | 1966 | 1967 | 1968 | 1969 | 1970 | 1971 | 1972 | 1973 | 1974 | 1975 |
Jours | 192 | 161 | 176 | 173 | 199 | 141 | 170 | 156 | 198 | 164 |
Hauteur | 834 | 592 | 634 | 618 | 631 | 508 | 740 | 576 | 668 | 658 |
Années | 1976 | 1977 | 1978 | 1979 | 1980 | 1981 | 1982 | 1983 | 1984 | 1985 |
Jours | 135 | 179 | 171 | 172 | 170 | 197 | 173 | 177 | 177 | 163 |
Hauteur | 417 | 717 | 743 | 729 | 690 | 746 | 700 | 623 | 745 | 501 |
Années | 1986 | 1987 | 1988 | 1989 | 1990 | 1991 | 1992 | 1993 | 1994 | 1995 |
Jours | 176 | 180 | 167 | 140 | 149 | 140 | 154 | 155 | 192 | 162 |
Hauteur | 611 | 707 | 734 | 573 | 501 | 472 | 645 | 663 | 699 | 670 |
TABLE 4.2 – Jour et quantité de pluie par années
FIGURE 4.1 – Représentation des données
– Y = (Yi)i=1, ,ndésigne la hauteur de pluie.
– (Xi)i=1, ,ndésigne le nombre de jours de pluie
– la droite d’équation
y = ? x + ?
est appelée droite de régression;? et? sont à estimer à partir des observations.
– ? = (?i)i=1, ,nreprésente les écarts aléatoires entre les observations et la droite. On supposera que c’est une suite de variables aléatoires indépendantes de loi N(0, ?2).
Le modèle peut alors s’écrire :
Y = X? + ?
Section 4.2 en notant : | Lois associées aux échantillons gaussiens ?1 X1? |
?1 X2?
X = ??? ??? , et
1 Xn
C’est un modèle derégression linéaire simplequi sera étudié en 4.4.
Rappelons pour commencer les définitions des lois associées aux échantillons gaussiens qui nous serons utiles dans la suite.
Définition 4.1.
Si X ? N(0, 1), Y ? ?2(n) et que X et Y sont indépendantes, alors,loi de Student à n degrés de liberté.
Si X ? ?2(n), Y ? ?2(m) et que X et Y sont indépendantes, alors YX//mn ? F(n, m),loi de Fisher (ou de Fisher-Snedecor) à n et m degrés de liberté.
Enfin, on utilise souvent la convention pratique suivante : si une v.a. X a pour loi F, on note aF la loi de aX. Ainsi, on notera ?2?2(n) la loi de Xi2 dans le cas où (X1, . . . , Xn) forment un n-échantillon de la loi N(0, ?2).
C’est l’outil fondamental pour l’étude des échantillons gaussiens et du modèle linéaire gaussien (la notation || · || désigne la norme euclidienne dans Rn).
Théorème 4.1.Soit Y = (Y1, . . . ,Yn) un n-échantillon de N(0, 1), et E1, . . . , Ep une suite de p sous-espaces deux-à-deux orthogonaux deRn, avec dim(Ej) = dj, j = 1, . . . , p. Alors on a :
(i) Les composantes de Y dans toute base orthonormale deRn forment encore un n-échantillon de N(0, 1).
(ii) Les vecteurs aléatoires YE1, . . . ,YEp, qui sont les projections de Y sur E1, . . . , Ep, sont indépendants.
(iii) Les variables aléatoires ||YE1 ||, . . . , ||YEp || sont indépendantes, et ||YEj ||2 ? ?2(dj), j = 1, . . . , p.
Une formulation équivalente consiste à dire (par exemple avec p = 2), que si P1 et P2 sont deux projecteurs orthogonaux de Rn sur deux sous-espaces orthogonaux E1 et E2 de dimensions d1 et d2, alors P1Y = YE1 et P2Y = YE2 sont indépendants, et ||P1Y||2 et ||P2Y||2 sont indépendants et ont pour lois respectivement ?2(d1) et ?2(d2).
Plaçons-nous donc dans le cas où (Y1, . . . ,Yn) est un n-échantillon de la loi N(µ, ?2). Les statistiques utiles pour les problèmes de test ou d’intervalle de confiance sur les paramètres µ et ?2 sont fonction de la moyenne empirique, que nous notons
¯ = 1 ?n Yi, Y
ni=1
S2 = . n ? 1 i=1 n ? 1 ni=1
Utilisons le théorème 4.1 dans le cas où p = 2 et où on projette Y sur le sous-espace E de dimension 1 engendré par le vecteur (normé) de Rn, e1 = ?1n1n (où on note?1n le vecteur de dimension n ayant toute ses coordonnées égales à 1). On obtient YE = nY¯ ?1n1n. La norme de la projection de Y sur l’orthogonal de E (de dimension n ? 1) est
n
||Y ? YE||2 = ?(Yi ? Y¯)2
i=1
qui suit la loi ?2?2(n ? 1) (c’est le point (iii) du théorème de Cochran à ceci près qu’il faut tenir compte de la variance ?2). On en déduit les résultats suivants, utiles pour le statisticien :
Proposition 4.1.Soit Y = (Y1, . . . ,Yn) un n-échantillon de N(µ, ?2). Alors on a :
(i) Les v.a. Y et S¯ 2sont indépendantes.
.
S
Remarquons que la v.a.2 suit elle-même la loi ?2?2(n) mais, si µ est inconnu, son calcul n’est pas accessible. Le point (ii) exprime intuitivement le fait que l’on perd un degré de liberté en raison du remplacement de?µ, inconnu, par son estimateur Y¯. De même la v.a.
n(Y¯ ? µ)/? ? N(0, 1), autrement dit le point (iii) signifie que la loi de Student remplace la loi normale comme loi de la moyenne empirique normalisée dans le cas où ? est inconnu et doit être remplacé par son estimateur S.
Nous illustrons dans un premier temps les concepts du modèle paramètrique sur le modèle gaussien. Ce modèle est très (trop ?) couramment utilisé pour analyser des données continues. Cet usage fréquent est dû à la simplicité des calculs et à la généralité du TCL (sous des hypothèses très faibles, la somme de nombreux petits bruits suit asymptotiquement une loi gaussienne).
Section 4.3 Le modèle gaussien
FIGURE 4.2 – Le boxplot, l’histogramme et le QQ-plot des données du taux d’alcool.
27 , 26 , 26 , 29 , 10 , 28 , 26 , 23 , 14 , 37 , 16 , 18 , 26 , 27 , 24
19 , 11 , 19 , 16 , 18 , 27 , 10 , 37 , 24 , 18 , 26 , 23 , 26 , 19 , 37
On notera (x1, . . . , x30) cette suite de résultats observée. Les valeurs s’échelonnant entre 10 et 37, la précision étant l’unité, il serait maladroit de modéliser ceci comme les réalisations de v.a. discrètes : le nombre de valeurs distinctes envisageables devrait être grand, de l’ordre de la quarantaine, car rien n’interdit de penser qu’auraient pu être observées des valeurs en dehors de l’intervalle ici présent. Il est plus raisonnable de considérer qu’il y a, sous-jacent à ces observations, un phénomène à valeurs réelles, dont les observations recueillies sont une discrétisation, l’arrondi se faisant à la précision du décigramme par litre.
Les modèles les plus simples que l’on puisse envisager ici sont des modèles d’échantillonnage : on admet que l’on a observé les réalisations de n v.a. Yi indépendantes et identiquement distribuées.
Pour voir si un tel modèle est approprié, il faut d’abord se demander comment a été constitué cet échantillon.
Le problème essentiel est, comme dans le premier paragraphe, celui de la source de variabilité (cause de l’aléatoire). Celle-ci a en fait ici plusieurs origines simultanées : variation d’individu à individu et, pour chaque individu, imprécision de l’appareil de mesure et effet de l’erreur d’arrondi.
Nous l’avons dit, les praticiens utilisent souvent dans un tel contexte une modélisation avec pour loi commune une loi normale, de moyenne µ et variance ?2 (non nulle) inconnues, N(µ, ?2). Le paramètre est donc bi-dimensionnel . La probabilité
N(µ, ?2) a pour support R tout entier, alors qu’ici (comme presque toujours dans la pratique) les données sont fondamentalement bornées ; cet usage suppose donc que, pour la zone de valeurs de µ et ? envisageables, la probabilité du complémentaire de l’intervalle des valeurs effectivement atteignables par les taux d’alcool soit négligeable.
On considère donc un échantillon (Y1, . . . ,Yn) de v.a. indépendantes et de même loi gaussienne : P = {N(µ, ?2), ? = (µ, ?2) ? R×]0, ?[}. La densité de la loi N(µ, ?2) est
p(y1; µ, e?(y1?µ)2/2?2.
La vraisemblance du modèle est pour y = (y1, . . . , yn) ? Rn,
pn(y; µ, ?2) = (2??2)?n/2e
= (2??2)?n/2e?n(y¯n?2µ?)22+vn ,
où y n=1yi et vn . Traditionnellement, on considère
Sn2 = n ?1 1 i?=n1(Yi ? Y¯n)2 = n ?1 1 i?=n1 Yi2 ? n ?n 1(Y¯n)2,
au lieu de Vn (car Sn2 est un estimateur sans biais de ?2), cf la proposition
4.1. La loi de la statistique (Y¯n, Sn2) est donnée dans la proposition 4.1.
Pour calculer l’estimateur du maximum de vraisemblance de (µ, ?2), on considère la logvraisemblance
vn
`n(y; µ, .
En calculant les dérivées partielles, il vient
?` 2) = ny¯n ? µ, ?µn(y; µ, ? ?2
et
?vn
`
??2 n(y; µ,.
Par la loi forte des grands nombre Y¯n et Sn2 sont des estimateurs convergents. Ainsi ?ˆn est un estimateur convergent de ?. (On peut également vérifier qu’il est asymptotiquement normal, mais cela ne nous sera pas utile par la suite).
Section 4.3 Le modèle gaussien
?
On déduit de la proposition 4.1, que la loi de n(Y¯n ? µ)/Sn est la loi t(n ? 1). La loi de Student est symétrique, ainsi si q1??/2(tn?1) est le quantile d’ordre 1 ? ?/2 de la loi t(n ? 1), alors ?q1??/2(tn?1) est le quantile d’ordre ?/2. En particulier, une v.a. de loi t(n ? 1) appartient à [?q1??/2(tn?1), q1??/2(tn?1)] avec probabilité 1 ? ?. Comme
,
on en déduit que [Y¯n ± q1??/2(tn?1)?Sn ] est un intervalle de confiance de niveau 1 ? ? pour n
µ.
s 2 =
On remarque que la longueur de l’intervalle de confiance ? , où sn n tend bien vers 0 quand la taille de l’échantillon tend vers l’infini (à y¯n et sn
fixé). Il est aussi d’autant plus long que sn est plus élevé (ceci est naturel : la fluctuation des données contrarie la confiance que l’on a en elles, confiance qui se traduirait par un intervalle de confiance assez court).
Exercice 4.1.Si la variance est connue et égale à , c’est-à-dire si l’on considère le modèle P =
, vérifier que l’intervalle (où q1N??/2est le quantile d’ordre 1 ? ?/2 de la loi N(0, 1)) est alors un intervalle de confiance de niveau 1 ? ? pourµ.
? Y¯n ? µ0 ?n = n .
Sn
La loi de la statistique de test sous H0 est la loi de Student de paramètre n ? 1. La loi de ?n sous H1 est la loi de Student décentrée, mais nous ne l’expliciterons pas ici. On remarque que sous H1, Y¯n ? µ0 converge p.s. vers µ ? µ0 6= 0 quand n ? ?. On a toujours que Sn converge p.s. vers ?2. On en déduit donc que sous H1, p.s.
.
n
Il est donc naturel de considérer la région critique
Wn = {(y1, . . . , yn), (4.1)
où ?nobs = ?n y¯ns?nµ0 , avec y n=1 yi et sn . D’après le comportement de la statistique de test sous H1, on en déduit que le test Wn est convergent.
Comme sous H0, la loi de ?n est la loi de Student de paramètre n ? 1, on en déduit que le niveau du test Wn est
,
où Z est de loi t(n ? 1). Pour obtenir un test de niveau ?, on choisit an = q1??/2(tn?1), le quantile d’ordre 1 ? ?/2 de loi de Student de paramètre n ? 1.
La p-valeur du test est donnée par
p-valeur , (4.2)
où ?nobs est la statistique de test évaluée en les observations.
Remarque 4.1.On peut étudier la réponse du test en fonction de n, y¯n et sn.
– à n et sn fixés, si y¯n s’éloigne de µ0, alors augmente et on a tendance à rejeter le test.
– à n et y¯n fixés, si sn diminue, alors augmente et on a tendance à rejeter le test. Cela traduit le fait que si sn est petit alors la variabilité des données est petite et y¯n donne une estimation précise du vrai paramètre µ. Des petits écarts entre y¯n et µ0deviennent significatifs.
Exercice 4.2.Écrire le test pour les hypothèses unilatérales H0 : µ ? µ0et H1 : µ> µ0.
Exercice 4.3.Tester les hypothèses H0 : µ = µ0et H1 : µ 6= µ0, où µ0est donné dans le modèle gaussien à variance connue :.
Le raisonnement est identique dans le cas de la variance : la construction d’intervalles de confiance ou de tests se fait à partir de la connaissance de la loi, sous l’hypothèse nulle ou à la frontière de celle-ci, de l’estimateur du paramètre d’intérêt.
Intervalles de confiance pour la variance
L’estimateur (sans biais) de ?2 est la variance empirique sans biais S2, et le point (ii) de la proposition 4.1 permet d’écrire par exemple que, si est le quantile d’ordre (1 ? ?) de la loi ?2(n),
P,
d’où l’on déduit un intervalle de confiance pour la variance (bilatéral dans cet exemple) de niveau de confiance (1 ? ?) :
.
Tests pour la variance
On peut aussi, en suivant la démarche introduite au chapitre 3, construire des tests pour des hypothèses relatives au paramètre ?2. Considérons par exemple le test de
H contre H.
à la frontière de H0, i.e. lorsque la valeur du paramètre est ?02, la statistique
Z .
Cette statistique aura “tendance à croître” avec ? sous l’hypothèse alternative (et de plus
S2 ? ?2 p.s. en vertu de la loi forte des grands nombres), d’où le choix d’une région de rejet de la forme ]c, +?[, où c est calibré (le plus petit possible) de sorte que P?0 (Z> c) = ?. Ceci amène donc à choisir pour c le quantile d’ordre (1 ? ?) de la loi ?2(n ? 1), autrement dit à conclure
Rejet de H0 si .
H contre H, H contre H.
On choisit le modèle P = {N(µ, ?2), µ ? R, ?> 0}. On obtient l’estimation de (µ, ?2) à l’aide de (y¯n, s2n) :
1 ?n s2n = n ?1 1 i?=n1(yi ? y¯n)2 = 53.0. y¯n=yi = 22.9 et ni=1
L’intervalle de confiance de niveau 95% de µ est donné par
sn
[y¯n ± q1??/2(tn?1)? ] = [20.2, 25.6]. n
La p-valeur associée au test de région critique (4.1), définie par (4.2), est pour µ0 = 20,
? y¯n ? µ0
p-valeur 0.037, où ?n = n = 2.18.
sn
En particulier on rejette H0 : {µ = µ0} au niveau de 5%.
Rappel de la problématique
La problématique a été introduite sur un exemple en 4.1. Reprenons-la avec une autre situation. Il s’agit ici de modéliser un phénomène aléatoire observé par une combinaison linéaire ou affine de variables explicatives, dont les valeurs sont déterministes et connues pour chaque expérience (ou observation) réalisée. Par exemple, si l’on souhaite “expliquer” la durée d’une certaine maladie (en jours) après l’admission de patients à l’hôpital, on peut penser que cette durée est liée à certaines variables quantitatives (i.e., à valeur numériques). On relèvera par exemple les nombres de bactéries de certains types présentes dans l’organisme du patient à son arrivée, ainsi que des indicateurs de son état général (poids, température, ).
L’introduction générale et l’exemple précédent permettent de dégager le cadre formel cidessous. On effectue n observations Y = (Y1, . . . ,Yn), et chaque observation est l’addition d’un “effet moyen” et d’un “bruit”. Si on considère le vecteur des observations Y ? Rn, le modèle s’écrit
Y = µ + ?,
et on fait les hypothèses (de modèle) suivantes :
M1 l’effet moyen µ est inconnu et non observable, mais µ ? E, sous espace vectoriel de Rn, fixé et de dimension k ;
M2 le vecteur aléatoire ? (non observable) a pour loi N(0, ?2In) et le paramètre ?2> 0 est inconnu.
Estimation
Ayant observé Y, le point de E le plus proche de Y est sa projection sur E, YE = µ + ?E, qui est l’estimateur intuitif de µ. La projection sur l’orthogonal de E, Y ? YE = ? ? ?E ne contient pas d’information sur µ (elle est centrée) : c’est un indicateur de la dispersion des observations, qu’il est naturel d’utiliser pour estimer ?2. On précise ceci dans le résultat suivant, conséquence directe du théorème 4.1.
Proposition 4.2.On observe Y = µ + ? avec les hypothèses M1 et M2. Alors on a :
(i) YE est un estimateur sans biais de µ.
(ii) ||Y ? YE||2/(n ? k) est un estimateur sans biais de?2.
(iii) YE et Y ? YE sont indépendants.
(iv) ||YE ? µ||2 ? ?2?2(k) et ||Y ? YE||2 ? ?2?2(n ? k).
On peut montrer également que, pour tout vecteur u ? Rn, le produit scalaire hu,YEi est l’estimateur de hu, µi sans biais de variance minimum.
On observe un phénomène aléatoire Y et l’on suppose ce phénomène influencé par p variables explicatives ou régresseurs, R1, . . . , Rp. Parfois, Y est aussi appelée la variable dépendante, et R1, . . . , Rp les variables indépendantes.
p p
Yi j ?i, ou bien Yi ?i, i = 1, . . . , n,
j=1 j=1
où ? = (?1, . . . , ?n) est un n-échantillon de la loi N(0, ?2) (l’hypothèse d’homoscédasticité est présente ici aussi, puisque ?2 ne dépend pas de i). Les paramètres inconnus à estimer sont (?, ?1, . . . , ?p, ?2) dans le cas affine (on retire ? dans le cas linéaire sans constante).
Notation vectorielle
Considérons par exemple le cas affine, et posons
X ,
la matrice n × (p + 1) des régresseurs (la colonne de 1, 1n, étant considérée comme un régresseur particulier lorsqu’elle figure dans le modèle). Posons aussi ? ? Rp+1 le paramètre du modèle, où ? = (?, ?1, . . . , ?p)t. Le modèle s’écrit vectoriellement :
Y = X? + ?, avec X? ? E et ? ? N(0, ?2In),
où E = {Xu, u ? Rp+1} est le sous-espace vectoriel de Rn engendré par les colonnes de X. Ce modèle s’inscrit ainsi dans le cadre général du modèle linéaire gaussien décrit en 4.4.1, avec adoption des hypothèses M1 et M2 qui y ont été faites.
Exemple 4.3. La régression simple.C’est la situation où l’on dispose d’un seul régresseur (p = 1) que nous notons simplement R. Le modèle s’écrit
Yi = ? + ?Ri + ?i, i = 1, . . . , n,
ce qui revient à dire que Yi ? N(? + ?Ri, ?2). On visualise ce modèle dans l’espace des variables (R,Y) par le fait que les observations “tombent” dans un “tunnel gaussien” d’amplitude? le long de la droite d’équation x = ? + ?r. L’exemple 4.2 des données de pluie est de ce type.
On applique dans ce cadre les résultats de la proposition 4.2. La projection de Y sur E est l’estimateur sans biais de X?. Il s’écrit YE = X?ˆ, où ?ˆ ? Rp+1 est l’estimateur sans biais de ?. Il est tel que Y ? X?ˆ est orthogonal à tout vecteur de E, autrement dit pour tout vecteur u ? Rp+1, hXu,Y ? X?ˆi = 0, ce qui donne
?ˆ= (XtX)?1XtY.
Remarquons que, si l’on note P le projecteur sur E (donc tel que YE = PY), celui-ci s’écrit P = X(XtX)?1Xt. La résiduelle est ||Y ? YE||2 = hY,Y ? YEi = Yt(I ? P)Y, soit
||Y ? YE||2 = YthI ? X(XtX)?1XtiY.
D’après le point (iv) de la proposition 4.2, , et l’on estime
(sans biais) la variance par
|| ?ˆ = . n ? (p + 1) 2 Y ? YE||2 |
Remarque : dans le cas de la régression sans constante, il suffit de retirer la colonne 1n de X et de remplacer p + 1 par p.
Variances des estimateurs
On déduit immédiatement de l’expression de ?ˆ que sa matrice de variances-covariances est
Var(?ˆ) = ?2(XtX)?1.
Exemple 4.4. La régression simple(suite de l’exemple 4.3).
Il est facile de mener les calculs “à la main” dans le cas de la régression simple. La matrice des régresseurs est X = [1n R], d’où
et le calcul de?ˆ donne | i=1 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Cov(R,Y) ?ˆ = , | ?ˆ = Y¯ ? ?ˆR¯, Var(R) où R¯ = ?in=1Ri/n est la moyenne empirique de R, et Var(R) = 1 ?n (R ? R¯)2, Cov(R,Y) = 1 ?n (Ri ? R¯)(Yi ? Y¯) = 1 ?n RiYi ? R¯Y¯, i ni=1 ni=1 ni=1 sont les variances et covariances empiriques (qui ont le sens de mesures descriptives ici puisque R n’est pas aléatoire). On peut remarquer que ces estimateurs coïncident avec lesestimateurs des moindres carrés de la droite de régression de Y sur R, c’est à dire la pente et la constante de la droite d’équation Y = b + aR qui minimisent les carrés des écarts. On déduit immédiatement de l’expression deVar(?ˆ) l’expression des variances de?ˆ et?ˆ, ainsi que la covariance entre les deux estimateurs (ils ne sont pas indépendants). Comme ils sont des estimateurs sans biais des paramètres qu’ils estiment, et suivent des lois gaussiennes (car combinaisons linéaires de Y), on a finalement : , . Le projeté est YE = ?ˆ1n + ?ˆR, et on peut écrire directement la résiduelle n SSE = ||Y ? YE||2 = ?(Yi ? ?ˆ ? ?ˆRi)2, i=1 écarts entre les valeurs observées et les valeurs ajustées par le modèle. Elle suit la loi?2?2(n ? 2), et l’estimateur sans biais de la variance est ||Y ? YE||2/(n ? 2) qui est indépendant de?ˆ. La connaissance des lois des estimateurs de (?, ?), qui dépendent de?2, ainsi que de la loi de l’estimateur de?2et cette propriété d’indépendance permet de construire des intervalles de confiance ou des tests pour? et? analogues aux intervalles de confiance et tests de Student construits en 4.3.5. H0 : {“Rq+1, . . . , Rp sont inutiles”} contre H1 : {“c’est faux”}, où 1 ? q< p, et où on a éventuellement effectué une permutation de l’ordre des régresseurs. La contre-hypothèse se comprend comme H1 : “l’un des Rj, q+1 ? j ? p au moins est utile”. L’hypothèse nulle, si elle n’est pas rejetée, permet alors de simplifier le modèle de régression, en ne conservant qu’une partie des variables qui étaient a priori explicatives. Les hypothèses peuvent se reformuler comme H0 : {?j = 0, j = q + 1, . . . , p} contre H1 : {il existe au moins un ?j 6= 0}, autrement dit comme l’appartenance, sous H0, de l’effet moyen à un sous-espace vectoriel de E de dimension plus petite, ce qui nous ramène à la méthode employée pour le test d’homogénéité en analyse de la variance (voir le passage “Généralisation” en ??, p. ??). En effet, le sous-modèle associé à H0 s’écrit Yi 1, . . . , n, ou vectoriellement (en indiçant par 0 les quantités qui diffèrent sous l’hypothèse nulle) Y = X0?0 + ?, X0 = [1n R1 ··· Rq], ?0 = (?, ?1, . . . , ?q)t, et donc X0?0 ? H = {X0w : w ? Rq+1}, où H est de dimension q + 1. On teste ainsi H0 : {X? ? H} contre H1 : {X? ? E \ H}. Sous H0, on estime l’effet moyen par la projection de Y sur H c’est à dire YH = X0?ˆ0 avec X0t Y. On procède ensuite comme pour le test d’homogénéité : sous H0, ||YE ? YH||2 ? ?2?2(p ? q) mais ? est inconnu. On prend le rapport avec la résiduelle normalisée qui, elle, suit toujours la loi ?2(n ? p ? 1), pour construire la statistique de test F q, n ? p ? 1) sous H0. rejeter H0 dès que F> q1??(F(p ? q, n ? p ? 1)). Table d’analyse de la variance pour le modèle de régression Lorsqu’ils traitent un modèle de régression, la plupart des logiciels de statistique calculent les estimateurs des paramètres et effectuent des tests individuels de nullité de ces paramètres (p tests de Student de H0 : ?j = 0, j = 1, . . . , p, fondés sur les lois que nous avons donné plus haut). Ils fournissent également une table d’analyse de variance associée au modèle de régression. Il s’agit du résultat du test de Fisher pour l’hypothèse nulle “pas de modèle de régression”, autrement dit “aucun régresseur n’est significatif”. C’est la réalisation du test ci-dessus pour H = {?1n, ? ? R}. Coefficient de détermination Lorsque il y a une constante dans la régression, on appelle coefficient de détermination, ou R2, le nombre R. C’est un indicateur de la “qualité” de la régression : plus le R2 est proche de 1, meilleure est l’adéquation du modèle aux données (on parle aussi de pourcentage de la variabilité expliquée par le modèle de régression). Remarquons que pour le test de Fisher associé à l’hypothèse nulle “aucun régresseur n’est significatif”, le sous-espace vectoriel H est celui engendré par 1n ce qui entraîne que YH = Y¯1n. Dans ce cas il existe un lien simple entre le R2 et la statistique du test de Fisher : (n ? (p + 1)) R2 F = p 1 ? R2 . Exemple 4.5. La régression simple, (suite et fin de l’exemple 4.4). Nous terminons l’étude détaillée de la régression simple avec le test de non effet du seul régresseur présent dans le modèle : H0 : {? = 0} contre H1 : {? 6= 0}. Sous H0, le modèle est simplement Y = ?1n + ? (il s’agit donc d’un n-échantillon de N(?, ?2)), et YH = Y¯1n. Nous avons déjà précisé l’expression de la résiduelle dans ce cas. La “somme des carrés du modèle” est n SSM = ||YE ? YH||2 = ?(?ˆ + ?ˆRi ? Y¯)2, i=1 et la statistique de test F sous H0. On rejette donc H0au niveau ? si F> q1??(F(1, n ? 2)). Enfin, si on a observé la valeur f de la statistique F, la p-valeur de ce test est P(F> f), où F ? F(1, n ? 2). Dans le cas de la régression simple, le coefficient de détermination R2 = SSM/SST est aussi le carré du coefficient de corrélation entre Y et R. Exemple 4.6.Si on reprend l’exemple 4.2, on obtient les résultats suivants : – Les estimations des paramètres valent :?ˆ = 4.55 et?ˆ = ?128.07. Sur le graphique (Fig. 4.3) on a représenté ladroite de régression. FIGURE 4.3 – Droite de régression sur le nuage de points Section 4.6 Exercices – Les intervalles de confiance de Student sont : I0.05(?) = [3.40; 5.70] et I0.05(?) = [?322; 66] – Le calcul du R2et du test de H0 : {? = 0} donnent :
donc on rejette clairement H0. 4.5 Exercices 4.6 Résumé du Chapitre 44.6.1 Le modèle gaussien à variance connue1. Modèle : (Yk, 1 ? k ? n) suite de v.a. i.i.d. de loi gaussienne à variance, ?02, connue : P {N }. 3. Statistique de test : ?n . 4. Loi sous H0 : N(0, 1). 5. Loi sous H1 : gaussienne réduite décentrée. 6. Région critique : Wn . 7. Niveau exact ? : a = q1N??/2, où q1N??/2 est le quantile d’ordre 1 ? ?/2 de N(0, 1). 8. Test convergent. 9. p-valeur : où G de loi N(0, 1). 10. Variante : H0 : {µ ? µ0}, H1 : {µ> µ0}. Même statistique de test. Région critique : Wn = {?n ? a}. Niveau exact ? : a = q1N??. Test convergent. p-valeur : P(G ? ?nobs). 4.6.2 Le modèle gaussien à variance inconnue1. Modèle : (Yk, 1 ? k ? n) suite de v.a. i.i.d. de loi gaussienne : P = {N(µ, ?2), µ ? R, ?> 0}. 2. H0 = {µ = µ0}, H1 : {µ 6= µ0}, avec µ0 ? R. ? Y¯n ? µ0 3. Statistique de test : ?n = n . Sn 4. Loi sous H0 : Student de paramètre n ? 1. 5. Comportement asymptotique sous H1 : ?n converge p.s. vers ?? ou +?. 6. Région critique : Wn . 7. Niveau exact ? : a = q1??/2(tn?1), où q1??/2(tn?1) est le quantile d’ordre 1 ? ?/2 de la loi de Student de paramètre n ? 1. 8. Test convergent. 9. p-valeur : où T de loi de Student de paramètre n ? 1. 10. Variante : H0 : {µ ? µ0}, H1 : {µ> µ0}. Région critique : Wn = {?n ? a}. Niveau exact ? : a = q1??(tn?1). Test convergent. p-valeur : P(T ? ?nobs). 4.6.3 Régression multiple1. Modèle : pour i = 1 . . . n p Yi . j=1 Les v.a. ?i, i = 1 . . . n sont i.i.d. de loi N(0, ?2). Les coefficients de la régression ?, ?1, . . . , ?p et la variance ?2 sont inconnues. 2. H0 : {?q+1 = . . . = ?p = 0} (les p ? q régresseurs Rq+1, . . . , Rp sont inutiles), H1 : {?j ? {q + 1, . . . , p}, ?j 6= 0} (un au moins des p ? q régresseurs Rq+1, . . . , Rp est utile). 3. Statistique de test : F , 4. Comportement sous H0 : F suit une loi de Fischer : F(p ? q, n ? p ? 1). 5. Comportement sous H1 : F ? ? quand n ? ?. 6. Région critique : Wn = {F> a}. 7. Niveau ? : a = q1??(F(p ? q, n ? p ? 1)), où q1??(F(p ? q, n ? p ? 1)) est le quantile d’ordre 1 ? ? de la loi de Fisher F(p ? q, n ? p ? 1). 8. Le test est convergent. 9. p-valeur : P(F ? fobs). 5 Tests d’adéquation5.1 IntroductionEn pratique, dans la plupart des situations, il est impossible de savoir quelle est la loi de probabilité des données que nous souhaitons analyser. Au chapitre 1, nous avons vu quelques outils graphiques—histogramme, fonction de répartition empirique, QQ-plot—offrant une évaluation visuelle de la pertinence de modélisation des données observées par telle ou telle loi. Le but de ce chapitre est de fournir des méthodes statistiques permettant une évaluation quantitative de la modélisation des données par une loi donnée ou par une famille des lois. 5.2 Tests du chi-deux5.2.1 Test d’adéquation à une loi discrèteLe problème On observe n v.a. (Xi)1?i?n, indépendantes et de même loi, à valeurs dans un espace fini A = {a1, . . . , ak}. Cette loi, inconnue, est caractérisée par la suite p = (p1, . . . pk) (avec 1), où pour tout j = 1, . . . , k, la quantité pj désigne la probabilité d’observer aj (indépendante de i en raison de l’identique distribution des Xi) ; soit pj = P(Xi = aj). La loi jointe du nuplet X = (Xi)1?i?n est : pour tout (x1, ··· , xn) ? An, n k card({i ; xi=aj}) Pp(Xi = xi, 1 ? i ? n) = ? Pp(Xi = xi) = ? pj . i=1 j=1 Cependant, on peut considérer qu’on est approximativement dans le modèle proposé si on fait porter le tirage sur des individus distincts (tirage “sans remise”) mais dans un contexte où la taille totale de la population est très grande par rapport à celle de l’échantillon. On avance l’hypothèse que le paramètre est p0 = (p01, . . . , p0k), où p0j> 0, pour tout j = 1, . . . , k. Le but est de tester, à un niveau donné ?, cette hypothèse nulle simple, H0 : p = p0, contre l’hypothèse alternative H1 : p 6= p0. Intuitions Pour tout j = 1, . . . , k on note Nj = card la variable aléatoire de comptage du nombres de fois où l’état aj est visité par les v.a. Xi, i = 1, . . . , n. La v.a. Nj suit une loi binomiale de paramètres (n, pj). On rappelle que E[Nj] = npj, que la v.a. Pˆj= Nnj est un estimateur convergent sans biais de pj. Il y a donc lieu de penser que, s’il est vrai que p = p0, la suite des effectifs observés nj = card({i : xi = aj}) sera telle que la suite des fréquences observées, pˆ = (pˆ1, . . . , pˆk) = , . . . , nnk ), sera “proche” (en raison de la loi forte des grands nombres citée précèdemment) de la suite mise en test p0 = (p01, . . . , p0k). Avec cette notation, il vient que Pp(Xi = xi, 1 ? i ? n) = ?kj=1pnjj. On peut en déduire que pˆ est l’estimation par maximum de vraisemblance de p, ce qui justifie que nous fassions porter notre test sur cette suite des fréquences observées Pˆ = (Pˆj)1?j?k. On souhaite donc pouvoir caractériser une “distance” entre la suite des fréquences observées pˆ et la suite des fréquences théoriques p0, de manière à rejeter l’hypothèse nulle si cette distance est supérieure à une certaine valeur frontière. Pour réaliser ce programme, il faut que : – si l’hypothèse nulle n’est pas satisfaite, cette distance ait tendance à prendre des valeurs d’autant plus grandes que la vraie valeur du paramètre p est plus “éloignée” de p0 (ce qui, là aussi, conduit à souhaiter disposer d’une distance entre p et p0, gouvernant la loi de la distance entre la v.a. Pˆ et p0). Outils On définit la distance du?2 (ou distance du chi-deux) , entre deux probabilités sur un ensemble fini à k éléments, p = (pj)1?j?k et q = (qj)1?j?k, par : k (pj ? qj)2 D(p, q) = ? . j=1 qj Remarquons que, faute de symétrie entre p et q, cet objet n’est pas une “distance” au sens mathématique traditionnel du terme (on parle parfois de “pseudo-distance” du ?2). On démontre (nous l’admettrons) que, si l’hypothèse nulle est satisfaite, la loi de la v.a. n.D(Pˆ, p0) tend, quand n tend vers l’infini, vers la loi du chi-deux à k ? 1 degrés de liberté. Ceci conduit, pour n “assez grand” (notion qui sera précisée empiriquement dans la suite), Section 5.2 Tests du chi-deux à fonder sur n.D(Pˆ, p0) le test, au niveau ?, de l’hypothèse H0 = {p = p0}, le rejet ayant lieu si k n? 0 ??k?1,1?? , j=1 pj où q désigne le quantile d’ordre 1 ?? de la loi du chi-deux à k ? 1 degrés de liberté, disponible dans des tables ou via les ordinateurs. C’est ce que l’on appelle le test du?2. Critère pratique.On considère souvent que l’approximation fournie par la loi du?2à k ? 1 degrés de liberté pour la loi de n.D(Pˆ, p0) est valide si tous les produits np0j (1 ? p0j ) sont supérieurs ou égaux à 5. est bien approchée, quand n tend vers l’infini, par la loi dite du?2décentré à k ? 1 degrés de liberté, , avec pour coefficient d’excentricité? = n.D(p, p0). Il se produit alors une circonstance heureuse concernant la famille des lois : elle est, à nombre de degrés de liberté fixé (ici k ? 1) stochastiquement croissante avec le coefficient d’excentricité?, c’est-à-dire que, pour tout t> 0, la probabilité qu’une v.a. suivant la loi dépasse t est fonction croissante de?. Afin d’illustrer davantage le phénomène d’excentricité engendré par? nous pouvons rappeler queE[?2k,?] = k + ? et Var(?2k,?) = 2(k + 2?). 5.2.2 Test d’adéquation à une famille de lois discrètesPrésentation générale Le modèle est ici le même qu’en 5.2.1 : on observe n v.a. Xi, indépendantes et de même loi, à valeurs dans un espace fini, soit A = {a1, . . . , ak}. Cette loi, inconnue, est caractérisée par la suite p = (p1, . . . pk), où, pour tout j (avec 1 ? j ? k), pj désigne la probabilité d’observer aj. Ici l’hypothèse à tester n’est plus réduite à une valeur bien déterminée p0, mais elle exprime que le paramètre appartient à une famille (p , ? ? ?), où l’on note p = (p1,?, . . . , pk,?) ? ? un vecteur de poids de probabilité indexé par un paramètre ?. Attention : ? n’est pas ici l’ensemble des paramètres du modèle tout entier mais paramétrise seulement l’hypothèse nulle. Une idée naturelle est de reprendre la méthode du test d’adéquation vue en 5.2.1 en y remplaçant p0 par p?ˆ, où ?ˆ est une estimation de ?. C’est ce que l’on appelle un test du?2 adaptatif. On démontre alors que si l’ensemble ? des valeurs possibles pour?est une partie ouverte d’intérieur non vide de Rh (avec h< k ? 1) la loi de nD(Pˆ, p?ˆ) tend, sous Exemple : test du?2d’indépendance Les v.a. i.i.d. Xi sont ici de la forme (Yi, Zi), où les “premières composantes” Yi sont à valeurs dans A = {a1, . . . , ak}, et les “secondes composantes” Zi sont à valeurs dans B = {b1, . . . , bm}. On note, pour tout j = 1, . . . , k, et tout ` = 1, . . . , m, pj,` = P((Yi, Zi) = (aj, b`)). Le paramètre est donc p = (pj,`)1?j?k,1?`?m. On veut tester l’hypothèse que les 2 composantes sont indépendantes, autrement dit que la loi commune des couples (Yi, Zi) est une loi produit, c’est-à-dire encore que tous les pj,` sont de la forme : ?(j, `) ? A × B, pj,` = P(Yi = aj, Zi = b`) = P(Yi = aj)P(Zi = b`) = qjr`, où nécessairement, pour tout j, qj et, pour tout. Les qj caractérisent la loi commune des v.a. Yi et les r` caractérisent la loi commune des v.a. Zi ; ces lois sont appelées aussi première et seconde lois marginales des Xi. Ainsi, sous l’hypothèse nulle, le paramètre, caractérisé d’une part par les k valeurs qj (de somme égale à 1) et d’autre part par les m valeurs r` (aussi de somme égale à 1), appartient à un espace de dimension h = k + m ? 2. On supposera que les qj et les r` sont tous non nuls, ce qui assure que, sous l’hypothèse nulle, l’ensemble de paramétrage est une partie ouverte de Rk+m?2 Étant observé un échantillon de taille n, soit (yi, zi)1?i?n, notons, pour tout couple (j, `), nj,` l’effectif des observations égales à (aj, b`) et pˆj,` leur fréquence (pˆj,). On estime alors chaque qj de la première marge par la fréquence marginale correspondante qˆj et de même, pour la seconde marge, chaque r` par la fréquence marginale correspondante . Alors, si l’hypothèse nulle est satisfaite, on estime, pour tout couple (j, `), pj,`, par le produit des fréquences marginales qˆjrˆ` (pour mimer la formule d’indépendance citée plus haut). n ?k ?m (pˆj,` q?ˆj qˆjrˆ`)2 ? 2k? ), rˆ` q1??(?( 1)(m?1) j=1 `=1 autrement dit k n n0.n00` 2 m ( j,` ? j ) n ??, j=1 `=1 n2 où : – nj,` est le nombre d’observations égales à (aj, b`), – n0j est le nombre d’observations dont la première composante est égale à aj, – n00` = ?kj=1nj,` est le nombre d’observations dont la seconde composante est égale à b`, – q est le quantile d’ordre 1 ? ? de la loi du ?2 à (k ? 1)(m ? 1) degrés de liberté (en effet km ? (k + m ? 2) ? 1 = (k ? 1)(m ? 1)). 5.3 Test de KolmogorovC’est un test d’ajustement à une loi, comme le test du ?2, mais qui s’applique à une variable continue. On veut tester l’hypothèse selon laquelle les données observées sont tirées d’une loi dont la fonction de répartition est F0. Dans toute cette section, on considère que la vraie fonction de répartion inconnue F? et F0 sont continues. Section 5.3 Test de Kolmogorov Le test est basé sur la différence entre la fonction de répartition F0 de cette loi théorique et la fonction de répartition empirique Fˆn dont on rappelle la définition : Définition 5.1.On définit la fonction de répartition empirique du n-échantillon (X1, , Xn), par la fonction en escalier suivante : Fˆn (t) = Card({1 ? i ? n : Xi ? t}) = 1 ?n1{X ?t}. n n i Remarque 5.3.Notons que Fˆn est continue à droite. Dn . t?R Il s’agit d’un choix de distance raisonnable, car d’après le théorème de Glivenko-Cantelli, sous H0, Dn converge presque sûrement vers 0 lorsque n tend vers l’infini. La zone de rejet est alors de la forme : {Dn> a}. Notons que comme Fˆn est constante et égale à i/n sur l’intervalle [X(i), X(i+1)[ tandis que F0 est croissante sur cet intervalle, (X ) . n On en déduit l’expression suivante très utile en pratique La légitimité du choix de Dn comme statistique de test repose sur la proposition suivante : Proposition 5.1.Sous H0, la loi de Dn ne dépend pas de F?. On dit alors que Dn est une statistique libre. Démonstration. On vérifie facilement que Dn F t?Rni où les variables Ui = F0(Xi) sont i.i.d. suivant la loi uniforme sur [0, 1]. Il suffit ensuite de faire le changement de variable u = F0(t) pour conclure. La loi de Dn sous H0 a été tabulée, ce qui donne des valeurs seuils a? à ne pas dépasser pour que H0 soit acceptable au niveau ?. Les moyens actuels de calcul informatique permettent également d’approcher la loi de Dn à l’aide de simulations. Pour n grand, il existe une approximation décrite par la proposition suivante : ? Proposition 5.2.Sous H0, en posant ?n = nDn, on dispose du résultat asymptotique suivant : la suite (?n, n ? 1) converge en loi et pour tout y> 0, on a P. n k=?? i.i.d. suivant la loi de Bernoulli B(F0(t)), le TCL entraîne que n(F0(t) ? Fˆn(t)) converge en loi vers Yt de loi normale centrée N (0, F0(t)(1 ? F0(t))?). Plus généralement, le théo- rème de la limite centrale multidimensionnel assure que n(F0(t1) ? Fˆn(t1), . . . , F0(tk) ? Fˆn(tk)) converge en loi vers un vecteur gaussien centré (Yt1, . . . ,Ytk ) de covariance donnée par Cov(Yti,Ytj ) = F0(min(ti, tj)) ? F0(ti)F0(tj). En fait on montre que le processus ? n(F0(t)? Fˆn(t))t?R converge en loi vers “un processus gaussien centré” tel que Cov(Ys,Yt) = F0(min(s, t)) ? F0(s)F0(t) et on montre que pour tout y> 0, P . ? Proposition 5.3.Sous H1, ?n = nDn tend p.s. vers +? avec n. Le test est donc nécessairement unilatéral à droite (rejet des valeurs trop grandes). Démonstration. Sous H1 la fonction de répartition commune des Xi, notée F est différente de F0. Soit t1 ? R tel que F0(t1) 6= F(t1). D’après la loi forte des grands nombres?Fˆn(t1) = converge p.s. vers? E. Donc n|F0(t1) ? Fˆn(t1)| tend p.s. vers +? de même pour nDn. Remarque 5.4.Si F0est non continue (par exemple lorsqu’il s’agit d’une loi discrète), le test de Kolmogorov sous sa forme classique n’est pas valide (la proposition 5.2 n’est valable que si F0est continue) : on peut montrer que Dn est alors plus «concentrée» à proximité de zéro que quand F est continue. 5.3.1 Un exempleOn dispose des 10 données suivantes : x = (2.2 , 3.3 , 5.3 , 1.8 , 4.3 , 6.3 , 4.5 , 3.8 , 6.4 , 5.5) La question naïve « ces observations proviennent-elles d’une loi normale de moyenne 4 et de variance 4 ? » va être formalisée sous l’énoncé : « tester, au niveau de signification 0.05, l’hypothèse nulle selon laquelle ces observations, supposées indépendantes et identiquement distribuées, ont pour loi commune la loi normale de moyenne 4 et variance 4 ». On calcule la fonction empirique dessinée sur la figure 5.1. Elle montre que Dx = 0.163, écart maximal Section 5.4 Test de Kolmogorov FIGURE 5.1 – Le test de Kolmogorov s’appuie sur la distance entre fonction de répartition empirique et théorique. obtenu en t = 3.3. Cette valeur est-elle plausible, au niveau 0.05, sous l’hypothèse H0 ? Les praticiens ont l’habitude de faire la transformation de l’axe des abscisses u = F(t). Cette transformation permet de travailler dans le carré [0, 1] × [0, 1] (cf figure 5.2) où Dn mesure alors l’écart de la fonction de répartition empirique par rapport à la première bissectrice. En utilisant une table ou bien en approchant les quantiles de la loi de Dn sous H0 par simulation d’un grand nombre de réalisations suivant cette loi, on remarque que la valeur observée Dx = 0.163 est inférieure au quantile d’ordre 0.95 de la loi de Dn : 0.410. (La p-valeur est de 0.963.) L’hypothèse de référence H0 est acceptée. FIGURE 5.2 – Présentation usuelle de la distance de Kolmogorov. 5.4 Résumé du Chapitre 55.4.1 Test d’adéquation à une loi discrète : le test du ?2L’objectif est de déterminer si les données discrètes observées proviennent d’une loi donnée ou non. 1. Description du modèle : (Xj, 1 ? j ? n) est une suite de v.a. i.i.d. à valeurs dans A = {a1, . . . , ak}. Une loi Pp sur A est décrite par le paramètre p = (p1, . . . , pk), où pi = Pp(X1 = ai). 2. Les hypothèses : H0 : p = p0 et H1 : p 6= p0, où p0 est donné. 3. La statistique de test : ?n = n ?k (pˆi ?p0ip0i )2 , i=1 où pˆi est le nombre d’occurrence de ai divisé par n. 4. Sous H0, (?n, n ? 1) converge en loi vers ?2(k ? 1). 5. Sous H1, (?n, n ? 1) diverge vers +?. 6. Région de critique du test asymptotique : [a, +?[. 7. Niveau asymptotique du test égal à ? : a est le quantile d’ordre 1 ?? de la loi ?2(k ? 1). 8. Le test est convergent. 9. La p-valeur asymptotique est donnée par p-valeur = P(Z ? ?nobs), où Z est de loi ?2(k ? 1), et ?nobs est la statistique de test calculée avec les observations. Le test asymptotique est considéré valide si np0i (1 ? p0i ) ? 5 pour tout i. Section 5.4 Résumé du Chapitre 5 5.4.2 Test d’indépendance entre deux variables qualitativesL’objectif est de vérifier si deux variables catégorielles sont indépendantes ou non. 2. Les hypothèses : H0 = {pj,l = qjrl}1?j?k,1?l?m et H1 = {?j, l; pj,l 6= qjrl}, où qj = pj,l et rl . 3. La statistique de test : k m (pˆj,l ? qˆjrˆl)2 ?n = n ?? , j=1 l=1 qˆjrˆl où pˆj,l, qˆj et rˆl sont respectivement les nombres d’occurrence de (aj, bl), de aj et de bl divisé par n. 4. Sous H0, (?n, n ? 1) converge en loi vers ?2((k ? 1)(m ? 1)). 5. Sous H1, (?n, n ? 1) diverge vers +?. 6. Région de critique du test asymptotique : [a, +?[. 7. Niveau asymptotique du test égal à ? : a est le quantile d’ordre 1 ? ? de la loi ?2((k ? 1)(m ? 1)). 8. Le test est convergent. 9. La p-valeur asymptotique est donnée par p-valeur = P(Z ? ?nobs), où Z est de loi ?2((k ? 1)(m ? 1)), et ?nobs est la statistique de test calculée avec les observations. Le test asymptotique est considéré valide si nqˆjrˆl(1 ? qˆjrˆl) ? 5 pour tout (j, l). 5.4.3 Test de Kolmogorov1. Modèle non paramétrique : (Xi, 1 ? i ? n) i.i.d. de fonction de répartition F continue. 2. Hypothèses : H0 : F? = F0 et H1 : F? 6= F0 3. Statistique de Kolmogorov Dn où X(1) ? X(2) ? . . . ? X(n) est le réordonnement croissant des Xi. ? Statistique de test : ?n = nDn. 4. Sous H0, lorsque n tend vers l’infini, ?n converge en loi vers la loi de fonction de répartition . 5. Sous H1, ?n tend p.s. vers +?. 6. Région critique : [a, +?[, avec a> 0. 7. Test convergent pour n ? +?. 8. Pour un niveau asymptotique ?, a est donné par. 6 Utilisation de la table : si, par exemple, on souhaite déterminer q0.975(N), – on calcule z = 1 ? 0.975 = 0.025 et on écrit 0.025 = 0.02 + 0.005, – on cherche la ligne correspondant à 0.02 et la colonne correspondant à 0.005, – à l’intersection de la ligne et de la colonne trouvée on lit 1.96. Donc q0.975(N) = 1.96. 84 Tables numériques Chapitre 6
Section 6.2 Table de la loi du khi-deux 85 6.2 Table de la loi du khi-deuxLa table suivante donne la valeur du quantile d’ordre (1 ? z) de la loi du khi-deux à k degrés de liberté. Par exemple, le quantile q0.05(t19) se trouve à l’intersection de la ligne 19 et de la colonne 1 ? 0.05 = 0.95, donc q0.05(t19) = 10.12. En d’autres termes, si X ? t19, alors P(X ? 10.12) = 5%.
86 Tables numériques Chapitre 6 6.3 Table de la loi de StudentLa table suivante donne la valeur du quantile d’ordre (1 ? z) de la loi de Student à k degrés de liberté. Par exemple, le quantile q0.6(t19) se trouve à l’intersection de la ligne 19 et de la colonne 1 ? 0.6 = 0.4, donc q0.6(t19) = 0.2569.
Section 6.4 Quantiles pour le test de Kolmogorov 87 6.4 Quantiles pour le test de KolmogorovLa Table ci-dessous contient les quantiles d’ordre 1?n supx?R |Fˆn(x) ? F?(x)|, utilisée dans le test d’adéquation de Kolmogorov.? ? de la loi de la statistique Dn = n ? = 10% ? = 5% ? = 1% n ? = 10% ? = 5% ? = 1% 1 0.9500 0.9750 0.9950 41 0.1869 0.2076 0.2490 2 0.7764 0.8419 0.9293 42 0.1847 0.2052 0.2461 3 0.6360 0.7076 0.8290 43 0.1826 0.2028 0.2433 4 0.5652 0.6239 0.7342 44 0.1806 0.2006 0.2406 5 0.5094 0.5633 0.6685 45 0.1786 0.1984 0.2380 6 0.4680 0.5193 0.6166 46 0.1767 0.1963 0.2354 7 0.4361 0.4834 0.5758 47 0.1748 0.1942 0.2330 8 0.4096 0.4543 0.5418 48 0.1730 0.1922 0.2306 9 0.3875 0.4300 0.5133 49 0.1713 0.1903 0.2283 10 0.3687 0.4093 0.4889 50 0.1696 0.1884 0.2260 11 0.3524 0.3912 0.4677 51 0.1680 0.1866 0.2239 13 0.3255 0.3614 0.4325 53 0.1648 0.1831 0.2197 14 0.3142 0.3489 0.4176 54 0.1633 0.1814 0.2177 15 0.3040 0.3376 0.4042 55 0.1619 0.1798 0.2157 16 0.2947 0.3273 0.3920 56 0.1605 0.1782 0.2138 17 0.2863 0.3180 0.3809 57 0.1591 0.1767 0.2120 18 0.2785 0.3094 0.3706 58 0.1577 0.1752 0.2102 19 0.2714 0.3014 0.3612 59 0.1564 0.1737 0.2084 20 0.2647 0.2941 0.3524 60 0.1551 0.1723 0.2067 21 0.2587 0.2873 0.3443 61 0.1539 0.1709 0.2051 22 0.2529 0.2809 0.3367 62 0.1526 0.1696 0.2034 23 0.2475 0.2749 0.3296 63 0.1515 0.1682 0.2018 24 0.2425 0.2693 0.3229 64 0.1503 0.1669 0.2003 25 0.2377 0.2641 0.3166 65 0.1492 0.1657 0.1988 26 0.2333 0.2591 0.3106 66 0.1480 0.1644 0.1973 27 0.2290 0.2544 0.3050 67 0.1469 0.1632 0.1958 28 0.2250 0.2500 0.2997 68 0.1459 0.1620 0.1944 30 0.2176 0.2417 0.2899 70 0.1438 0.1598 0.1917 31 0.2142 0.2379 0.2853 71 0.1428 0.1586 0.1903 32 0.2109 0.2343 0.2809 72 0.1418 0.1576 0.1890 33 0.2078 0.2308 0.2768 73 0.1409 0.1565 0.1878 34 0.2048 0.2275 0.2728 74 0.1399 0.1554 0.1865 35 0.2019 0.2243 0.2690 75 0.1390 0.1544 0.1853 36 0.1991 0.2212 0.2653 76 0.1381 0.1534 0.1841 37 0.1965 0.2183 0.2618 77 0.1372 0.1524 0.1829 38 0.1940 0.2155 0.2584 78 0.1364 0.1515 0.1817 39 0.1915 0.2127 0.2552 79 0.1355 0.1505 0.1806 40 0.1892 0.2101 0.2521 80 0.1347 0.1496 0.1795 TABLE 6.1 – Quantiles de la statistique de Kolmogorov . Le terme variable continue n’est pas très bien choisi, mais cela ne pose pas de problème majeur. . B. Jourdain, Probabilités et statistique, . [3] . L’indice ATMO varie sur une échelle allant de 1 (très bonne) à 10 (exécrable). Lorsque la valeur de cet indice dépasse le niveau 8, la qualité de l’air est considérée comme mauvaise. . La limite ici est en réalité une limité inférieure . Ce test est également appelé test de Kolmogorov-Smirnov à un échantillon |