L’analyse statistique des donnees cours complet
Table des matières
1 Éléments de statistique descriptive 9
1.1 Répartition d’une série numérique unidimensionnelle . . . . . . . . 11
1.3 Statistiques et représentations graphiques de deux séries numériques . . . . . 14
1.4 Résumé du Chapitre 1 . . . . . . . . . . . . . . 18
2 Analyse des données multivariées 21
2.1 Introduction . . . . . . . . . . . . . . 21
2.2 Exemple : billets suisses . . . . . . . . . . . . . 22
2.3 La théorie de l’Analyse en Composantes Principales . . . . . . . . . 23
2.4 Représentations graphiques et interprétation . . . . . . . 27
2.5 Résumé du Chapitre 2 . . . . . . . . . . . . . . 30
3 Rappel des bases de la statistique paramétrique 35
3.1 Introduction . . . . . . . . . . . . . . 35
3.2 Modèle statistique . . . . . . . . . . . 36
3.3 Estimation . . . . . . . . . . . . . . . 37
3.4 Intervalle de confiance . . . . . . . . . . . . . . 43
3.5 Test d’hypothèses . . . . . . . . . . . 47
3.6 Exercices . . . . . . . . . . . . . . . . 51
3.7 Résumé du Chapitre 3 . . . . . . . . . . . . . . 51
4 Régression linéaire multiple 55
4.1 Généralités . . . . . . . . . . . . . . . 55
4.2 Lois associées aux échantillons gaussiens . . . . . . . . . 59
4.3 Le modèle gaussien . . . . . . . . . . 60
4.4 Régression linéaire multiple . . . . . . . . . . . 65
4.5 Exercices . . . . . . . . . . . . . . . . 71
4.6 Résumé du Chapitre 4 . . . . . . . . . . . . . . 71
5 Tests d’adéquation 73
5.1 Introduction . . . . . . . . . . . . . . 73
5.2 Tests du chi-deux . . . . . . . . . . . 73
5.3 Test de Kolmogorov . . . . . . . . . . 76
5.4 Résumé du Chapitre 5 . . . . . . . . . . . . . . 80
6.1 Quantiles de la loi normale centrée réduite . . . . . . . . 83
6.2 Table de la loi du khi-deux . . . . . . . . . . . . 85
6.3 Table de la loi de Student . . . . . . . . . . . . . 86
6.4 Quantiles pour le test de Kolmogorov . . . . . . . . . . . 87
Table des figures
1.1 Histogrammes . . . . . . . . . . . . . 11
1.2 Fonction de répartition empirique . . . . . . . 11
1.3 Répartitions asymétriques . . . . . . . . . . . . 13
1.4 Boxplot . . . . . . . . . . . 14
1.5 Nuage de points . . . . . . . . . . . . 15
1.6 Nuage de points pour les données transformées . . . . . 16
1.7 Nuage de point et droite de régression . . . . . . . . . . . 16
1.8 QQ-plots . . . . . . . . . . . . . . . . 17
2.1 1000 Francs Suisses . . . . . . . . . . 22
2.2 Billets suisses : boxplots . . . . . . . . . . . . . 23
2.3 Billets Suisses : matrice de scatter plots . . . . . . . . . . . 24
2.4 Billets suisses : projection des individus . . . . . . . . . . 27
2.5 Billets suisses : scree-graph et cercle des corrélations . . . . . . . . . 29
3.1 La log-vraisemblance du modèle de Bernoulli . . . . . . . 41
3.2 La log-vraisemblance du modèle exponentielle . . . . . . 42
3.3 La log-vraisemblance du modèle Uniforme . . . . . . . . 43
3.4 Intervalles de confiance pour le modèle de Bernoulli . . . . . . . . . 45
3.5 Les quantiles de la loi N(0, 1) . . . . . . . . . . 46
4.1 Données de pluie . . . . . . . . . . . 58
4.2 La répartition des données du taux d’alcool . . . . . . . . 61
4.3 Données de pluie : droite de régression . . . . . . . . . . 70
5.1 Le test de Kolmogorov s’appuie sur la distance entre fonction de répartition
empirique et théorique. . . . . . . . . 79
5.2 Présentation usuelle de la distance de Kolmogorov. . . . . . . . . . 80
Liste des tableaux
1.1 Données PIB-Consommation d’énergie par habitant . . . . . . . . . 19
2.1 Données des billets suisses authentiques . . . . . . . . . . 32
2.2 Données des billets suisses contrefaits . . . . . . . . . . . 33
4.1 Hauteurs d’arbres dans 3 forêts . . . . . . . . . 56
4.2 Jour et quantité de pluie par années . . . . . . . . . . . . 58
6.1 Quantiles de la statistique de Kolmogorov . . . . . . . . . 87
1 Éléments de statistique descriptive
Le but de ce chapitre est de présenter les outils graphiques les plus répandus de la statistique descriptive. On considérera les cas d’une série numérique unidimensionnelle et bidimensionnelle.
Avant de rentrer dans le vif du sujet, apportons une petite précision à une idée très largement répandue, selon laquelle le but de la discipline statistique est d’analyser des données issues d’une expérience à caractère aléatoire. Cela sous-entend qu’il n’est pas possible ou qu’il n’est pas utile d’appliquer la méthodologie statistique aux données recueillies par un procédé déterministe (non aléatoire). Cette une déduction erronée. La bonne définition de l’objectif de la Statistique en tant que discipline scientifique, à notre avis, serait d’explorer les «propriétés fréquentielles» d’un jeu de données. Par «propriétés fréquentielles», on comprend les propriétés qui restent invariantes par toute transformation des données (comme, par exemple, la permutation) qui ne modifie pas la fréquence des résultats.
Le but de ce chapitre est d’introduire les statistiques principales et de donner un aperçu des outils graphiques les plus utilisés.
1.1 Répartition d’une série numérique unidimensionnelle
Supposons que les données qu’on a à notre disposition représentent n valeurs réelles – notées x1, . . . , xn – constituant les résultats d’une certaine expérience répétée n fois. Des exemples de source de telles données sont : les sondages, les expériences scientifiques (physiques, chimiques, médicales, ), les enregistrements historiques (météorologiques, socioéconomiques, ). Dans certains cas, ces données sont volumineuses et difficiles à interpréter. On a alors besoin de les résumer et de trouver des outils pertinents pour les visualiser.
Afin que l’analyse statistique d’une série numérique ait un sens, il faut que les différents éléments de cette série représentent la même quantité mesurée sur des entités différentes. Par exemple, x1, . . . , xn peuvent être les hauteurs de n immeubles choisis au hasard à Paris, ou les températures journalières moyennes à Paris enregistrées au cours de l’année 2009, etc. On dit alors que x1, . . . , xn sont les valeurs d’une variable (statistique) observées sur n individus.
On va différencier deux types de séries numériques : celles qui représentent une variable discrète et celles qui représentent une variable continue . On dit qu’une variable est discrète, si le nombre de valeurs différentes parmi x1, . . . , xn est petit devant n. Cette définition est loin d’être rigoureuse, mais cela n’est en général pas très gênant. Dans les deux exemples donnés au paragraphe précédent, les variables «hauteur d’immeuble» et «température journalière moyenne» sont continues. Si au lieu de mesurer la hauteur d’un immeuble, on comptait le nombre d’étages, ce serait une variable discrète.
1.1.1 Histogramme
Pour les séries numériques représentantes une variable discrète, on définit l’histogramme comme la fonction h : R ? N qui à chaque x ? R associe le nombre d’éléments dans la série x1, . . . , xn égaux à x. Par exemple, l’histogramme de la série numérique
est tracé dans la Figure 1.1 (à gauche). Une approche alternative consiste à définir h(x) comme la proportion des éléments dans la série égaux à x. On utilise alors la forme analytique
1 n
h(x) = ? 1(xi = x).
ni=1
Dans le cas où la série numérique qu’on cherche à analyser est continue, on commence par choisir une partition de R en un nombre fini d’intervalles : I0, I1, . . . , Ik. Ayant fixé la partition, on définit l’histogramme de la série x1, . . . , xn comme la fonction h : R ? R+ donnée par la formule
où est le nombre d’éléments de la série qui se trouvent dans le ème intervalle de la partition et || est la longueur de l’intervalle . Le choix de la partition est une question délicate que l’on n’approfondira pas ici. Dans la plupart des cas, on choisit une partition uniforme (c’est-à-dire, tous les sont de même longueur) d’un intervalle contenant toutes les valeurs de la série numérique. De plus, on essaye de faire en sorte qu’il y ait au moins 5 observations dans chaque intervalle non-vide. Par exemple, l’histogramme de la série numérique
1.1.2 Fonction de répartition empirique
Une représentation alternative des fréquences des valeurs contenues dans une série numérique est la fonction de répartition, appelée également histogramme cumulé. Pour un x ? R, Section 1.2 Statistiques d’une série numérique unidimensionnelle
FIGURE 1.1 – Exemples d’histogrammes. A gauche : l’histogramme de la série discrète (1.1). A droite : l’histogramme de la série (1.2).
FIGURE 1.2 – Fonction de répartition empirique (FDRE). A gauche : la FDRE de la série discrète (1.1). A droite : la FDRE de la série (1.2). On voit bien que c’est une fonction en escalier croissante, qui vaut 0 sur l’intervalle ] ??,mini xi[ et qui vaut 1 sur l’intervalle ] maxi xi, +?[.
la valeur en x de la fonction de répartition d’une série numérique x1, . . . , xn est la proportion des éléments de la série inférieurs ou égaux à x, c’est-à-dire :
Fˆn(x) = 1 ?n1(xi ? x).
ni=1
L’avantage de la fonction de répartition, comparé à l’histogramme, est que sa définition est identique dans le cas d’une variable discrète et dans le cas d’une variable continue.
1.2 Statistiques d’une série numérique unidimensionnelle
On appelle une statistique toute fonction qui associe aux données x1, . . . , xn un vecteur S(x1, . . . , xn) ? Rp. On utilise les statistiques pour résumer les données.
1.2.1 Statistiques de tendance centrale et de dispersion
Les trois statistiques de tendance centrale les plus utilisées sont la moyenne, la médiane et le mode. On les appelle également les statistiques de position.
La moyenne, notée x¯, est définie par :
1 n x¯ = ? xi. ni=1 |
La médiane, notée Medx, est un nombre réel tel qu’au moins la moitié des données sont ? Medx et au moins la moitié des données sont ? Medx.
Le mode, noté Modex, est la valeur la plus fréquente à l’intérieur de l’ensemble des données.
Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques.
Les trois statistiques de dispersion les plus utilisées sont la variance, l’écart-type et l’écart interquartile.
La variance, notée vx, est la valeur moyenne des carrés des écarts entre les données et la moyenne :
1 n vx = ?(xi ? x¯)2. ni=1 |
?
L’écart-type, notée sx, est la racine carré de la variance : sx = vx.
L’écart interquartile est la différence entre le troisième et le premier quartile : Q3 ? Q1, où le premier quartile Q1 (respectivement, le troisième quartile Q3) est la médiane des données < Medx (resp. > Medx).
1.2.2 Statistiques d’ordre et quantiles
Etant donné une série de données unidimensionnelles x1, . . . , xn, on s’intéresse souvent à la plus petite valeur mini xi ou à la plus grande valeur maxi xi prise par les xi. En statistique, on utilise les notations
x(1) = min xi, 1?i?n |
x(n) = max xi, 1?i?n |
et on les appelle première et dernière statistiques d’ordre. Plus généralement, on définit la statistique d’ordre de rang k, notée x(k), comme la kème plus petite valeur parmi x1, . . . , xn. Plus précisément, soit (i1, . . . , in) une permutation (il peut y en avoir plusieurs) des indices (1, . . . , n) qui classe les données dans l’ordre croissant :
xi1 ? xi2 ? . . . ? xin.
On appelle alors statistique d’ordre k la valeur x(k) = xik.
Pour toute valeur ? ? [0, 1], on appelle quantile d’ordre ?, noté q?x, de la série x1, . . . , xn, la statistique d’ordre x(m) avec m = [?n]. En utilisant la notion de quantile, on peut redéfinir les quartiles et la médiane comme suit :
Q1 = q0.25x , Medx = q0.5x , Q3 = q0.75x .
En pratique, ces définitions de quartiles et médiane conduisent vers des résultats qui diffèrent légèrement de ceux obtenus par la première définition, mais généralement la différence n’est pas importante et décroît lorsque la taille n de la série augmente.
Section 1.2 Statistiques d’une série numérique unidimensionnelle
1.2.3 Statistiques de forme?
Les deux statistiques de forme les plus utilisées sont le coefficient d’asymétrie et le coefficient d’aplatissement. Le coefficient d’asymétrie (skewness), notée ?x, et le coefficient d’aplatissement (kurtosis), notée ?x, sont définis par :
On peut facilement vérifier que le coefficient d’asymétrie de toute série numérique symé-
FIGURE 1.3 – Exemples de répartitions asymétriques : le coefficient d’asymétrie est positive pour la distribution à gauche et négative pour celle de droite.
trique est nul. (On dit qu’une série numérique est symétrique par rapport à un nombre réel mu, si pour tout a> 0 la fréquence de la valeur µ + a dans la série est égale à celle de µ ? a.
On peut également vérifier que le coefficient d’aplatissement tend vers zéro lorsque n ? ? si la série numérique représente des réalisations indépendantes de la loi gaussienne N(0, 1).
1.2.4 Box plots (Boîtes à moustaches)
Un résumé simple et pratique de la répartition d’une série x1, . . . , xn est donné par le quintuplé (A, Q1, Medx, Q3, B), où
A et B représentent les limites inférieure et supérieure de l’intervalle en dehors duquel les données sont considérées comme aberrantes (on les appelle aussi atypiques ou des outliers). et Q3 sont respectivement le premier et le troisième quartile.
Medx est la médiane de l’échantillon.
Ce quintuplé est utilisé pour construire le diagramme en boîte ou à moustaches que nous appellerons désormais boxplot. La forme générale d’un boxplot est montrée dans la Figure 1.4. Les valeurs A et B sont déterminées par les formules
n o
A = min xi : xi ? Q1 ? 1.5(Q3 ? Q1) ,
n o
B = max xi : xi ? Q3 + 1.5(Q3 ? Q1) .
Si la série numérique a une répartition normale (Gaussienne), la probabilité qu’une valeur de la série se trouve en dehors de l’intervalle [A, B] est de 0.7%.
FIGURE 1.4 – La forme typique d’une boîte à moustaches (ou boxplot), le rectangle bleu étant la boîte et les segments [A, Q1] et [Q3, B] étant les moustaches.
Pour compléter le boxplot, on fait apparaître les valeurs aberrantes. Toutes les valeurs qui se trouvent en dehors de l’intervalle [A, B] sont désignées par un symbole (souvent par une étoile). Dans l’exemple de la Fig. 1.4, il n’y a pas de valeur aberrante.
Pour interpréter un boxplot, il faut noter que la moitié des valeurs de la série se trouvent entre Q1 et Q3, c’est-à-dire dans la boîte du
boxplot, la moitié des valeurs de la série se trouvent à gauche de la médiane,
s’il n’y a pas de valeurs aberrantes, toutes les valeurs de la série se trouvent entre A et B. Les boxplots sont pratiques pour comparer deux séries statistiques.
1.3 Statistiques et représentations graphiques de deux séries numériques
Considérons maintenant le cas de deux séries numériques x1, . . . , xn et y1, . . . , yn correspondant aux valeurs de deux variables prélevées sur le même individu. Par exemple, xi et yi peuvent constituer la taille et le poids d’une personne, la température moyenne et le niveau de pollution à Paris un jour donné,
1.3.1 Covariance et corrélation
La statistique la plus utilisée dans le contexte de deux séries numériques est la corrélation. Pour la définir, la notion de covariance doit être introduite. On appelle covariance des séries numériques x1, . . . , xn et y1, . . . , yn la valeur
1 n sxy = ?(xi ? x¯)(yi ? y¯), ni=1 |
où x¯ et y¯ sont respectivement la moyenne des xi et celle des yi.
On appelle coefficient corrélation ou coefficient corrélation linéaire des séries numériques x1, . . . , xn et y1, . . . , yn la valeur
s ?xy = xy , sxsy |
où sx et sy sont respectivement l’écart-type des xi et celui des yi. Par convention, on pose ?xy = 0 si au moins l’un des deux écart-types sx, sy est nul.
Proposition 1.1.Le coefficient de corrélation est toujours entre ?1 et +1 :
?1 ? ?xy? 1.
Section 1.3 Statistiques et représentations graphiques de deux séries numériques
De plus, |?xy| = 1 si et seulement si les séries x1, . . . , xn et y1, . . . , yn sont liées par une relation affine, c’est-à-dire xi = ayi + b pour tout i = 1, . . . , n.
Démonstration. En utilisant l’inégalité de Cauchy-Schwarz, on vérifie que
Cela implique que le coefficient de corrélation ?xy = sxy/(sxsy) est toujours entre ?1 et +1. De plus, l’inégalité de Cauchy-Schwarz est une égalité si et seulement si xi ? x¯ = a(yi ? y¯), ce qui entraîne la seconde assertion de la proposition.
1.3.2 Nuage de points et droite de régression
Supposons que l’on dispose de deux séries numériques x1, . . . , xn et y1, . . . , yn représentant les valeurs de deux variables prélevées sur n individus. Il est naturel et pratique de représenter ces données sous forme d’un nuage de points. Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig. 4.1) les n points de coordonnées (xi, yi).
A titre d’exemple, considérons les données présentées dans la Table 1.1. Ces données représentent deux variables dont les valeurs sont enregistrées pour n = 38 individus. Les individus sont des pays, alors que les deux variables X et Y sont respectivement le PIB (produit intérieur brut) par habitant et la consommation d’énergie par habitant. Le nuage de point de ces données est affiché dans la partie haute de la Figure 4.1. Dans ce contexte, l’identité des individus représente un intérêt (cela n’est pas toujours le cas). Il est alors pratique de marquer à côté de chaque point du nuage une chaîne de caractère permettant l’identification de l’individu représenté par le point. C’est ce qui est fait dans la partie basse de la Fig. 4.1.
FIGURE 1.5 – Le nuage de points représentant les données de la Table 1.1. En haut : le nuage simple. En bas : le nuage annoté
Pour rendre le nuage de point plus lisible, on a souvent recours à une transformation d’une ou des deux variables. Dans l’exemple de la Table 1.1, on obtient un nuage de point plus interprétable (voir la Fig. 4.3) en prenant le logarithme des deux variables.
FIGURE 1.6 – Le nuage de points représentant les logarithmes des données de la Table 1.1.