Cours et exercices a propos des analyses statistiques multivariees

Cours et exercices a propos des analyses statistiques multivariées
Chapitre 1 La Statistique
1.1 Généralités
“La Statistique” : méthode scientifique qui consiste à observer et à étudier une/plusieurs particularité(s) commune(s) chez un groupe de personnes ou de choses.
“La statistique” est à différencier d’“une statistique”, qui est un nombre calculé à propos d’une population.
1.2 Un peu de vocabulaire
◦ Population : collection d’objets à étudier ayant des propriétés communes. Terme hérité des premières applications de la statistique qui concernait la démographie.
Exemple : ensemble de parcelles sur lesquelles on mesure un rendement, un groupe d’insectes...
◦ Individu : élément de la population étudiée.
Exemple : une des parcelles, un des insectes...
◦ Variable : propriété commune aux individus de la population, que l’on souhaite étudier. Elle peut être
- qualitative : couleur de pétales,
- quantitative : (numérique). Par exemple la taille, le poids, le volume. On distingue encore les variables
- continues : toutes les valeurs d’un intervalle de R sont acceptables. Par exemple : le périmètre d’une coquille de moule.
- discrètes : seul un nombre discret de valeurs sont possibles. Par exemple : le nombre d’espèces ressencées sur une parcelle.
Les valeurs observées pour les variables s’appellent les données.
◦ Echantillon : partie étudiée de la population.
1.3 Collecte de données
La collecte de données (obtention de l’échantillon) est une étape clé, et délicate. Nous ne traitons pas ici des méthodes possibles, mais attirons l’attention sur le fait suivant. Hypothèse sous-jacente en statistique : l’échantillon d’individus étudié est choisi au hasard parmi tous les individus qui auraient pu être choisi.
⇒ Tout mettre en oeuvre pour que ceci soit vérifié.
1.4 Deux directions en statistique
1. Statistique descriptive
Elle a pour but de décrire, c’est-à-dire de résumer ou représenter, par des statistiques, les données disponibles quand elles sont nombreuses. Questions typiques :
(a) Représentation graphique.
(b) Paramètres de position, de dispersion, de relation.
(c) Questions liées à des grands jeux de données.
2. Statistique inférentielle
Les données ne sont pas considérées comme une information complète, mais une information partielle d’une population infinie. Il est alors naturel de supposer que les données sont des réalisations de variables aléatoires, qui ont une certaine loi de probabilité.
Nécessite outils mathématiques plus pointus (théorie des probabilités).
Questions typiques :
(a) Estimation de paramètres.
(b) Intervalles de confiance.
(c) Tests d’hypothèse.
(d) Modélisation : exemple (régression linéaire).
1.5 Statistique univariée / multivariée
Lorsque l’on observe une seule variable pour les individus de la population, on parle de statistique univariée, et de statistique multivariée lorsqu’on en observe au moins deux. Pour chacune des catégories, on retrouve les deux directions ci-dessus.
Exemple : Univarié. Population : iris. Variable : longueur des pétales. Multivarié. Population : iris. Variable 1 : longueur des pétales. Variable 2 : largeur des pétales.
1.6 Statistique descriptive multivariée et ce cours
Ce cours a pour thème la statistique descriptive dans le cas multivarié.
La statistique descriptive multivariée en général est un domaine très vaste. La première étape consiste à étudier la représentation graphique, et la description des paramètres de position, de dispersion et de relation. Ensuite, les méthodes principales se séparent en deux groupes.
1. Les méthodes factorielles (méthodes R, en anglais) : cherchent à réduire le nombre de variables en les résumant par un petit nombre de variables synthétiques. Selon que l’on travaille avec des variables quantitatives ou qualitatives, on utilisera l’analyse en composantes principales, ou l’analyse de correspondance. Les liens entre deux groupes de variables peuvent être traités grˆace à l’analyse canonique.
2. Les méthodes de classification (méthodes Q, en anglais) : vise à réduire le nombre d’individus en formant des groupes homogènes.
Etant donné que ce cours ne dure que 5 semaines, nous ne traitons qu’un échantillon représentatif de méthodes. Nous avons choisi :
1. Paramètres de position, de dispersion, de relation.
2. Analyse en composantes principales (ACP).
3. Méthodes de classification.
Chapitre 2 Algèbre linéaire et représentation des vecteurs
Un des outils mathématique de base pour la statistique descriptive multivariée est l’algèbre linéaire. Ce chapitre consiste en quelques rappels qui seront utilisés dans la suite.
2.1 Matrices et vecteurs
• Une matrice X est un tableau rectangulaire de nombres. On dit que X est de taille n × p, si X a n lignes et p colonnes. Une telle matrice est représentée de la manière suivante :
…
2.3 Interprétation géométrique des vecteurs
A priori, les matrices sont des tableaux de nombres. Il existe cependant une interprétation géométrique, qui va nous servir pour les statistiques multivariées. Les dessins correspondants sont faits au tableau pendant le cours.
• Interprétation géométrique des vecteurs
Un vecteur ligne de taille 1 × n, ou un vecteur colonne de taille n × 1 représente un point de R n . La visualisation n’est possible que pour n = 1, 2, 3.
Exemple. Le vecteur ligne x t = (1 2 1) ou le vecteur colonne x = 1 2 1 , représente un point de R 3 .
• Projection orthogonale d’un point sur une droite
Pour étudier la projection orthogonale, on a besoin des définitions suivantes.
◦ Le produit scalaire de deux vecteurs x, y de R n , noté < x, y >, est par définition : < x, y >= Xn i=1 xiyi = (x1 · · · xn) y1 . . . yn = x ty.
…
Chapitre 3 Statistique descriptive élémentaire
Ce chapitre est illustré au tableau au moyen d’un petit jeu de données. Un jeu de données plus grand est traité dans l’Annexe A.
3.1 La matrice des données Avant de pouvoir analyser les données, il faut un moyen pour les répertorier. L’outil naturel est d’utiliser une matrice X, appelée matrice des données. Nous nous restreignons au cas o`u les données sont de type quantitatif, ce qui est fréquent en biologie. On suppose que l’on a n individus, et que pour chacun de ces individus, on observe p variables. Alors, les données sont répertoriées de la manière suivante :
X = x11 · · · x1p . . . . . . xn1 · · · xnp
L’élément xij de la matrice X représente l’observation de la j ème variable pour l’individu i. On va noter la i ème ligne de X, représentant les données de toutes les variables pour le i ème individu, par Xt i . On va noter la j ème colonne de X, représentant les données de la j ème variable pour tous les individus, par X(j) . Ainsi, Xt i = (xi1, · · · , xip).
On peut considérer cette matrice de deux points de vue différents : si l’on compare deux colonnes, alors on étudie la relation entre les deux variables correspondantes. Si par contre, on compare deux lignes, on étudie la relation entre deux individus. Exemple. Voici des données représentant les résultats de 6 individus à un test de statistique (variable 1) et de géologie (variable 2).
…
Remarquer que lorsque n et p deviennent grands, ou moyennement grand, le nombre de données np est grand, de sorte que l’on a besoin de techniques pour résumer et analyser ces données.
3.2 Paramètres de position
Les quantité ci-dessous sont des généralisations naturelles du cas uni-dimensionnel. Soit X(j) les données de la j ème variable pour les n individus.
3.2.1 Moyenne arithmétique
La moyenne arithmétique des données X(j) de la j ème variable, notée X(j) , est : X(j) = 1 n Xn i=1 xij .
On peut représenter les p moyennes arithmétiques des données des p variables sous la forme du vecteur ligne des moyennes arithmétiques, noté x t : x t = (X(1), · · · , X(p) ).
3.2.2 Médiane
On suppose que les valeurs des données X(j) de la j ème variable sont classées en ordre croissant. Alors, lorsque n est impair, la médiane, notée m(j) , est l’“élément du milieu”, c’est à dire : m(j) = x n+1 2 j
…
3.3 Paramètres de dispersion
La moyenne ne donne qu’une information partielle. En effet, il est aussi important de pouvoir mesurer combien ces données sont dispersées autour de la moyenne. Revenons à l’exemple des notes, les données des deux variables ont la même moyenne, mais vous sentez bien qu’elles sont de nature différente. Il existe plusieurs manières de mesurer la dispersion des données.
3.3.1 Etendue
Soit X(j) les données de la j ème variable, alors l’étendue, notée w(j) , est la différence entre la donnée la plus grande pour cette variable, et la plus petite. Mathématiquement, on définit : X max (j) = max i∈{1,··· ,n} xij .
…
On peut représenter les p étendues sous la forme d’un vecteur ligne, appelé vecteur ligne des étendues, et noté wt : wt = (w(1), · · · , w(p) ).
Exemple. Le vecteur ligne des étendues de l’exemple des notes est : w t = (5, 0).
Remarque 3.1 C’est un indicateur instable étant donné qu’il ne dépend que des valeurs extrêmes. En effet, vous pouvez avoir un grand nombre de données qui sont similaires, mais qui ont une plus grande et plus petite valeur qui sont très différentes, elles auront alors une étendue très différente, mais cela ne représente pas bien la réalité des données.
3.3.2 Variance et écart-type
Une autre manière de procéder qui tient compte de toutes les données, et non pas seulement des valeurs extrêmes, est la suivante. On considère les données X(j) de la j ème variable, l’idée est de calculer la somme, pour chacune des données de cette variable, des distance à la moyenne, et de diviser par le nombre de données. Une première idée serait de calculer : 1 n Xn i=1 (xij − X(j) ) = 1 n (x1j − X(j) ) + · · · + (xnj − X(j) ) , m
mais dans ce cas là, il y a des signes + et − qui se compensent et faussent l’information. En effet, reprenons l’exemple de la variable 1 ci-dessus. Alors la quantité ci-dessus est : 1 6 [(11 − 13.5) + (12 − 13.5) + (13 − 13.5) + (14 − 13.5) + (15 − 13.5) + (16 − 13.5)] = 0,
alors qu’il y a une certaine dispersion autour de la moyenne. Pour palier à la compensation des signes, il faut rendre toutes les quantités que l’on somme de même signe, disons positif. Une idée est de prendre la valeur absolue, et on obtient alors l’écart à la moyenne. Une autre manière de procéder est de prendre les carrés, on obtient alors la variance : Var(X(j) ) = 1 n Xn i=1 (xij − X(j) ) 2 = 1 n (x1j − X(j) ) 2 + · · · + (xnj − X(j) ) 2 . P
…
3.3.3 Variables centrées-réduites
Les données d’une variable sont dites centrées si on leur soustrait leur moyenne. Elles sont dites centrées réduites si elles sont centrées et divisées par leur écart-type. Les données d’une variable centrées réduites sont utiles car elles n’ont plus d’unité, et des données de variables différentes deviennent ainsi comparables.
Si X est la matrice des données, on notera Z la matrice des données centrées réduites. Par définition, on a : (Z)ij = zij = xij − X(j) σ(X(j) ) .
Remarquer que si σ(X(j) ) est nul la quantité ci-dessus n’est pas bien définie. Mais dans ce cas, on a aussi xij − X(j) = 0 pour tout i, de sorte que l’on pose zij = 0.
…
3.4 Paramètres de relation entre deux variables
Après la description uni-dimensionnelle de la matrice des données, on s’intéresse à la liaison qu’il existe entre les données des différentes variables. Nous les comparons deux à deux. Rappelons le contexte général. Nous avons les données X(1), · · · , X(p) de p variables observées sur n individus.
3.4.1 Covariance
Pour tout i et j compris entre 1 et p, on définit la covariance entre les données X(i) et X(j) des i ème et j ème variables, notée Cov(X(i) , X(j) ), par : Cov(X(i) , X(j) ) = 1 n < (X − X)(i) ,(X − X)(j) >= 1 n ((X − X)(i) ) t (X − X)(j) .
…
• Conséquences
1. Le Point 3 s’écrit en composantes : x1j − X(j) = a(x1i − X(i) ), · · · , xnj − X(j) = a(xni − X(i) ), ainsi |r(X(i) , X(j) )| = 1, si et seulement si il y a une dépendance linéaire entre les données X(i) et X(j) des i ème et j ème variables. Voir le dessin fait au tableau.
2. Si la corrélation est proche de 1, cela implique une relation linéaire entre les données, mais pas forcément une causalité. Ces deux phénomènes peuvent être reliés entre eux par une troisième variable, non mesurée qui est la cause des deux. Par exemple, le nombre de coups de soleil observés dans une station balnéaire peut être fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n’est la cause de l’autre.
3. Si la corrélation est proche de 0, cela ne signifie pas qu’il n’y a pas de relation entre les données des variables, cela veut seulement dire qu’il n’y a pas de relation linéaire. Elle pourrait par exemple être quadratique, ou autre.
• Matrice de corrélation
De manière analogue à la matrice de covariance, on définit la matrice de corrélation, de taille p × p, notée R(X), par : (R(X))ij = r(X(i) , X(j) ).
Remarquer que les éléments diagonaux de cette matrice sont tous égaux à 1. Exemple. La matrice de corrélation de l’exemple des notes est : R(X) = 1 0 0 1 .
Chapitre 4 Analyse en Composantes Principales (ACP)
Méthode factorielle, ou de type R (en anglais). A pour but de réduire le nombre de variables en perdant le moins d’information possible, c’est à dire en gardant le maximum de la variabilité totale. Pratiquement, cela revient à projeter les données des variables pour les individus sur un espace de dimension inférieure en maximisant la variabilité totale des nouvelles variables. On impose que l’espace sur lequel on projète soit orthogonal (pour ne pas avoir une vision déformée des données).
4.1 Etape 1 : Changement de repère
Soit X la matrice des données. Pour plus de visibilité, on considère la matrice des données centrées X −X. Le i ème vecteur ligne (X −X) t i représente les données de toutes les variables pour le i ème individu. Pour simplifier les notations, on écrit x t = (X −X) t i .
Table des matières
1 La Statistique 1
1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Un peu de vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Collecte de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Deux directions en statistique . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Statistique univariée / multivariée . . . . . . . . . . . . . . . . . . . . . 3
1.6 Statistique descriptive multivariée et ce cours . . . . . . . . . . . . . . . 3
2 Algèbre linéaire et représentation des vecteurs 5
2.1 Matrices et vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Opérations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Interprétation géométrique des vecteurs . . . . . . . . . . . . . . . . . . 7
3 Statistique descriptive élémentaire 11
3.1 La matrice des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.1 Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.2 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3.1 Etendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3.2 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3.3 Variables centrées-réduites . . . . . . . . . . . . . . . . . . . . . . 16
3.4 Paramètres de relation entre deux variables . . . . . . . . . . . . . . . . 17
3.4.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4.2 Corrélation de Bravais-Pearson . . . . . . . . . . . . . . . . . . . 19
4 Analyse en Composantes Principales (ACP) 21
4.1 Etape 1 : Changement de repère . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Etape 2 : Choix du nouveau repère . . . . . . . . . . . . . . . . . . . . . 22
4.2.1 Mesure de la quantité d’information . . . . . . . . . . . . . . . . 22
4.2.2 Choix du nouveau repère . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 En pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5 Méthodes de classification 29
5.1 Distance entre individus . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Le nombre de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3 Inertie d’un nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4 Méthodes non hiérarchiques : méthode des centres mobiles . . . . . . . . 35
5.5 Méthodes de classification hiérarchiques . . . . . . . . . . . . . . . . . . 36
A Exercices et exemples 41