Cours sur l’analyse statistique mutlivariee

Cours sur l’analyse statistique mutlivariée
Introduction
La présente version des notes n’est encore qu’un brouillon (encore incomplet, probablement pas assez cohérent et riche en erreurs). Dessins, exemples et discussions viennent souvent à manquer ; l’index est incomplet. L’honorable lecteur est ainsi prié de transmettre à l’auteur les erreurs qu’il y trouvera, les références qui lui semblent faire défaut dans l’index, et les passages qui lui semblent trop confus ou trop peu illustrés (d’exemples ou de dessins). Puisque ce cours s’adresse à des biologistes, il n’est pas attendu que le lecteur s’intéresse aux démonstrations. Elles sont présentées ici surtout parce qu’il y a assez peu de textes dans la littérature qui explique l’ACP [PCA, en anglais] et ses multiples variantes (comme l’ARD [RDA, en anglais]) de manière unifiée. Certains appendices dépassent largement ce que le lecteur est supposé connaître (e.g. les multiplicateurs de Lagrange). Les interprétations géométriques ou physiques sont, de l’avis de l’auteur, cependant souvent utiles pour mieux comprendre les principes (et les limites !) des méthodes présentées.
Les buts de ce (court) cours sont
Chapitre 1 : Rappeler/introduire les matrices et exprimer les quantités usuelles de statistiques descriptives dans ce langage.
Chapitre 2 : Introduire une méthode de réduction (méthode R) : l’analyse en composante principale (ACP, PCA en anglais) et de l’analyse de redondance (ARD, RDA en anglais).
Chapitre 3 : Introduire une méthode de classification (méthode Q) :
Le texte des démonstrations ne contrastant pas beaucoup avec le reste, un
en marque la fin. Pour les mêmes raisons, un F termine le texte des définitions, un ♣ celui des exemples et un ♠ celui des remarques. Voici quelques notations qui seront employées tout au long de ce texte : Z pour l’ensemble des entiers (positifs, négatifs ou nul). R pour l’ensemble réel. Quelques notations qui seront utilisées pour des sous-ensembles de ceux-ci sont Z≥a (des entiers supérieurs ou égaux à a), R
Lorsqu’un symbole qui n’a pas été préalablement défini apparaît dans une égalité := c’est qu’il s’agit là de sa définition.
Finalement, quelques mots sur certaines abréviations : 1. i.e. (lat. id est) signifie plus ou moins “c’est la même chose que”, “de manière équivalente”, “en d’autres mots”, ...
2. e.g. (lat. exempli gracia) signifie par exemple “par exemple”.
3. c’àd. (fr. c’est-à-dire) est un peu comme i.e. mais en moins chic.
4. “ou (équiv.)” pour préciser que la conjonction “ou” qui précède est en fait une équivalence mais que l’auteur n’a pas la motivation nécessaire pour la démontrer.
5. “... X (resp. Y) ... Z (resp. W) ...” signifie qu’on peut lire une première fois la définition/le théorème avec X et Z, puis une seconde fois mais avec Y et W au lieu de X et Z.
6. mutatis mutandis = “ce qui devait être changé ayant été changé”, une phrase très utile, comme le lecteur peut s’en douter, car il faut deviner ce qui doit être changé.
7. ceteris paribus [sic stantibus] = “toute chose égale par ailleurs”, pour bien spécifier qu’on change une quantité, mais que toutes les autres restent égales.
L’auteur aimerait remercier Béatrice de Tilière qui lui a donné les notes de cours des années précédentes (notes dont il s’est fortement inspirées). Un grand remerciement à Radu Slobodeanu (le conseiller en statistques de l’université) qui a pris le temps de lui fournir les jolis dessins et de lui expliquer certaines constructions.
Chapitre 1 Statistiques descriptives multivariées et Matrices
1.1 Généralités et vocabulaire
“La statistique” := méthode qui consiste à observer et étudier une/plusieurs propriétés communes chez un groupe d’être, de choses ou d’entités.
“Une statistique” := un nombre calculé à partir d’une population (d’être, de choses, ou d’entités).
“Population” := la collection (d’être, de choses, ou d’entités) ayant des propriétés communes.
Terme hérité d’une des première applications de la statistique, la démographie ; e.g. un ensemble parcelles de terrain étudiées, une population d’insectes, l’ensemble des plantes d’une espèce donnée, une population d’humains.
“Individu” := élément de la population ; e.g. une parcelle, un insecte, une plante, un humain.
“Variable” := une des propriétés commune aux individus que l’on souhaite étudier. Peut-être :
— qualitative : appréciation de la parcelle, l’état de santé de l’insecte, couleur des pétales, appartenance religieuse
— quantitative [numérique] continues [pouvant prendre n’importe quelle valeur réelle] : le taux d’acidité du sol, la longueur de l’insecte, la longueur de la tige, l’indice de masse corporelle.
— quantitative [numérique] discrète [dès qu’il y a un saut minimum obligatoire entre deux valeur successives, e.g. les nombres entiers] : la somme (sur tous les jours) du nombre de vaches présentes sur la parcelle, l’âge de l’insecte (en jours), le nombre de pétales sur la fleur, le nombre d’année d’études (réussies) depuis la petite école.
La différence entre discrète est continue peut-être plus floue qu’il n’y paraît : les instruments de mesures ne sont pas d’une précision infinie, si les unités changent pour que 1 unité soit la précision de l’instrument, on se retrouve soudainement avec une valeur entière. Il s’agit donc plutôt d’une distinction sur la nature de la propriété mesurée.
“Échantillon” := individus de la population sur laquelle les mesures ont été faites.
“Données” := l’ensemble des valeurs de variables mesurées sur les individus de la population.
La collecte des données est une étape clef très subtile. Il faut s’assurer que l’échantillon pris est représentatif de toute la population étudiée.
Exemple 1.1.1. Dans un sondage téléphonique il y a un biais naturel : les personnes qui sont souvent (ou longtemps) à la maison et qui ont le téléphone seront essentiellement les seules à être interrogées. Pourtant, elles ne représentent pas toute la population. Un exemple plus simple : dans son école Toto demande à ses camarades le nombre de frères et sœurs qu’ils ont. Il trouve un nombre bien supérieur au taux de natalité officiel. La raison est qu’il ne fait que la moyenne des familles qui ont des enfants, et laisse pour contre toutes les familles avec 0 enfants.
Deux directions en statistique :
1. Statistique descriptive : son but est de décrire, c’àd. de résumer ou représenter par des statistiques les données disponibles quand elles sont nombreuses. Questions types :
a. Représentation graphique.
b. Paramètres de position et dispersion.
c. Divers question liées aux grand jeux de données.
2. Statistique inférentielle : les données sont considérées incomplètes et elle a pour but de tenter de retrouver l’information sur la population initiale. La prémisse est que chaque mesure est une variable aléatoire suivant la loi de probabilité de la population. Questions types :
a. Estimations de paramètres.
b. Intervalles de confiance.
c. Tests d’hypothèse.
d. Modélisation (e.g. régression linéaire).
Ensuite, la statistique peut être :
— univariée : il n’y a qu’une seule variable qui rentre en jeu.
— multivariée : plusieurs variables rentrent en ligne de compte.
Exemple 1.1.2. Pour faire un rapide exemple, une statistique qui a eu un certain effet dans un pays qui restera anonyme est que la proportion de criminels chez les “étrangers” (i.e. les personnes ne possédant pas la citoyenneté) étaient bien plus élevée que chez les citoyens. Il s’adonne que les deux populations étaient complètement différentes, même d’un point de vue très superficielle : âge et sexe. En effet, si les populations avaient les mêmes proportions de personnes d’âge et de sexe donnés la situation se renverse : l’étranger moyen est moins criminel que le citoyen moyen. Seulement, l’étranger moyen appartient plus souvent à un “type” d’individu (homme entre 18 et 30 ans) qui est le plus souvent condamné dans la cours criminelle.
Ce cours est un court cours de Statistique descriptive multivariée. Ce thème est très vaste. Une première étape consiste toujours à regarder les paramètre de position et de dispersion. Puis les méthodes se séparent en deux groupes :
1. Les méthodes factorielles, d’ordination ou de réduction ou encore méthodes R. Elles cherchent à réduire le nombre de variables en un petit nombre qui concentre toute l’information. L’analyse en composantes principales (ACP, en anglais PCA) est faite pour les variables quantitatives tandis que l’analyse [factorielle] de correspondance (AFC ou, en anglais, CA ) s’occupe de variables qualitatives. C’est une méthode d’ordination “sans contraintes” (unconstrained). Elle sera complétée par l’analyse de redondance (redundancy analysis ou RDA, en anglais) une méthode d’ordination “avec contrainte” (constrained). Cette dernière est utilisée pour savoir si un large jeu de donnée pourrait “expliqué” un autre, c’àd. si un certains nombre de variables pourraient avoir une corrélation sur un autre groupe de variables.
2. Les méthodes de classifications ou méthodes Q. On commencera par une méthode de regroupement (ou agrégation, clustering en anglais) dite “non-supervisée” (unsupervised). Elle sera utilisée pour à réduire le nombre d’individus en formant des groupes le plus homogène possible. Ensuite, on tentera de faire une analyse discriminante (discriminant analysis) : étant donné un groupement pré-établi, on cherche à distinguer entre les groupes, ou associer une nouvelle observation à/caractériser un des groupes.
Remarque 1.1.3. Quelque soit l’étude que vous faites, il est bon de garder en tête ces quelques conseils généraux. Notez que ceux-ci peuvent (et devraient) être considéré AVANT de commencer l’étude.
— S’assurer de ne pas avoir de biais systématique.
— S’assurer d’une certaine homogénéité des “individus”.
— Avoir le plus d’individus possibles. 1
— Une fois les grandes lignes de l’expérience dessinées (mais avant de la réaliser), s’assurer d’avoir un moyen statistique approprié pour traiter les données et tester l’hypothèse qu’on cherche à établir ou infirmer.
De nombreuses études qui sont relatées dans les journaux utiliser des populations au final très petites. Par exemple, l’auteur a vu des journaliste qui tente d’inférer à partir d’une étude sur le comportement de quelques 250 couples vivant dans un état rural des États-Unis[-d’Amérique] des principes généraux qui font qu’une relation dure. D’un point de vue scientifique c’est très bancal. D’une part, l’étude a eu le bon goût de tenter de prendre une population homogène (se restreindre à un état). Mais évidemment, ceci ne permet pas de conclure grand chose sur les couples chez les Lolos noirs, les Inuits, les Hollandais ou même des habitants d’une grande ville du même pays (vu la quantité notable de différence au niveau de l’environnement social). D’autre part, même à l’intérieur de l’état, il n’est pas clair que 250 couples soit un nombre suffisamment grand pour permettre de représenter toutes les variations possibles. D’autre part, il arrive aussi régulièrement que des personnes se lancent dans des expérience, récoltent des données qui semblent utiles, puis une fois tout terminer tente de trouver une analyse statistique qui colle. Il se peut très bien que l’expérience s’avère non-significative parce que les données recueillies sont trop redondantes ou qu’on ait oublié de recueillir certaines données qui auraient pu être utiles ou qu’on ai oublié de mené d’autres tests en parallèle. Ainsi, il est chaudement recommandé de demandé l’avis d’un statisticien (ou conseiller en statistiques avant de commencer l’expérience).
…
1.2.i Vecteurs
L’espace des vecteurs (colonnes ou lignes) de taille n est noté R n . Géométriquement, un vecteur indique la position dans les coordonnées cartésiennes. Si un repère est formé avec des axes (ici, les axes seront des variables quantitatives mesurées, e.g. la hauteur de la tige, le nombre de pétale sur la fleur, et le diamètre de la fleur), alors le vecteur servira à donner la position de l’individu dans cet “espace” : sa première coordonnée est la hauteur de la tige, etc... Il est commode de voir un vecteur comme un déplacement depuis l’origine (i.e. le vecteur dont toutes les coordonnées sont nulles, i.e. le point de base du repère). Dans ce sens, la somme de deux vecteurs et la somme des déplacements. C’est le sens originel du mot vecteur : il représente un déplacement (en ligne droite) entre deux points (ici entre l’origine et le point dont les coordonnées sont décrites dans le vecteur).
Table des matières
Introduction iii
1 Statistiques descriptives multivariées et Matrices 1
1.1 Généralités et vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Algèbre linéaire et matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.i Vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.ii Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.iii La trace et le déterminant . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Moyenne et variance, écriture matricielle . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.i Paramètre de position : moyenne . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.ii Paramètre de dispersion : variance . . . . . . . . . . . . . . . . . . . . . . 18
1.3.iii Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.iv Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.v Relation linéaire et non-linéaire . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 La régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 L’analyse en composantes principales et ses dérivés 29
2.1 L’analyse en composantes principales (ACP) . . . . . . . . . . . . . . . . . . . . . 29
2.1.i Les vecteur propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.ii Interprétation et représentation . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.iii Le point de vue de la régression linéaire . . . . . . . . . . . . . . . . . . . 36
2.1.iv Quelques remarques supplémentaires . . . . . . . . . . . . . . . . . . . . 38
2.2 L’analyse de redondance (ou ARD) . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Quelques autres variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.i Analyse factorielle de correspondance ou AFC . . . . . . . . . . . . . . . 42
2.3.ii Analyse factorielle multiple . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.A Théorème spectral et Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . 43
2.B Exemples d’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.B.i Exemple 1 : Un exemple d’ACP en trois dimension . . . . . . . . . . . . . 47
2.B.ii Exemple 2 : Un exemple d’ACP à ne pas suivre . . . . . . . . . . . . . . . 50
2.B.iii Exemple 3 : une RDA de petite dimension . . . . . . . . . . . . . . . . . . 54
2.B.iv Exemple 4 : AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.B.v Exemple 5 : MFA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3 Méthodes de classifications : arbre supervisés et non-supervisés 61
3.1 Distance et dissimilarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.i ...entre individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.ii ...entre classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.iii Méthode de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2 Classification hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66