Formation sur l’analyse des donnees statistique

Formation sur l’analyse des donnees statistique avec exemples d’application
1. Introduction
Il n’y a pas très longtemps, on ne pouvait pas traiter un tableau de 3000 lignes et 300 colonnes. L’apparition et le développement des ordinateurs a du coup levé cet obstacle de calcul, et a permis la conservation et l’exploitation des grandes masses de données. Cette amélioration continue de l’outil informatique a fortement contribué au développement et à la vulgarisation de nombreuses méthodes statistiques, devenues maintenant d’usage assez courant. Aujourd’hui, des vastes données d’enquêtes sont dépouillées et, fournissent de grands tableaux qui se prêtent aisément à l’interprétation. Des données issues d’investigations spécifiques sont rassemblées et constituent une masse importante et apparemment indéchiffrable d’informations mais, qu’on peut désormais traiter sans difficultés. Cependant, comment ‘’extraire les phénomènes, les lois, les connaissances que recèlent ces données que nous ne pouvons appréhender directement’’[8] ?
La statistique classique nous a habitué à étudier les variables les unes après les autres, de construire autant d’histogrammes que de variables. Comment faire pour que, à ces nombreux graphiques se substitue un seul graphique, une carte plane ? Comment devant, la profusion des descriptions parcellaires fournies par l’analyse variable par variable, donner une vision globale de l’ensemble des résultats ? Les techniques dites d’analyse des données permettent de répondre à ces questions. Pour J-P. Fénelon ‘’l’analyse des données est un ensemble de techniques pour découvrir la structure, éventuellement compliquée, d’un tableau de nombres à plusieurs dimensions et de traduire par une structure plus simple et qui la résume au mieux. Cette structure peut le plus souvent, être représentée graphiquement’’[ ] 31 . Ces techniques qui sont essentiellement descriptives, ont pour but de décrire, de réduire, de classer et de clarifier les données en tenant compte de nombreux points de vue et d’étudier, en dégageant les grands traits, les liaisons, les ressemblances ou les différences entre les variables ou groupes de variables. Les documents fournis sont qualifiés de ‘’synthétiques et percutants et valent souvent mieux qu’un long discours’’. Cette approche descriptive et multidimensionnelle permet de dire que l’Analyse des Données, c’est de la ‘’statistique descriptive perfectionnée’’.
Formation sur l’analyse des donnees statistique avec exemples d’application
L’analyse des données recouvre principalement deux ensembles de techniques : ‘’les premières qui relèvent de la géométrie euclidienne et conduisent à l’extraction de valeurs et de vecteurs propres, sont appelées ‘’analyses factorielles’’ ; les secondes, dites de ‘’classification automatique’’ sont caractérisées par le choix d’un indice de proximité et d’un algorithme d’agrégation ou de désagrégation qui permettent d’obtenir une partition ou arbre de classification’’[53]. Parmi ces deux techniques, les premières occupent une place de choix, ‘’car elles sont utilisées soit seules, soit conjointement avec les secondes, alors que ces dernières sont rarement appliquées seules’’[28]. On s’intéressera surtout aux analyses factorielles dont on ne décrira que les deux méthodes les plus employées. Il s’agit de l’analyse en composantes principales (beaucoup utilisée dans les pays anglo-saxons) et de l’analyse factorielle des correspondances (très prisée en France). La classification automatique sera introduite comme aide à l’interprétation d’une analyse factorielle. Ce qui permet de compléter et d’enrichir les résultats de cette dernière. Cependant, vu la diversité des méthodes, on 7 regardera comment se présentent les résultats pour l’une d’entre elles : la classification ascendante hiérarchique, qui est la plus élaborée des méthodes de classification.
2. Un peu d’histoire
Bien que l’étude de la structure de vastes ensembles de données soit récente, les principes dont les méthodes d’analyse de données s’inspirent sont anciens. En ce qui concerne l’analyse factorielle, il faut remonter aux travaux de Ch. Spearman (1904) qui introduit pour la première fois le concept de facteur ; il cherche, derrière les notes obtenues par de nombreux sujets à de nombreux tests, une variable explicative cachée : le facteur général d’aptitude (analyse factorielle au sens des psychologues). C’est vers les années 30 que se pose le problème de la recherche de plusieurs facteurs (travaux de C. Burt et de L.L Thurstone) ; on cherche deux puis plusieurs facteurs : mémoire, intelligence, etc. ‘’non observables directement mais susceptibles d’expliquer au sens statistique du terme les nombreuses notes obtenues par les sujets’’. Comme on le constate il s’agissait déjà de résumer à l’aide d’un petit nombre de facteurs une information multidimensionnelle. De nos jours on ne fait guère appel à l’analyse factorielle au sens des psychologues parce qu’elle suppose un modèle a priori.
Puis, l’analyse factorielle en composantes principales développée par H. Hotelling (1933), mais dont on peut faire remonter le principe à K. Pearson (1901) : ‘’les individus colonnes du tableau à analyser étant considérés comme des vecteurs d’un espace à dimensions, on proposait de réduire la dimension de l’espace en projetant le nuage des points individus sur le sous-espace de dimension p k (k petit fixé) permettant d’ajuster au mieux le nuage’’[53]. D’un point de vue plus récent écrit L. Lebart, l’analyse au composantes principales est «une technique de représentation des données, ayant un caractère optimal selon certains critères algébriques et géométriques spécifiés et que l’on utilise en général sans référence à des hypothèses de nature statistique ou à un modèle particulier’’[43]. Enfin, l’analyse factorielle des correspondances introduite par J.P Benzécri (1962), est actuellement en vogue. Elle fournit, sans hypothèses a priori des représentations simplifiées dans un certain sens à l’interprétation. Laissons sur ce point la parole au Professeur J.P Bensécri : ‘’l’analyse des correspondances telle qu’on la pratique en 1977 ne se borne pas à extraire des facteurs de tout tableau de nombres positifs. Elle donne pour la préparation des données des règles telles que le codage sous-forme disjonctive complète ; aide à critiquer la validité des résultats, principalement par des calculs de contribution ; fournit des procédés efficaces de discrimination et de régression ; se conjugue harmonieusement avec la classification automatique’’[6]. Sa logique est claire : le modèle doit suivre les données non l’inverse ; le modèle probabiliste est jugé trop contraignant : ‘’statistique n’est pas probabilité’’.
Les deux méthodes précédentes et celles qui en ont été dérivées, comme l’analyse factorielle discriminante (initiée par Fisher en 1936, qui permet de décrire la liaison entre une variable qualitative et un ensemble de variables quantitatives) et l’analyse canonique (introduite par Hotelling en 1936 et dont l’objectif initial était d’exprimer au mieux à l’aide d’un petit nombre de couples de variables la liaison entre deux ensembles de caractères quantitatifs) dépendent d’un même corps de résultats mathématiques qu’on exposera dans le paragraphe ‘’analyse générale’’. S’agissant de la classification automatique, compte tenu de ‘’la multiplicité des techniques existantes et l’effervescence qui règne autour de ce domaine’’, car selon R.M. Cormack (cité par Lebart) plus de 1000 articles sont publiés par an sur ce thème, il est vraiment difficile de faire l’historique de ces méthodes ; en effet nombreux sont les chercheurs qui ont contribué à leur mise en œuvre et dont les précurseurs sont : Buffon (1749), Adanson (1757) et Linné (1758). ‘’Je me contenterai de rapprocher les objets, suivant le plus grand nombre de degrés de leurs rapports et leur de leurs ressemblances… Les objets ainsi réunis formeront plusieurs petites familles que je réunirai encore ensemble afin d’en faire un tout dont les parties soient unies et liées intimement’’ écrivait Adanson’’[47].
Pour terminer cette page d’histoire, mentionnons l’analyse des données non métriques introduite par une nouvelle école de statisticiens américains sous le nom de « multidimensional scaling » (J.D. Carrol, J.B. Kruskal, R.N. Shepard, …) et dont les principales méthodes sont :
- l’analyse des proximités ;
- l’analyse des préférences ;
- l’analyse de mesure conjointe (qui permet d’expliquer une variable qualitative ordinale à l’aide des variables nominales).
Ces méthodes ont trouvé leurs applications surtout dans le domaine du marketing[9].
3. Types de tableaux analysables

Les données se présentent généralement sous la forme d’un tableau rectangulaire, dont les lignes correspondent à des individus ou unités statistiques et les colonnes à des variables appelées caractères ou caractéristiques.
Les valeurs des variables peuvent être :
- quantitatives ordinales (jugement humain, température) ;
- quantitatives mesurables (poids d’un individu, revenu) ;
- qualitatives ordinales (classe d’âge, le rang) ;
- qualitatives nominales (sexe, situation matrimoniale).
Lorsque dans un tableau, toutes les variables choisies sont quantitatives, on peut établir un tableau de données quantitatives ; c’est le cas par exemple où l’on observe sur un ensemble de sujets I , un certain nombre de mesures J : poids, taille, âge. Ce tableau est encore appelé tableau de mesures. A partir de deux variables qualitatives, on peut définir un tableau de contingence croisant les modalités de deux variables, l’ensemble des lignes correspond aux modalités de la première variable et l’ensemble des colonnes aux modalités de la deuxième variable ; par exemple le tableau qui répartit la population congolaise recensée en 1974 selon les deux caractères ‘’région’’ et ‘’classe d’âge’’. Si l’on divise chaque valeur du tableau précédent par le cardinal de la population, on obtient le tableau de fréquences relatives que l’on appellera simplement tableau de fréquence. Si l’on croise plus de deux variables qualitatives entre elles définies sur une même population, on peut construire un tableau contenant l’ensemble des tableaux de contingence entre les variables prises deux à deux. Le tableau ainsi obtenu est appelé tableau de Burt. C’est un tableau symétrique qui comporte sur sa diagonale ‘’des résultats qu’en terme de dépouillement d’enquête on appellerait des ‘’tris à plats’’, alors qu’ailleurs on a tous les tableaux des ‘’tris croisés’’ des variables deux à deux.
On rencontre aussi des tableaux de préférence. Un ensemble I d’individus donne des jugements de préférence globale sur un ensemble d’objets ; on demande par exemple à chaque personne interrogée de noter de 1 à 4 l’ordre de préférence pour quatre marques de bière : primus, kronenbourg, ngok, amstel. A l’intersection de la i è J − me ligne et de la j − ème colonne, on trouve le rang attribué par la personne i à la bière . . j Le tableau de préférence est différent du tableau de rang. Reprenons le tableau de contingence qui répartit la population congolaise selon les deux caractères ‘’région’’ et ‘’classe d’âge’’. On obtient un tableau de rang si à l’intersection de la région i et de la classe d’âge , on y inscrit le rang de la région sur toutes les régions, relativement à l’effectif de la classe d’âge . Dans le tableau de préférence rencontré ci-haut, la ligne est une permutation de 4 objets alors que dans le tableau de rang c’est la colonne qui est une permutation de nombres de 1 à 9 (les 9 régions du Congo).
Formation sur l’analyse des donnees statistique avec exemples d’application
Le tableau de préférence est différent du tableau de rang. Reprenons le tableau de contingence qui répartit la population congolaise selon les deux caractères ‘’région’’ et ‘’classe d’âge’’. On obtient un tableau de rang si à l’intersection de la région i et de la classe d’âge , on y inscrit le rang de la région sur toutes les régions, relativement à l’effectif de la classe d’âge . Dans le tableau de préférence rencontré ci-haut, la ligne est une permutation de 4 objets alors que dans le tableau de rang c’est la colonne qui est une permutation de nombres de 1 à 9 (les 9 régions du Congo). j i j Les tableaux de proximités évoluent la similarité ou la dissimilarité entre chaque couple d’individus par un indice de proximité ou de distance (tableau de distance inter-villes). Souvent, on observe des variables qui ne prennent que deux valeurs codées généralement 0 et 1 ; elles conduisent à des tableaux binaires : par exemple un individu doit répondre par ‘’oui’’ ou par ‘’non’’ à une question ; le ‘’oui’’ est codé 1, le ‘’non’’ est codé 0 ; on peut aussi citer le cas des tableaux de présence-absence où il s’agit du relevé de la présence ou de l’absence d’un caractère. Tel ménage possède ou ne possède pas le caractère : avoir un poste téléviseur : la présence est codé 1, l’absence est codé 0. D’une manière générale, un tableau rempli uniquement de 0 et de 1 est appelé tableau logique. C’est le cas des tableaux précédents. Nous verrons au § , qu’on peut transformer un tableau de données quantitatives en un tableau de description logique par découpage en classes des variables quantitatives. En fait, ‘’parler de tableau logique, c’est désigner un certain format de codage, qui peut recouvrir des domaines très différents’’ 1.
On peut également mentionner les tableaux de notes. Il s’agit dans le cas qui nous intéresse des notes scolaires (type de tableaux analysé dans ce cahier) comprises entre deux bornes (0 et 20). Ce tableau peut être analysé comme tel (c’est ce que nous ferons dans les chapitres suivants). Dans bien de cas, pour donner la même importance à chaque observation, on ‘’dédoublera’’ chaque colonne du tableau, c’est-à-dire qu’à chaque matière d’origine on lui fait correspondre une matière dite ‘’duale’’ : avoir 15/20 en statistique, c’est avoir 5/20 en la matière duale. L’analyse factorielle d’un tableau de notes dédoublé semble d’un point de vue pratique donner des résultats plus clairs et plus facilement interprétables que l’analyse du tableau initial[12]. Le tableau de description logique décrit précédemment peut être considéré comme un tableau de notes particulier dans lequel toutes les notes ne peuvent prendre que l’une des valeurs 0 ou 1. Pour terminer, on peut citer les tableaux de correspondance chronologique ou tableaux ternaires ou encore tableaux multiples. C’est par exemple le cas du tableau où, I est l’ensemble d’industries (ou produits), un ensemble de pays, T un ensemble d’époques, désignant les échanges pour le produit , à l’instant t en provenance (ou à destination) du pays . Une généralisation au cas quaternaire a été étudiée et on obtient un tableau de la forme où J IJT k i j IJPT k I est par exemple l’ensemble des pays exportateurs, l’ensemble des mêmes pays considérés comme exportateurs, P est un ensemble des classes de produits et un ensemble d’époques : IJPT k est donc la valeur des importations du pays i en provenance du pay j (ou des exportations du pays à destination du pays i , rentrant dans la classe de produits J T s j ) p t effectuées en l’année t . our l’étude de ces types de tableaux, on utilise très largement la technique des ‘’points supplémentaires’’ (cf §5.2.5)[ ] 14 .
Le tableau soumis à l’analyse doit posséder certaines qualités : pertinence, homogénéité, exhaustivité. Il ne faut retenir dans la masse hétérogène des faits que ce qui se rapporte à un seul point de vue (pertinence), et ne pas mélanger les quantités exprimées en kilogrammes et en mètres (homogénéité). L’exhaustivité implique que les différentes zones du domaine d’investigation sont bien représentées. A ces trois exigences ‘’il faut ajouter une condition assez évidente, mais parfois oubliée : le tableau de données doit être vaste et en statistique, l’infini est parfois de l’ordre de 30’’[42].
4. Analyse générale
On part d’un tableau rectangulaire reliant deux ensembles finis I et . On a Ca observations sur lesquelles sont mesurées CardJ variables : ij J rdI x est la mesure de l variable j de J sur l’indiv du de a i i I . (CardI = n,CardJ = p) . ij x peut être la note obtenue par l’étudiant i à l’épreuve j . Le tableau X peut admettre deux représentations [35] :
- l’une dans un espace vectoriel Rn avec un nuage de points correspondant chacun à une ligne ; p
- l’autre dans un espace vectoriel Rp avec un nuage de n points correspondant chacun à une colonne.

L’analyse factorielle revient à faire la recherche des axes principaux d’inertie (ou axes factoriels) des deux nuages. On cherche donc à ajuster le nuage des points par un sous-espace vectoriel de R n p , muni de la distance euclidienne usuelle (c’est-à-dire que le carré de la distance entre deux points est égal à la somme des carrés des différences de leurs coordonnées). On commence par déterminer une droite passant par l’origine et ajustant au mieux le nuage à étudier, en minimisant la somme des carrés des distances des points à la droite. Ce calcul conduit à un vecteur unitaire porté par cette droite dit aussi vecteur propre relatif à une valeur propre. De façon analogue on peut continuer l’ajustement et trouver dans R F1 p un certain nombre de vecteurs propres et de valeurs propres toutes positives décroissant avec le rang. X étant la matrice du tableau, et ' X la matrice transposée, uα les vecteurs propres et λα les valeurs propres seront solutions de l’équation : ' X Xu u α = λα α dans Rp
TABLE DES MATIERES
1. INTRODUCTION
2. UN PEU D’HISTOIRE
3. TYPES DE TABLEAUX ANALYSABLES
4. ANALYSE GENERAL
5. L’ANALYSE EN COMPOSANTES PRINCIPALES
5.1. Les données – Les objectifs
5.2. La méthode
5.2.1. Le tableau de données
5.2.2. Analyse des points individus i de N I J ( ) dans RP
5.2.3. Analyse des points individus j de NI (J ) dans Rn
5.2.4. Relation entre les points de N I et j de ( ) N J I i ( ) J
5.2.5. Analyse des points supplémentaires
5.3. Interprétation de l’Analyse en Composantes Principales
5.3.1. Tableau des données de base

5.3.2. Matrice de corrélations des variables
5.3.3. Vecteurs et valeurs propres de la matrice de corrélation
5.3.4. Tableau des facteurs sur I
5.3.5. Tableau des facteurs sur J
5.3.6. Représentations graphiques
6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES
6.1. Les données – Les objectifs
6.2. La méthode
6.2.1. Le tableau de données
6.2.2. Analyse des points i de ( ) J N I dans p R
6.2.3. Analyse des points de dans n j ( ) NI J R
6.2.4. Relations entre les points de ( ) J i N I et les points j de ( ) N J I
6.2.5. Eléments supplémentaires
6.3. Interprétation d’une analyse factorielle des correspondances
6.3.1. Tableau des données de base
6.3.2. Vecteurs et valeurs propres

6.3.3. Tableaux des facteurs sur I et sur J : aides à l’interprétation
6.3.4. Représentations graphiques
6.4. Analyse des correspondances multiples
6.4.1. Tableau disjonctif complet
6.4.2. Tableau de Burt
6.4.3. Equivalence entre les deux analyses précédentes
6.4.4. Calcul de contributions dans le tableau disjonctif complet
6.4.5. Interprétation d’une analyse des correspondances multiples
6.4.5.1. Tableau des données de base
6.4.5.2. Valeurs propres
6.4.5.3. Tableaux des facteurs sur i et J
6.4.5.4. Représentation graphique
7. CLASSIFICATION ASCENDANTE HIERARCHIQUE
7.1. Principes généraux
7.1.1. Partition et hiérarchie
7.1.2. Classification ascendante et classification descendante

7.1.3. Construction d’une classification ascendante hiérarchique
7.1.4. Critères d’agrégation
7.2. L’interprétation d’une classification ascendante hiérarchique
7.2.1. Le tableau des données
7.2.2. Histogramme des indices de niveau de la hiérarchie
7.2.3. Le tableau du contenu des classes
7.2.4. Représentation de la classification ascendante hiérarchique
7.2.5. Calcul de contributions
7.2.5.1. Etude des classes par rapport à des axes. Formulaire
7.2.5.2. Etude des classes par rapport à des axes. Exemple
7.2.5.3. Etude des dipôles par rapport à des axes. Formulaire
7.2.5.4. Etude des dipôles par rapport à des axes. Exemple
7.2.5.5. Contributions relatives mutuelles entre classes et facteurs
7.2.6. Introduction des nœuds de la classification dans le graphique de l’analyse factorielle
REFERENCES BIBLIOGRAPHIQUES