Cours de statistique : principe de l’analyse factorielle

Cours de statistique : principe de l’analyse factorielle
Introduction
L’analyse factorielle est une technique statistique aujourd’hui surtout utilisée pour dépouiller des enquêtes : elle permet, quand on dispose d’une population d’individus pour lesquelles on possède de nombreux renseignements concernant les opinions, les pratiques et le statut (sexe, âge, etc.), d’en donner une représentation géométrique 1 , c'est-à-dire en utilisant un graphique qui permet de voir les rapprochements et les oppositions entre les caractéristiques des individus. Cette technique est déjà centenaire : elle a été créée en 1904 par le psychologue anglais Charles Spearman (inventeur également du coefficient de corrélation de rang), dans le but de mesurer l’intelligence 2 . Sa technique porte le nom aujourd’hui d’analyse factorielle des psychologues. D’autres techniques d’analyse factorielle seront développées ensuite : l’analyse en composantes principales 3 (souvent abrégée en ACP) et une variété de celle-ci l’analyse factorielle des correspondances (AFC), crée dans les années 1960 par Jean-Paul Benzécri 4 .
Du fait de l’essor de l’informatique, cette dernière technique est devenue une technique standard, intégrée dans les grands logiciels statistiques internationaux (SAS, SPSS). Le but de ce texte est de donner à toute personne qui le désire les connaissances nécessaires pour comprendre correctement les résultats d’une analyse des correspondances publiés dans des revues de sciences sociales ou dans des feuilles d’information des ministères 5 . Il ne s'agit pas ici de faire la théorie de l’analyse factorielle, ce qui suppose des connaissances mathématiques qui, à mon avis, ne sont pas nécessaires pour comprendre le principe de la méthode. Je prends d’autant plus volontiers cette position que l’exposé du principe de la méthode est largement redevable de l’enseignement à l’EHESS d’un mathématicien, Georges Th. Guilbaud à qui je rends ici hommage. Il a montré dans ses cours et ses écrits que les objets mathématiques utilisés par la statistique étaient précisément des objets que l’on pouvait appréhender par le calcul numérique, ce qui sera fait ici. L’expérimentation est un mode d’accès fructueux pour les gens qui ne sont pas statisticien de métier, qui font confiance aux mathématiciens pour qu’ils leur proposent des méthodes valides : quand ceux-ci pensent qu’il faut refaire leur démarche théorique pour utiliser correctement leurs méthodes, ils entrainent ceux qui les suivent dans la voie du découragement. Cependant, ceux qui voudraient approfondir dans une perspective théorique, pourront le faire en utilisant les travaux d’Henry Rouanet 6 .
Vingt ans après
Ce texte provient du fait que le "Que sais-je ?" paru sous le titre L'analyse factorielle en 1983 ne répondait plus à la demande. En effet les attentes des lecteurs ne sont plus les mêmes : quand une nouvelle technique apparait, on cherche à comprendre comment cela fonctionne et on soulève volontiers le couvercle pour démonter l’intérieur. Dans les années 1980, je me souviens avoir dû expliquer comment fonctionnait un ordinateur, mais ces temps sont révolus : on n’éprouve plus ce besoin comme pour le téléphone ou pour un moteur électrique. Pour prendre le vocabulaire de la sociologie des sciences 7 , l’ordinateur est utilisé aujourd’hui comme une boite noire : on veut n’en connaître que ce qui est utile à un bon usage. Il en est de même pour les techniques statistiques : en vingt ans d’enseignement régulier de ces techniques, j’ai vu la demande des utilisateurs évoluer, passant d’un désir très fort de savoir comment l’analyse factorielle produisait ses résultats à un objectif différent, comment bien utiliser la méthode. Un nouveau "Que sais-je ?" Les techniques d'analyse d'enquête (à paraitre en 2007) prend acte de cette évolution : la part du principe de la méthode y est réduite pour laisser plus de place à des exemples commentés d’utilisation et à des règles de bonne pratique. Le présent texte est destiné à ceux qui voudraient cependant ouvrir sérieusement la boite noire de l'analyse factorielle : après une première présentation accessible à tous (pages 3 à 13), ils y trouveront une présentation des calculs qui reprend et détaille les pages correspondantes que premier "Que sais-je ?" désormais non réédité 8 .
1 La représentation géométrique
Le tableau des carrières
Partons d’un exemple simplifié d’un tableau de données (appelé dans la suite, Tableau des carrières) qui indique ce que deviennent des cadres quand ils changent d'entreprise 9 . En ligne on trouve la position d'origine (préfixée 1) et en colonne la position de destination (préfixée 2). A l'intersection d'une ligne et d'une colonne se trouve le nombre d'individus venant de la position en ligne et s'étant dirigés vers la position en colonne. On a les positions suivantes :
PDG : Président directeur général
DMK : Directeur du marketing
DFI : Directeur financier
DTU : Directeur technique ou d'usine
CBU : Contrôleur budgétaire
DRV : Directeur régional des ventes
IPR : Ingénieur de production
IBE : Ingénieur de bureau d'études
CCO : Cadre comptable
VEN : Acheteur/inspecteur de ventes
…
L’inspection à vue des données permet de se rendre compte que le nombre le plus élevé de chaque ligne se trouve sur la diagonale du tableau : cela signifie que le phénomène qui semble le plus fréquent est paradoxalement l’absence de changement. Quand il change d’entreprise, en haut de la hiérarchie, le PDG reste PDG et en bas, l’inspecteur de ventes aussi. Cependant, si on fait la somme des effectifs diagonaux, on voit que cela ne regroupe 261 cas sur un total de 552 soit 47,3% des effectifs. Plus de la moitié des changements d’entreprise correspondent donc à des changements de poste. Pour en voir la logique (qui existe, mais qui ne saute pas aux yeux sur ce tableau), il suffit de prendre la représentation géométrique de ce tableau que nous donne une analyse des correspondances (figure 1). Sur cette figure 1, tous les intitulés des lignes (préfixés Orig pour origine) et des colonnes (préfixés Dest pour destination) sont représentés, ainsi qu’un angle droit au milieu qui marque symboliquement le centre du graphique. Chaque intitulé est représenté par un point qui, par convention, se trouve toujours à la première lettre de l’intitulé.
Plusieurs constatations peuvent être faites : .
- les intitulés identiques (par exemple origine PDG et destination PDG) sont toujours très proches - il y a trois groupes de points à la périphérie du graphique et un au centre qui se réduit au PDG (origine et destination)
- chacun des trois groupes est composé de postes (origines et destinations toujours proches) qui sont dans une même branche de l’entreprise : la production en haut à gauche (directeur technique ou d’usine, ingénieur de production ou de bureau d’études), la fonction commerciale en bas à droite (directeur du marketing ou directeur régional de ventes, acheteur/inspecteur de ventes), la fonction financière à gauche (directeur financier, contrôleur budgétaire, cadre comptable).
Ce que suggère donc la représentation géométrique du tableau des carrières c’est que les changements de postes se font à l’intérieur d’une même fonction de l’entreprise. Quand on est cadre dans le secteur de la production de l’entreprise, en cas de changement d’entreprise, on a plus de chances de se retrouver éventuellement à un autre poste mais toujours dans la production. Ce phénomène peut se repérer dans les données d’origine elles-mêmes, simplement en modifiant l’ordre des lignes et des colonnes et en regroupant les fonctions mises au jour par le graphique. Dans le tableau suivant, on a remplacé les zéros par des blancs et séparé les fonctions par des lignes pour faciliter la vision du phénomène. La direction générale a été laissée à part. Avec une telle présentation des données d’origine, l’effet de chargement sur la diagonale est amplifié : ce sont maintenant des blocs diagonaux qui apparaissent et qui manifestent les échanges privilégiés à l’intérieur des fonctions de l’entreprise. En dehors des blocs diagonaux, les effectifs sont faibles ou nuls, sauf pour la ligne et surtout la colonne PDG qui sont spécifiques.
…
Les écarts à l’indépendance : sources des attractions et des similitudes Pour comprendre ce que visualise la représentation géométrique fait par l’analyse factorielle, isolons le cas du PDG, origine et destination en regroupant toutes les autres lignes et toutes les autres colonnes dans une même catégorie " le reste "
Destination
Orig. ! 2PDG Le reste ! Total
---------+----------------+------
1PDG ! 20 16 ! 36
Le reste ! 65 451 ! 516
---------+----------------+------
Total ! 85 467 ! 552
Effectifs observés
…
Nous ne sommes pas dans une situation d'indépendance entre origines et destinations. S'il y avait indépendance pour le PDG, le pourcentage général de 15,4% s'appliquerait aux 36 PDG d'origine et, en multipliant cet effectif de 36 par la proportion 0,154 (ou le rapport qui la constitue 85 / 552), on aurait ce que l'on appelle un effectif théorique correspondant à l'hypothèse d'indépendance de : 36 x 85 / 552 = 5,5 individus. Or on en observe 20, ce qui fait un écart à l'indépendance de 20 – 5,5 = 14,5 individus. Ce qui vaut pour ce cas particulier vaut en général : l'analyse des correspondances d'un tableau quelconque rapproche les lignes et les colonnes qui sont en attraction du fait que la ligne est plus choisie par la colonne qu'en moyenne (la moyenne correspondant ici à l'effectif correspondant à l'hypothèse d'indépendance)
Prenons un autre exemple, celui de la fonction production de l'entreprise en faisant le même travail que précédemment mais en donnant comme résultat final les écarts positifs ou négatifs à la situation d'indépendance.
Destination
Origine ! DTU IPR IBE ! Le reste !
----------------+-------------------+----------+
Production 1DTU ! 24,7 7,0 3,8 ! -35,5 !
1IPR ! 5,9 19,4 3,6 ! -28,9 !
1IBE ! 6,1 5,3 15,3 ! -26,6 !
----------------+-------------------+----------!
Le reste ! -36,6 -31,6 -22,7 ! 91,0 !
----------------+----------+------------+------!
Ecarts à l'indépendance
On voit que, en ce qui concerne les intersections de lignes et de colonnes de la fonction production, comme tous les écarts à l'indépendance sont positifs et correspondent donc à des attractions, les points lignes et colonnes sont proches dans la représentation géométrique. Mais si l'on regarde maintenant les trois lignes entre elles de la fonction production, on voit qu'elles sont semblables en terme de profil : pour toutes les colonnes, elles ont en même temps, soit des écarts positifs, soit des écarts négatifs.
Deux points de vue différents sont ainsi envisagés qui correspondent à deux formes de correspondances :
- proximités entre lignes et colonnes qui signifient une attraction entre les intitulés de lignes et de colonnes, repérable par un écart à l'indépendance positif ;
- proximités entre lignes entre elles (ou entre colonnes entre elles) qui signifient une similitude entre les intitulés de lignes (ou de colonnes), repérable par une similitude des écarts à l'indépendance (en termes de signes positifs ou négatifs)
Dans la figure 1, on repère des similitudes et des attractions entre les postes à l'intérieur de chaque fonction : similitudes entre origines (par exemple 1DMK et 1DRV), similitudes entre destinations (par exemple entre 2DFI et 2CBU), attractions entre origines et destinations à l'intérieur d'une fonction (par exemple 1PDG et 2PDG, seuls représentants de la fonction de direction générale). En résumé, il faut retenir de cet exemple des carrières que l'analyse factorielle des correspondances fait la représentation géométrique d'un tableau en prenant en compte les écarts à l'indépendance du tableau (d'une manière qui sera précisée dans la suite). La notion d'indépendance dans un tableau doit donc devenir familière au lecteur 10 . Dans un tableau, l'effectif dit théorique correspondant à l'indépendance est obtenu par le produit des marges divisés par le total, c'est une manière d'appliquer le pourcentage en ligne, toutes lignes confondus, à l'effectif d'une ligne particulière. Cette hypothèse d'indépendance ne correspond à aucune théorie particulière, c'est simplement l'effectif attendu quand on ne connaît que les marges du tableau qui servent d'univers de référence. L'information apportée par le tableau lui-même entraine des écarts en plus de l'indépendance (on parle alors d'attraction entre une ligne et une colonne), ou des écarts en moins (symétriquement on parle alors de répulsion ou de déficit). Dans une représentation géométrique d'un tableau, les points correspondant aux intitulés de ligne ou de colonne, s'ils sont proches manifestent une attraction. Si des lignes entre elles sont proches (respectivement des colonnes), c'est que ces lignes ont même profil d'écart à l'indépendance (positifs, négatifs ou nuls dans les mêmes colonnes), elles sont alors semblables.
2 Comment passer du tableau au graphique
Décomposition du tableau de la destination des nouveaux bacheliers
Nous allons essayer maintenant de donner une idée de la manière dont on peut passer d'un tableau à sa représentation graphique. L'exemple sera simple et, pour que la démarche soit compréhensible, c'est le principe général du passage du tableau au graphique qui sera proposé, non précisément la représentation géométrique associée à l'analyse des correspondances (dont on verra ensuite qu'elle en est cependant assez proche). L'exemple qui nous servira (destination des nouveaux bacheliers) est une simplification des données indiquant pour les bacheliers de 1996, quelle a été leur orientation dans l'enseignement supérieur l'année suivante 1996-97 11 .
On a regroupé les séries du bac (en ligne) en quatre séries : Lettres (notée L), Economique et sociale (ES), Sciences (S), Technologique et pro (Tech) et les destinations en trois : Université (Univ), Classes préparatoires aux grandes écoles (CPGE) et Autres orientations à finalité professionnelle (Autres, dans lesquelles ont à mis les IUT). L'effectif des nouveaux bacheliers était cette année là de 700.000 bacheliers, population que l'on a ramené à 100 et les effectifs ont été légèrement modifiés et arrondis pour simplifier le tableau. On a le tableau suivant.
Nouveaux bacheliers
! Univ CPGE Autr ! Total
------+----------------+-----
L ! 14 2 4 ! 20
ES ! 16 1 3 ! 20
S ! 15 5 10 ! 30
Tech ! 5 2 23 ! 30
------+----------------+-----
Total ! 50 10 40 ! 100
Effectifs ramenés à 100
On voit que, en moyenne, la moitié des bacheliers vont à l'université, 10% dans les classes préparatoires et 40% dans les destinations à finalité professionnelles. Puisque l'information pertinente se trouve dans les écarts à l'indépendance, c'est cette distribution marginale (50%, 10%, 40%) qui sert de référence : s'il y avait indépendance entre la série du bac et la destination, puisqu'en moyenne, la moitié des bacheliers vont à l'université, la moitié des bacheliers de la série L irait, soit 10, la moitié des ES soit 10, la moitié des S soit 15, la moitié des Tech soit 15. De la même façon 10% des 20 L soit 2 iraient en classes préparatoires, etc. On a le tableau correspondant à l'indépendance suivant.
Nouveaux bacheliers
! Univ CPGE Autr ! Total
------+----------------+-----
L ! 10 2 8 ! 20
ES ! 10 2 8 ! 20
S ! 15 3 12 ! 30
Tech ! 15 3 12 ! 30
------+----------------+-----
Total ! 50 10 40 ! 100
Pour la première case (L – Université), l'effectif observé est de 14, l'effectif théorique de 10, on a donc un écart à l'indépendance positif de +4. Tous les autres écarts à l'indépendance sont calculés en faisant pour chaque case la différence Observé moins Théorique.
…
C'est dans ce tableau des écarts que se trouve l'information pertinente et le principe de la représentation graphique va être de tenter de donner à chaque intitulé de ligne et de colonne une valeur numérique positive ou négative unique (qui servira sur un axe du graphique). Cela semble impossible mais c'est pourtant ce que nous avons déjà pour le tableau d'indépendance. En effet chaque case du tableau est obtenue par produit des marges divisé par le total (50 x 20 / 100 pour le première case par exemple). Plutôt que de diviser le produit des marges par 100, il est possible de commencer par diviser chaque marge par 10: on a alors le tableau suivant où les marges ne sont plus des totaux mais des coefficients multiplicatifs qui permettent de calculer l'effectif correspondant à l'indépendance.
Nouveaux bacheliers
! Univ CPGE Autr ! Coeff.
------+----------------+-----
L ! 10 2 8 ! 2
ES ! 10 2 8 ! 2
S ! 15 3 12 ! 3
Tech ! 15 3 12 ! 3
------+----------------+----
Coeff.! 5 1 4 !
Dans ce tableau, chaque ligne et colonne a un coefficient spécifique. Ceci n'est possible que parce que c'est à partir des marges qu'est construit le tableau. Pour la première case, multiplier 2 par 5 redonne bien le même effectif de 10. C'est une opération analogue qu'il faudrait pouvoir faire sur le tableau des écarts à l'indépendance : trouver un jeu de coefficients qui par multiplication terme à terme (ligne par colonne), redonne les effectifs d'écarts à l'indépendance. Ceci n'est pas possible directement mais une solution qui s'en approche est possible. Soit les jeux de coefficient suivants pour les intitulés de ligne : L=1, ES=1, S=1, Tech=-3 et pour les intitulés de colonne Univ=2, CPGE=1, Autres=-3 (nous expliquerons plus loin comment on peut trouver ces coefficients). Le tableau ci-dessous est une approximation des écarts à l'indépendance, mais ce tableau est connu par ses marges et à chaque intitulé correspond un coefficient (qui servira pour le graphique). Pour la première case par exemple 2 est le produit de 1 (coeff. L) par 2 (coeff. Univ). Pour se rendre compte du résultat, puisqu'il s'agit d'une approximation, nous avons souligné les cases où l'approximation est la meilleure, c'est-à-dire la colonne Autres et la ligne Technique.
…
On a ainsi décomposé le tableau d'origine en trois tableaux qui ont tous la propriété d'être connus par leurs marges, d'être des faux tableaux, c'est-à-dire que la connaissance des marges dispense de la connaissance du contenu du tableau. Toute l'analyse factorielle réside dans ce principe : on décompose un tableau d'origine en un ensemble bien ordonné de faux tableaux connus par leurs marges dont la somme redonne pourtant le tableau d'origine et dont les marges vont permettre une visualisation graphique. Ensemble ordonné de tableaux : on part du tableau de départ et on en cherche une bonne approximation. En analyse des correspondances, la première approximation sous forme de tableau connu par ses marges est le tableau correspondant à l'indépendance. Cette approximation est grossière puisqu'elle laisse de côté les écarts à l'indépendance qui constituent un premier reste. On refait l'opération de recherche d'une approximation de ce premier reste (les écarts) et on peut décomposer ces écarts en leur approximation et un nouveau reste. L'opération de décomposition est terminée et le dernier reste est déjà un faux tableau connu par ses marges : en effet, un résultat mathématique intéressant est que tout tableau est décomposable en un nombre de faux tableaux, que les mathématiciens appellent tableaux de rang un, qui dépend du nombre de lignes ou de colonne. C'est le plus petit de ces deux nombres (de lignes ou de colonnes) qui indique le nombre de tableaux au plus nécessaire pour décomposer le tableau d'origine (ce que l'on nomme le rang du tableau). Dans l'exemple sur la destination des bacheliers, comme il y a quatre séries en ligne et trois destinations en colonne, le rang du tableau est de trois et il peut se décomposer en trois tableaux de rang un, l'indépendance, l'approximation et le reste.
Table des matières :
1 La représentation géométrique ...................................... 3
2 Comment passer du tableau au graphique .................... 7
3 Les calculs de l'analyse factorielle ............................... 14
4 L'analyse en composantes principales......................... 18
5 L'analyse des correspondances................................... 28