Support de cours sur la statistique correlation avec exercices d'application
...
2 Coefficient de corrélation de Bravais-Pearson
2.1 Covariance
L'objectif de la covariance est de quantifier la liaison entre deux variables X et Y , de manière à mettre en évidence le sens de la liaison et son intensité.
2.1.1 Définition
La covariance est égale à l'espérance du produit des variables centrées.
COV(X,Y) = E{[X − E(X)][Y − E(Y )]l (2.1)
On peut aussi l'écrire comme l'espérance du produit des variables, moins le produit des espérances. COV(X,Y) = E[XY ] − E[X]E[Y] (2.2)
Signification. La covariance mesure la tendance des deux variables à être simultanément au dessus ou en dessous de leurs espérances respectives. Elle modélise une liaison monotone.
Quelques remarques :
~ COV (X, Y ) > 0 : la relation est positive c.-à-d. lorsque X est plus grand que son espérance, Y a tendance à l'être également;
~ COV (X, Y ) = 0 : absence de relation monotone;
~ COV (X, Y ) < 0 : la liaison est négative c.-à-d. lorsque X est plus grand que son espérance, Y a tendance à être plus petit que sa propre espérance.
8 2 Coefficient de corrélation
COV(X,X) = E{[X − E(X)][X − E(X)]} = E{[X − E(X)]2}
= V (X)
> 0
2.1.2 Propriétés
Voici les principales propriétés de la covariance (Note : essayez d'effectuer les démonstrations à partir de la définition et des propriétés de l'espérance mathématique).
X, Yindependants => COV (X, Y ) = 0
Attention, la réciproque est généralement fausse. Ce n'est pas parce que la covariance est nulle que les variables sont forcément indépendantes.
(Remarque : Pour démontrer cette propriété, il ne faut pas oublier que lorsque X et Y sont indépendants, E[X x Y] = E[X] x E[Y]).
2.1.3 Domaine de définition
La covariance est définie dans l'ensemble des réels c.-à-d. −oo < COV (.) < +oo. Il permet de se rendre compte du sens de la liaison. Plus sa valeur est élevée (en valeur absolue), plus la liaison est forte. Mais nous ne savons pas quelle est la limite. Nous ne pouvons pas non plus comparer la covariance d'une variable X avec deux autres variables Y et Z. Dans la pratique, nous préférerons donc une mesure normalisée : le coefficient de corrélation répond à ces spécifications (section 2.2).
2.1.4 Estimation
Sur un échantillon de taille n, la covariance empirique est définie de la manière suivante :
~n i=1(xi − ¯x)(yi − ¯y)
ˆSxy = (2.3)
n
On montre que c'est un estimateur biaisé de la covariance, en effet E[ˆSxy] = n−1
n COV (X,Y ).
L'estimateur sans biais de la covariancel s'écrit par conséquent :
C E 1(xi − x) (yi
ÔV (X, Y) —
n − 1 En i=1 xiyi − n¯x¯y
= (2.4)
n − 1
Détails des calculs sur un exemple. Pour préciser les idées, détaillons les calculs dans le tableur EXCEL. Nous cherchons à calculer la covariance entre la cylindrée et la puissance de 28 véhicules (Figure 2.1) :
Fig. 2.1. Détails des calculs - Estimation de la covariance
~ Au bas de la feuille de calcul, en colonne C et D nous avons la moyenne de chaque variable.
~ Dans la colonne E, nous calculons le produit (xiyi), dont la somme est 4451219.
~ Nous pouvons alors former la covariance empirique (formule 2.3), elle est égale à 18381.4133.
~ L'estimateur sans biais (formule 2.4) étant lui égal à 19062.2063. L'écart entre les deux valeurs s'amenuise à mesure que l'effectif n augmente.
~ Notons que la fonction "COVARIANCE(...)" du tableur EXCEL fournit la covariance empirique.
Comparaison de covariances. Illustrons maintenant l'impossibilité de comparer des covariances lorsque les variables sont exprimées dans des unités différentes. Nous souhaitons travailler sur un fichier de 28 véhicules décrites à l'aide de la cylindrée, la puissance, le poids et la consommation (Figure 2.2; ce fichier reviendra plusieurs fois dans ce support).
Fig. 2.2. Fichier "consommation des automobiles"
La covariance empirique de la variable "consommation" avec les autres variables nous donne respec
tivement : cylindrée 1197.6; puissance 61.7; poids 616.3. Manifestement, les valeurs ne se situent
pas sur la même échelle, toute comparaison n'a aucun sens.
2.2 Coefficient de corrélation de Pearson 2.2.1 Définition
Le coefficient de corrélation linéaire simple, dit de Bravais-Pearson (ou de Pearson), est une norma¬lisation de la covariance par le produit des écarts-type des variables.
~ (2.5)
V (X) × V (Y )
COV (X, Y )
= (2.6)
Qx × Qy
Remarque 1 (Précisions sur la notation). Dans ce qui suit, s'il n'y a pas d'ambiguïtés, nous omettrons les indices X et Y .
2.2.2 Propriétés
2.3 Coefficient de corrélation empirique 11
Le coefficient de corrélation est indépendant des unités de mesure des variables, ce qui autorise les comparaisons. La mesure est normalisée, elle est définie entre
−1 < r < +1 (2.7)
Lorsque :
~ r = +1, la liaison entre X et Y est linéaire, positive et parfaite c.-à-d. la connaissance de X nous fournit la valeur de Y (et inversement).
~ r = −1, la liaison est linéaire et négative.
2.2.4 Quelques exemples graphiques
Reprenons les exemples graphiques présentés ci-dessus (section 1.2, figure 1.1), affichons maintenant le coefficient de corrélation (Figure 2.3). Si la liaison est non monotone, r n'est d'aucune utilité. Si la liaison est monotone mais non linéaire, r caractérise mal l'intensité de la liaison.
2.3 Coefficient de corrélation empirique
2.3.1 Définition
Sur un échantillon de taille n, nous estimons le coefficient de corrélation à l'aide de la formule suivante (Équation 2.8) :
V ( X
,
V ( X
, + Y) > 0 => r > −1 y
Q ) > 0 => r < +1
y
12 2 Coefficient de corrélation
Fig. 2.3. Coefficients de corrélation pour différents types de liaison
∑n i=1(xi − ¯x)(yi − ¯y)
rˆ =√∑n √∑n (2.~)
i=1(xi − ¯x)2 × i=1(yi − ¯y)2
On parle de coefficient de corrélation empirique dans la littérature. Après quelques simplifications, nous pouvons également utiliser la formulation suivante :
rˆ= √∑ x2i − n¯x2 × √∑ y2i − n¯y2
∑ xiyi − n¯x¯y (2.9)
Nous pouvons calculer le coefficient de corrélation sans disposer du détail des observations, les quan¬tités pré-calculées ¯x, ¯y, ∑ xiyi, ∑x2 i et ∑ y2i suffisent.
2.3.2 Interprétation
Le coefficient de corrélation sert avant tout à caractériser une relation linéaire positive ou négative. Il s'agit d'une mesure symétrique. Plus il est proche de 1 (en valeur absolue), plus la relation est forte. r = 0 indique l'absence de corrélation, il équivaut à un test d'indépendance si et seulement si le couple (X, Y ) suit une loi normale bivariée.
La valeur de rˆ n'a pas de signification intrinsèque. En revanche, son carré c.-à-d. ˆr2, que l'on appelle coefficient de détermination, s'interprète comme la proportion de variance de Y (resp. X) linéai¬rement expliquée par X (resp. Y ). On peut faire le rapprochement avec les résultats produits avec la régression linéaire 3.
Ainsi, rˆ = 0.9, on voit que la liaison est forte, puisqu'elle se rapproche de 1. C'est tout. En revanche, avec ˆr2 = 0.81, on peut dire que 81% de la variance de Y est expliquée par X (et inversement)(voir [3], page 90).
Il existe par ailleurs d'autres interprétations du coefficient de corrélation de Pearson. Parmi les plus intéressants figure l'interprétation géométrique qui assimile r au cosinus de l'angle entre les deux vecteurs de n observations X et Y.
2.3.3 Product-moment correlation
Dans la littérature anglo-saxonne, on parle souvent de "product-moment correlation" à propos du coefficient de corrélation de Pearson. Cela s'explique par le fait qu'il peut s'exprimer comme la moyenne
cr
du produit des variables centrées réduites. Si l'on désigne par x (resp. cry) les valeurs de X (resp. Y ) centrées et réduites c.-à-d.
cr xi = xi − x
sx
Le coefficient de corrélation empirique peut s'écrire
yicr (2.10)
En particulier, lorsque les données sont centrées et réduites, covariance et corrélation empiriques sont équivalents.
2.3.4 Biais et Coefficient de corrélation ajusté
Le coefficient de corrélation empirique est un estimateur biaisé. Fort heureusement, le biais devient négligeable lorsque l'effectif augmente. L'espérance de l'estimateur s'écrit ([1], page 107) ~
r(1 − r2)
E[ˆr] = r −
2n
14 2 Coefficient de corrélation
Pour cette raison, certains logiciels proposent un coefficient de corrélation ajusté ([61, page 274) raj =~1 n − 2(1 − ˆr2) (2.11)
Bien entendu, l'ajustement est d'autant plus sensible que l'effectif est faible. Lorsque n est élevé, rˆ et ˆraj se confondent.
2.3.5 Exemples numériques
Détails des calculs sur un exemple. Reprenons les variables cylindrée (X) et puissance (Y) de notre fichier "voitures". Nous détaillons les calculs dans la feuille EXCEL (Figure 2.4) :
Fig. 2.4. Détails des calculs - Estimation de la corrélation
~ Au bout des colonnes C et D, nous disposons toujours des moyennes empiriques.
~ Nous formons les quantités (xiyi), x2i et y2i . Nous calculons leurs sommes respectives : 4451219, 102138444 et 197200.
2.3 Coefficient de corrélation empirique 15
~ A partir de la formule 2.9, nous obtenons le numérateur 514679.571 et le dénominateur ~
543169.291.
~ Reste à former le rapport, la corrélation entre la cylindrée et la puissance est rˆ = 0.9475.
~ La fonction "COEFFICIENT.CORRELATION(...)" du tableur EXCEL propose la même valeur.
Nuage de points. Il y a une forte liaison linéaire entre "cylindrée" et "puissance", ce que confirme le graphique nuage de points (Figure 2.5). On notera aussi, et le coefficient de corrélation ne sait pas traduire ces informations, que 2 points semblent s'écarter des autres, mais pas de la même manière :
Fig. 2.5. Nuage de points "Cylindrée vs. Puissance"
~ La "Lancia K 3.0 LS" est une grosse cylindrée, très puissante. Elle s'écarte du nuage certes, mais elle est dans la lignée de la liaison entre les deux variables.
~ La "Hyundai Sonata 3000" est aussi une grosse cylindrée, mais elle est relativement anémique. Le point est un peu à l'écart des autres, tout comme la Lancia, mais elle ne respecte pas, apparem-ment, l'apparente liaison (visuelle et numérique) entre cylindrée et puissance. Si on retire cette observation, la corrélation est renforcée, elle passe à 0.9635.
Comparaison de coefficients de corrélation. Maintenant, nous pouvons comparer les coefficients de corrélation calculés sur différentes variables. Reprenons notre exemple des voitures, calculons le coeffi¬cient de corrélation de consommation avec les autres variables, nous obtenons respectivement : cylindrée
~ 0.892, puissance 0.888 et poids 0.926.
La variable "consommation" est singulièrement corrélée avec l'ensemble des variables. Le lien avec poids semble plus élevé que le lien avec puissance. Mais sans l'arsenal de l'inférence statistique, nous ne pouvons pas affirmer s'il est significativement plus élevé que les autres.
2.4 Test de significativité
2.4.1 Spécifications du test
Le premier test qui vient à l'esprit est la significativité de la corrélation c.-à-d. le coefficient de corrélation est-il significativement différent de 0?
Le test s'écrit :
H0 : r = 0
H1 : r ≠0
Remarque 2 (Autres hypothèses alternatives). On peut vouloir définir une hypothèse alternative différente (H1 : r < 0 ou H1 : r > 0). Les caractéristiques des distributions restent les mêmes. Pour un risque a donné, seul est modifié le seuil de rejet de H0 puisque le test est unilatéral dans ce cas.
Test exact. Le test étudié dans cette section est paramétrique. On suppose a priori que le couple
(X, Y ) suit une loi normale bivariée6. Dans ce cas : la distribution sous H0 de la statistique du test que nous présenterons plus bas est exacte; le test de significativité équivaut à un test d'indépendance.
Test asymptotique. Cette restriction est moins contraignante lorsque n est suffisamment grand'. A partir de 25 observations, l'approximation est bonne, même si nous nous écartons (un peu) de la distri¬bution normale conjointe ([121, page 308). La distribution est asymptotiquement valable sous l'hypothèse r = 0. Mais le test de significativité revient simplement à tester l'absence ou la présence de corrélation.
Statistique du test. Sous H0, la statistique :
rˆ
(2.12)
suit une loi de Student à (n − 2) degrés de liberté.
Région critique. La région critique (rejet de l'hypothèse nulle) du test au risque a s'écrit :
R.C.:
|t| > t1− 2 (n − 2)
où t1− 2 (n − 2) est le quantile d'ordre 1 − 2 de la loi de Student à (n − 2) degrés de liberté. Il s'agit d'un test bilatéral.
Probabilité critique (p-value). Plutôt que de comparer la statistique calculée avec la seuil théorique fournie par la loi de Student, les logiciels proposent souvent la probabilité critique (p-value) que l'on doit comparer au risque a que l'on s'est fixé. Si la p-value est plus petite, alors nous rejetons l'hypothèse nulle.
2.4.2 Un exemple numérique
Reprenons le calcul de la corrélation entre la cylindrée et la puissance (Figure 2.4). Nous souhaitons tester sa significativité au risque a = 0.05. Nous avions n = 28, et rˆ = 0.9475.
Nous devons calculer les éléments suivants ~
~ 0.9475
La statistique du test t = ~1−0.94752 = 15.1171 28−2
~ Le seuil théorique au risque a = 0.05 est t0.975(28 − 2) = 2.0555
~ Nous concluons donc au rejet de l'hypothèse nulle c.-à-d. les résultats que nous obtenons à partir des données ne sont pas compatibles avec une absence de corrélation. On s'en serait douté avec une valeur aussi élevée. A la différence que maintenant, nous pouvons associer un risque à la prise de décision.
2.4.3 Test asymptotique (bis)
De manière générale, rˆ tend lentement vers la loi normale. Quand n --> +oo, t suit une loi de Student à degrés de liberté infini, donc vers la loi normale.
Sous l'hypothèse H0 : r = 0, la convergence est plus rapide. Lorsque n > 100, la loi de rˆ peut être approximée à l'aide de la loi normale N(0; 1
~n−1). Le test de significativité peut s'appuyer sur cette distribution.
2.5 Test de conformité et intervalle de confiance
Pour calculer un intervalle de confiance ou tester la conformité de r avec une autre valeur que 0, il faudrait connaître la distribution de la statistique de manière générique c.-à-d. quelle que soit la vraie valeur de r dans la population.
Or, on se rend compte que dans un voisinage autre que r = 0, la convergence vers la loi normale est plus lente et, pour les petits effectifs, la distribution de rˆ tend à être dissymétrique à gauche ([21, page 15).
Pour remédier à cela, il est conseillé de passer par une transformation dite de Fisher.
2.5.1 Transformation de Fisher La transformation de Fisher s'écrit
1 + rˆ
ln (2.13)
1 − rˆ
Elle est distribuée asymptotiquement selon une loi normale de paramètres 8
1−e + e
2(n−1). Il y a un léger biais, mais il devient très vite négligeable dès que n augmente.
E[ˆz] ti 1 ln 1 + r
2 1 − r 1
V [ˆz] ti n − 3
L'approximation est bonne dès les (relativement) petites valeurs de n (dès n > 10 en pratique). Nous pouvons nous appuyer sur cette statistique pour réaliser le test de significativité ci-dessus. Mais, plus intéressant encore, la transformation nous offre d'autres possibilités.
2.5.2 Intervalle de confiance
Nous pouvons calculer un intervalle de confiance pour ˆr. Il faut pour cela garder à l'esprit que l'on peut obtenir rˆ à partir de zˆ en utilisant la relation
rˆ= e2ˆz + 1
e2ˆz − 1 (2.14)
Voici la démarche à adopter pour obtenir l'intervalle de confiance au niveau de confiance (1 − a) ~ ~ Calculer zˆ à partir de rˆ (Equation 2.13)
~ Calculer les bornes de l'intervalle de confiance de z avec
z1,2 = zˆ f u1− 2 x ~ n 1 3 (2.15)
−
~En déduire alors les bornes de l'intervalle de confiance de r (Equation 2.14)
Exemple numérique. Nous souhaitons calculer l'intervalle de confiance de la corrélation entre cy
lindrée et puissance pour un niveau de confiance de 95%. Rappelons que rˆ = 0.9475.
~ Le quantile de la loi normale centrée réduite d'ordre 0.975 est u0.975 = 1.96
~ La transformation de Fisher nous donne zˆ = 1 ln 1+0.9475 = 1.8072
2 1−0.9475
~ 1
~ L'écart type de zˆ est égal à 28−3 = 0.2
~ La borne basse de l'intervalle de confiance s'écrit z1 = 1.8072−1.96 x 0.2 = 1.4152; selon le même procédé, la borne haute z2 = 2.1992
~ Nous en déduisons les bornes de l'intervalle de confiance du coefficient de corrélation ~
e2×1.4152 − 1 =
= 0.8886
0.9757
=
r1 e2×1.4152
e2×2.1992 + 1
− 1
r2 =
e2×2.1992 + 1
L'intervalle de confiance au niveau 95% de la corrélation entre la cylindrée et la puissance est [0.8886; 0.9757]
2.5.3 Comparaison à un standard (autre que 0)
La transformation nous permet d'aller plus loin que le simple test de significativité, nous avons la possibilité de comparer la valeur du coefficient de corrélation avec une valeur de référence r0. La loi associée à z est valable quelle que soit la valeur de r dans la population parente.
Nous passons par la transformation de Fisher, avec z0 = 21 ln 1+r0
1−r0 , l'hypothèse nulle du test s'écrit
H0 : z = z0
La statistique du test U est
Elle suit une loi normale centrée réduite.
Exemple : Corrélation cylindrée - puissance. Nous souhaitons effectuer le test unilatéral suivant au risque 5%
H0 : r = 0.9
H1 : r > 0.9
Les étapes du calcul sont les suivantes
~ Nous calculons la valeur de référence transformée z0= 21 ln 1+0.9
1−0.9 = 1.4722
~ Rappelons que rˆ = 0.9475 et zˆ = 1.8072
~ La statistique du test est U = (ˆz − z0) × n − 3 = (1.8072 − 1.4722) × 28 − 3 = 1.6750
~ Que nous devons comparer avec le quantile d'ordre 1 − a = 1 − 0.05 = 0.95 de la loi normale centrée réduite c.-à-d. u0.95 = 1.6449
~ Au risque a = 5%, l'hypothèse nulle n'est pas compatible avec nos données, nous acceptons H1
2.6 Problèmes et cas pathologiques
"Corrélation n'est pas causalité". C'est une phrase maintes fois répétée dans tous les ouvrages. En effet, le coefficient de corrélation est un indicateur statistique, avec ses forces et ses faiblesses. Il ne faut surtout pas en faire une référence absolue. Il importe de délimiter clairement son champ d'action et identifier les cas où ses indications sont sujettes à caution. La qualité des interprétations consécutives aux calculs en dépend (voir aussi [3], pages 93-94, concernant les "petites corrélations").
2.6.1 Corrélation fortuite
La corrélation peut parfois être totalement fortuite. Johnston ([4], page 10) rapporte par exemple que sur les données annuelles de 1897 à 1985, des études ont montré une corrélation de 0.91 entre le revenu national américain et le nombre de tâches solaires (les zones sombres du soleil, ce sont des zones moins chaudes). Personne ne peut décemment soutenir qu'il y a une relation quelconque entre ces 2 grandeurs.
2.6.2 Facteur confondant
La corrélation peut aussi cacher l'influence d'un autre facteur. On montre par exemple qu'il existe une relation négative entre la taille des personnes et la longueur de leur chevelure. On pourra toujours avancer des arguments plus ou moins psychologiques, mais avant de s'avancer outre mesure, on ferait mieux de revenir sur les conditions du recueil des données et vérifier qu'il n'y a pas d'informations cachées derrière tout cela.
Dans cet exemple, on se rend compte que les hommes et les femmes sont mélangés dans le fichier de données. Or, en moyenne, les hommes sont plus grands que les femmes, et inversement, les femmes ont une chevelure plus longue que les hommes. Le sexe de la personne joue alors le rôle de facteur confondant. L'apparente liaison est un artefact lié à l'existence d'un facteur non maîtrisé.
Dans le cas où le facteur confondant est qualitatif, on détecte facilement le problème en construisant un nuage de points en distinguant les sous-groupes. Étudions plus en détail notre exemple "taille vs. longueur de cheveux" chez les hommes et chez les femmes. Lorsque nous construisons le nuage de points, nous constatons que le nuage des hommes se distingue du nuage des femmes (Figure 2.6). Globalement, une liaison complètement factice apparaît. La corrélation est ˆr1 = −0.074 chez les hommes, ˆr2 = −0.141 chez les femmes, il passe à rˆ = −0.602 sur la totalité des individus.
Fig. 2.6. Nuage de points "taille vs. longueur des cheveux" - Hommes et femmes confondus
Lorsque le facteur est quantitatif, c'est un peu plus compliqué (exemple : vente de lunettes de soleil et de crèmes glacées, il n'y a pas de lien direct, c'est l'ensoleillement ou la température qui les font varier de manière concomitante). Nous étudierons plus en détail le calcul de la corrélation en contrôlant les effets d'une ou plusieurs tierces variables dans la partie consacrée à la corrélation partielle.
2.6.3 Points aberrants (atypiques)
Dans certains cas, 1 ou 2 points peuvent totalement fausser les résultats. Ces points s'écartent signifi¬cativement des autres, on parle de points "aberrants" ou "atypiques", dans le sens où ils n'appartiennent (vraisemblablement) pas à la population parente.
Les raisons de l'apparition de ce type d'observations sont multiples : erreur lors du recueil des données (exemple : une personne de 4 ans souscrit à une assurance-vie, en réalité elle a 40 ans) ; un comportement réellement différent (exemple : un sportif tellement dopé qu'il porte les records du monde à des sommets jamais atteints) ; etc.
Le positionnement de ces points par rapport au nuage global laisse croire (ou masque) l'existence d'une liaison manifeste entre les variables. Il existe certes des techniques statistiques destinées à identifier automatiquement les données atypiques, mais force est de constater que des graphiques simples telles que les nuages de points permettent souvent de détecter rapidement les anomalies.
Fig. 2.7. Influence du point numéro 7 sur le coefficient de corrélation
Dans un premier exemple (Figure 2.7), on note le positionnement totalement atypique de l'individu numéro 7. Si on l'utilise dans les calculs, le coefficient empirique est 0.9976, très proche de liaison linéaire parfaite. Si on le retire c.-à-d. on calcule le coefficient sur les 6 points restants, la corrélation passe à 0.0185. Le point numéro 7 fausse complètement le calcul.
Parfois, le point aberrant est particulièrement sournois. Il est conforme au domaine de définition de X et Y . Mais sur la conjonction (X, Y ), il s'écarte du nuage principal (Figure 2.8). Dans cet exemple, le point atypique (entouré de rouge) masque en partie la forte liaison entre X et Y . Les techniques statistiques de détection univariée des points atypiques 9 sont totalement inopérantes ici. Il faut se tourner vers d'autres procédures. Certaines sont liées à la méthode statistique mise en oeuvre pour analyser les données 10.
Fig. 2.8. Point aberrant "multivarié"
2.6.4 Liaison non linéaire
Le coefficient de corrélation sert avant tout à caractériser une liaison linéaire. Lorsqu'elle ne l'est pas, rˆ peut nous induire en erreur sur l'existence et l'intensité de la relation entre les variables.
Liaison monotone. Lorsque la liaison est non linéaire mais monotone, le coefficient de corrélation est certes peu adapté mais n'est pas complètement hors de propos : il donne des indications quant à l'existence de la liaison, mais il traduit mal son intensité.
Fig. 2.9. Liaison non linéaire monotone
Dans la figure 2.9, nous constatons visuellement l'existence d'une liaison fonctionnelle quasi parfaite entre X et Y , c'est patent lorsqu'on relie les points. Pourtant le coefficient de corrélation nous annonce rˆ = 0.7804, indiquant clairement qu'il y a une liaison certes, mais ne rendant pas compte de son intensité. Nous verrons plus loin avec les indicateurs basés sur les rangs comment palier ce problème sans avoir à faire des manipulations compliquées.
Liaison non monotone. Lorsque la liaison est non monotone, c'est la catastrophe : le coefficient de corrélation ne rend compte ni de l'intensité de la liaison, ni même de son existence.
Dans la figure 2.10 (A), on constate immédiatement la forme parabolique de la relation. Pourtant le coefficient de corrélation nous indique ˆrxy = −0.0118. Effectivement, elle n'est pas linéaire, mais il y a bien une liaison entre X et Y , le coefficient de Pearson est totalement inadapté ici.
Fig. 2.10. Liaison non linéaire et non monotone
Linéarisation par transformation de variables. Une solution évidente, surtout si l'on considère l'exemple précédent, est de proposer une transformation de variables de manière à mettre en exergue une relation linéaire. Dans la figure 2.10 (B), si nous proposons une nouvelle variable Z = X2, la corrélation mesurée en est grandement modifiée ˆrzy = 0.990. Il y a bien un lien entre les variables, elle est particulièrement forte.
Malheureusement, cette démarche est difficile à reproduire : la fonction de transformation adéquate n'est pas toujours évidente à produire; dans le traitement de gros fichiers où nous avons à manipuler plusieurs dizaines de variables, le nombre de configurations à expertiser est dissuasif.
3 Tests de comparaison de corrélations
Dans cette section sont réunis quelques tests de comparaison de corrélations que l'on retrouve peu souvent dans la littérature francophone et qui, pourtant, répondent à des problématiques très concrètes.
3.1 Comparaison de 2 coefficients de corrélation (échantillons indépendants)
Autre possibilité qu'introduit la transformation de Fisher : la comparaison les corrélations dans deux populations différentes. Mettons que nous souhaitons comparer la corrélation entre le poids et la taille chez les hommes et chez les femmes. Est-ce qu'elle est identique dans les deux populations?
Nous travaillons sur 2 échantillons indépendants, extraits au hasard dans chaque sous population. La corrélation théorique est r1 (resp. r2) chez les femmes (resp. chez les hommes). Le test d'hypothèses s'écrit :
H0: r1 = r2
H1 : r1 =~ r2
Nous disposons de 2 échantillons de taille n1 et n2. Nous introduisons la statistique
D = ˆz1 − ˆz2 (3.1)
Sous H0, puisque les estimateurs rˆ (et par conséquent ˆz) sont indépendants (estimés sur des échantillons indépendants), la statique D suit asymptotiquement une loi normale de paramètres
Au risque a, la région critique du test bilatéral s'écrit :
|ˆz1 − ˆz2|
R.C.: U = ~ > u1− 2
1 + 1 n1−3 n2−3
26 3 Tests de comparaison de corrélations
Exemple numérique : comparer la corrélation taille - poids chez les hommes et chez les femmes. Nous disposons d'un échantillon de n1 = 15 femmes, et n2 = 20 hommes (Figure 3.1). Nous souhaitons tester l'égalité du coefficient de corrélation entre le poids et la taille dans les deux sous-populations au risque de 5%. Les étapes du calcul sont énumérées ci-dessous.
Fig. 3.1. Comparaison de 2 coefficients de corrélation - Échantillons indépendants
~ Nous calculons les coefficients de corrélation, nous obtenons ˆr1 = 0.5661 et ˆr2 = 0.4909
~ Nous appliquons la transformation de Fisher, ˆz1 = 0.6417 et ˆz2 = 0.5372
~ Nous calculons la statistique D = ˆz1 − ˆz2 = 0.1045, puis sa variance V (D) = 1
15−3 20−3
+ 1 = 0.1422
~ Nous en déduisons alors U = |0.1045| 0.3652 = 0.2771
0.1422 0.3770
~ Que nous comparons au quantile d'ordre 0.975 de la loi normale centrée réduite, soit u0.975 = 1.96 ~ Conclusion : au risque de 5%, les données sont compatibles avec l'hypothèse nulle c.-à-d. le coefficient de corrélation entre le poids et taille n'est pas significativement différent chez les hommes et les femmes.
3.2 Comparaison de K (K > 2) coefficients (échantillons indépendants) 27
3.2 Comparaison de K (K > 2) coefficients (échantillons indépendants)
Il est possible de généraliser ce test pour comparer K coefficients de corrélation dans K sous-populations. La statistique du test s'écrit différemment, elle suit une loi du X2 dans ce cas (voir [2], page 22). Il s'agit bien souvent de comparer le même coefficient de corrélation sur plusieurs sous-populations.
Remarque 3 (C'est une vraie généralisation). Lorsque K = 2, nous devrions retrouver le test précédent, nous vérifierons cela sur le même exemple que précédemment (section 3.1).
L'hypothèse nulle du test est
H0 : r1 = r2 = ··· = rK
L'hypothèse alternative est "un des coefficients au moins s'écarte des autres". La statistique du test s'écrit :
(nk − 3)ˆzk − [∑Kk K(nk − 3)ˆzk]2 (3.2)
∑k=1(nk − 3)
où nk est l'effectif de l'échantillon ayant servi à mesurer la corrélation ˆrk ; ˆzk est la transformation de Fisher de ˆrk c.-à-d. ˆzk = 21 ln 1+ˆrk
1−ˆrk .
Sous H0, la statistique du test suit une loi du X2(K−1) à K−1 degrés de liberté. On rejette l'hypothèse nulle lorsqu'elle est supérieure au quantile X21−(K − 1) de la loi théorique pour un risque a.
Exemple numérique 1 : comparaison de la corrélation poids vs. consommation des véhicules de différentes origines. Nous souhaitons vérifier, au risque de 5%, que la corrélation entre le poids et la consommation des véhicules est la même pour des véhicules en provenance de l'Europe (France, Allemagne, etc.), du Japon, et des USA. Le fichier est disponible sur le site DASL (Data and Story Library)1. Du fichier original, nous avons supprimé l'observation atypique (la fameuse Buick Estate Wagon). Nous disposons pour chaque catégorie de véhicule de n1 = 9, n2 = 7 et n3 = 21 observations.
Tous les calculs ont été menés dans une feuille EXCEL (Figure 3.2), en voici les détails :
~ Pour chaque origine des véhicules, nous disposons des deux colonnes de données (Poids et Consommation).
~ Nous obtenons les coefficients de corrélation empiriques ˆr1 = 0.9716, ˆr2 = 0.9540, ˆr3 = 0.9647; en appliquant la transformation de Fisher, nous avons : ˆz1 = 2.1198, ˆz2 = 1.8741, ˆz3 = 2.0092. ~ Nous formons alors A = ∑k(nk − 3)ˆzk = 3178.7259; B = ∑k(nk − 3) = 28; C = ∑k(nk − 3)ˆz2k =
113.6718.
~ La statistique du test est X2 = C − AB = 0.1459.
~ Le quantile d'ordre 1−a = 95% de la loi du X2 à (K−1) = 2 degrés de liberté est X20.95(2) = 5.9915. Nos données sont compatibles avec l'hypothèse nulle : les corrélations sont les mêmes quelle que soit l'origine des véhicules.
Fig. 3.2. Comparaison de K = 3 coefficients de corrélation - Échantillons indépendants
~ De la même manière, nous aurions pu calculer la probabilité critique du test (la p-value), elle est égale à 0.9297, largement supérieure au risque 5%. La conclusion est bien évidemment la même.
Exemple numérique 2 : Comparaison de la corrélation taille - poids chez les hommes et chez les femmes. Le test est une généralisation de la comparaison de 2 coefficients. Vérifions que les résultats sont en accord avec notre exemple de la section 3.1. Détaillons de nouveaux les calculs en reprenant les notations de l'exemple précédent
~ A = [(15 − 3) x 0.6417 + (20 − 3) x 0.5372]2 = 283.3678
~ B = (15 − 3) + (20 − 3) = 29
~ C = (15 − 3) x 0.64172 + (20 − 3) x 0.53722 = 9.8481
~ Ainsi, la statistique du test est x2 = C − â = 0.0768, que l'on comparera à x20.95(1) = 3.8415. Conformément au test précédent, on conclut, au risque 5%, que les données sont compatibles avec l'hypothèse d'égalité des coefficients de corrélation.
~ En regardant de plus près les résultats, nous constatons que x/0.0768 = 0.2771. On retrouve exactement la valeur de la statistique du test basé sur la loi normale. Ce n'est guère étonnant, en effet n'oublions pas qu'il y a une relation entre la loi normale et la loi du x2 à 1 degré de liberté c.-à-d. [JV(0;1)]2 = x2(1). Les deux tests sont totalement équivalents.
3.3 Comparaison de 2 coefficients de corrélation (même échantillon) - Cas 1
Autre analyse intéressante dans la pratique, nous souhaitons comparer les corrélations respectives de deux variables X et Z avec la variable Y . La situation est un peu plus complexe car les corrélations sont calculées sur un seul et même échantillon.
L'hypothèse nulle du test est naturellement
H0 : ryx = ryz
On peut vouloir construire un test unilatéral (ryx > ryz ou ryx < ryz) ou bilatéral (ryx =~ ryz).
Dans ce cadre, le test t de Williams est conseillé dès lors que n est assez grand (n > 20). La statistique s'écrit ([21, page 24)
t = (ˆryx − ˆryz)~2~ 3~R| + ¯r 2(1rx~ )3 (3.3)
xz
où r¯ = (ˆryx + ˆryz)/2;|R| = 1 − ˆr2yx − ˆr2yz − ˆr2xz + 2ˆryxˆryzˆrxz est le déterminant de la matrice (3 x 3) des corrélations entre les variables.
t suit une loi de Student à (n − 3) degrés de liberté.
Remarque 4 (X et Z sont orthogonaux). Nous remarquons que le degré du lien entre les variables X et Z influe sur les résultats. Si X et Z sont orthogonaux (c.-à-d. rxz = 0), la statistique dépend uniquement des corrélations ryx et ryz.
Exemple numérique : comparaison de la corrélation "consommation - puissance et consommation - cylindrée. Reprenons notre fichier des voitures (Figure 2.2). Nous souhaitons savoir si, à 5%, la corrélation de la consommation (Y) avec la cylindrée (la taille du moteur, X) est comparable à sa corrélation avec la puissance (Z). Nous sommes sur un test bilatéral, on veut vérifier si l'écart observé est statistiquement significatif.
Conformément à la formule 3.3, nous construisons la feuille EXCEL (Figure 3.3) ~
~ Notre effectif est n = 28.
~ Nous calculons les corrélations à comparer ˆryx = 0.8919 et ˆryz = 0.8878. Nous voulons savoir si l'écart observé est significatif c.-à-d. transposable dans la population (H1) ou uniquement du aux fluctuations d'échantillonnage (H0).
~ Nous calculons la corrélation ˆrxz = 0.9475. Nous constatons qu'elles sont très liées. Peut être d'ailleurs qu'elles amènent le même type d'information vis à vis de Y , nous vérifierons cette assertion dans la partie de ce support consacrée aux corrélation partielles.
Fig. 3.3. Comparaison de 2 corrélations du même échantillon - Cas 1
~ Nous calculons l'écart A = (ˆryx − ˆryz) = 0.0041
~ B = (n − 1)(1 + ˆrxz = 52.5838
~ |R| = 1 − ˆr2yx − ˆr2yz − ˆr2xz + 2ˆryxˆryzˆrxz = 0.0191 ~ r¯ = (ˆryx + ˆryz)/2 = 0.8898
~ C = (1 − ˆrxz)3 = 0.0001
~ Nous obtenons la statistique du test t = A2 250.0191+0 8898×0.0001 = 0.1448
~ Que nous comparons au seuil critique T0.975(25) = 2.0595.
~ Au risque 5%, nos données sont compatibles avec l'hypothèse nulle, la consommation est identiquement corrélée à la cylindrée et à la puissance.
~ La p-value du test égal à 0.8861 conduit bien évidemment à la même conclusion.
3.4 Comparaison de 2 coefficients de corrélation (même échantillon) - Cas 2
Toujours à partir sur un même échantillon, ce second test consiste à opposer
H0 : rxy = rzw
H1 : rxy ≠ rzw
Le test peut être unilatéral (c.-à-d. H1 : rxy < rzw ou rxy > rzw).
De prime abord, ce test paraît assez étrange. Est-ce que comparer des corrélations calculées sur des concepts différents a réellement un sens? Prenons l'exemple des voitures, opposer la corrélation entre la puissance et la consommation, d'une part, et la corrélation entre le poids et le prix, d'autre part, ne paraît pas très pertinent.
On comprend mieux le sens de ce test à la lumière de l'exemple proposé par une des rares références qui le décrit (voir [2], page 24). Pour un ensemble d'électeurs, on calcule la corrélation entre les donations et les intentions de votes, une année donnée, puis 4 ans plus tard. L'objectif est de vérifier si le lien entre ces deux variables a été modifié entre temps.
De cet exemple, nous retiendrons avant tout l'idée d'appariement. Nous voulons comparer l'intensité d'un lien avant et après l'occurrence d'un évènement, qui peut être simplement un certain délai, mais qui peut être aussi une action particulière. Mais la notion d'appariement est plus large. Il y a effectivement la situation "avant - après". Mais nous pouvons la définir surtout comme des mesures effectuées sur une unité statistique : dans un ménage, mesurer et comparer une caractéristique chez l'homme et la femme; comparer la même variable chez des jumeaux; etc. 2.
Le test de Clark et Dunn est conseillée pour cette configuration. Il suit asymptotiquement une loi normale centrée réduite, il est valable dès lors que n 20. Par commodités, nous numéroterons les variables X = 1, Y = 2, Z = 3 et W = 4. Nous écrirons par exemple ˆr12 pour ˆr.,y, ou ˆr34 pour ˆrz711, etc.
La statistique du test s'écrit
U = (ˆz12 − ˆz34) n − 3 (3.4)
2 − 2¯s
avec
zˆ = 21 ln 1+ˆT
1−ˆT, la transformation de Fisher;
~ s¯ = ~
(1−¯T2)2 ;
ˆT12+ˆT34
~ r¯ =
2 ;
~ = 0.5{[(ˆr13 − ˆr23¯r)(ˆr24 − ˆr23¯r)] + [(ˆr14 − ˆr13¯r)(ˆr23 − ˆr13¯r)] + [(ˆr13 − ˆr14¯r)(ˆr24 − ˆr14¯r)] + [(ˆr14 − ˆr24¯r)(ˆr23 − ˆr24¯r)]}
Une autre formulation est possible. Elle s'appuie sur l'idée que nous pouvons simplifier l'expression sous l'hypothèse nulle d'égalité des corrélations (voir [7], page 97).
Exemple : les donations au parti. Reprenons directement l'exemple décrit dans l'ouvrage de Chen et Popovich ([2], page 25). Il s'agit de tester, pour n = 203 votants, si le lien entre les donations au parti et les intentions de vote a évolué dans un laps de temps de 4 années. Les corrélations à comparer sont ˆr12 = 0.3 et ˆr34 = 0.4.
Nous disposons des corrélations croisées : ˆr13 = 0.6, ˆr14 = 0.2, ˆr23 = 0.3, ˆr24 = 0.7.
A partir des équations ci-dessus, nous obtenons r¯ = 0.35, = 0.3125 et s¯ = 0.4059.
La statistique du test est égal à U = −1.48. Au risque 5%, pour un test bilatéral, nous comparons |U| = 1.48 avec le quantile de la loi normale centrée réduite u0.975 = 1.96. Les données sont compatibles avec l'hypothèse nulle, 4 années plus tard, le lien entre les intentions de vote et les donations n'a pas évolué significativement.