Méthode et exercices corriges sur la statistique avec R pour aller plus loin
Méthode et exercices corrigés sur la statistique avec R pour aller plus loin
…
Représentations graphiques
La représentation graphique associée au tableau de distribution d’effectifs ou de fréquences d’une variable numérique discrète est le diagramme en bâtons. Dans cette représentation en deux axes :
– l’axe horizontal a un plein sens numérique (c’est une abscisse). On peut ajouter une flèche à droite à cet axe, car les modalités ne sont pas permutables. Les intervalles entre les modalités ont un sens numérique ;
– l’axe vertical permet de repérer les effectifs ou les fréquences par modalités. Comme effectifs et fréquences sont simplement des changements d’échelles l’un pour l’autre, on peut représenter les deux sous la forme d’un seul graphique à deux axes verticaux, à gauche et à droite.
La représentation graphique associée au tableau de distribution cumulée d’effectifs ou de fréquences pour une variable numérique discrète est un diagramme en « paliers » ou la hauteur des paliers représente les effectifs et fréquences cumulés. Les valeurs de la fonction F(x) représentent la fréquence des observations de valeurs égales ou inférieures à la valeur x fixée. Il s’agit bien d’une fonction réelle au sens où le x est un nombre quelconque (même si les valeurs de la variable étudiée sont entières). Par exemple, on peut écrire F(2.5) = F req(X ≤ 2.5) même si aucune valeur de X n’est décimale. On aura simplement F(2.5) = F req(X ≤ 2.5) = F req(X ≤ 2). Autrement dit, entre chaque valeur entière, la fonction F est constante, ce qui justifie la représentation en paliers. On indique par un point l’image de chaque valeur entière, pour résoudre l’ambiguïté graphique qui semble affecter deux images à chaque modalité. A nouveau la modalité médiane peut être identifiée graphiquement en traçant un segment horizontal à hauteur de la fréquence cumulée 0.5 et en repérant le saut de palier rencontré. Si l’on tombe exactement sur un palier, on prend le milieu de ce palier comme valeur médiane.
1.2.4 Variable quantitative continue
Définition
1.16 (Variable continue)
Une variable est dite numérique continue si entre deux modalités quelconques de cette variable, il est toujours possible de trouver une autre modalité.
Toutes les mesures fondées sur des temps de réaction par exemple sont des mesures continues. En pratique, les variables continues sont toujours discrétisée par artifice de mesure : l’âge est souvent enregistré en années seulement, la taille au centimètre près, le temps de réaction à la milliseconde près, etc. Il n’existe pas d’instrument de mesure de précision infinie et la propriété de continuité reste très théorique. Il est néanmoins important de la détecter même abstraitement, pour savoir choisir convenablement ce que nous appellerons plus tard des distributions théoriques dans la modélisation des données. La température corporelle par exemple est une variable numérique continue, entre 37.2 et 37.3 ; il est toujours possible d’observer d’autres valeurs de températures (37.25, 37.26...), à la précision du thermomètre près.
Distributions
Quand la variable est continue, la présentation des tableaux de distributions en modalités-effectifs (ou modalités-fréquences) est inadaptée car si la mesure est assez précise, les scores des sujets sont tous différents. La taille de quelqu’un n’est jamais exactement égale à celle de quelqu’un d’autre par exemple. Cela nous amè- nerait à construire un tableau où tous les nk sont égaux à 1, tous les fk égaux à 1 N , tous les Nk égaux à k et les Fk égaux à k N . Cela peut virtuellement faire un très grand tableau, qui ne synthétise pas les données (voir la représentation graphique de cette situation pour la mesure de la taille d’hommes et de femmes, fig. 1.5).
Dans ce cas, on procède à un regroupement en classes de valeurs. Dans l’exemple de la température corporelle, on peut décider de regrouper les valeurs observées dans des classes Ck contiguës de largeur constante : C1 = [36.6; 36.8[, C2 = [36.8; 37.0[,
…
Résumés
Dans cette représentation, il n’y a pas a priori de valeur modale, mais une classe modale. Si les largeurs de classes sont égales, la classe modale est la classe d’effectif (ou de fréquence) le plus élevé. La classe modale est C2 ici.
Définition 1.17 (Mode)
On définit le mode d’une variable continue comme le centre de la classe modale. On peut noter qu’il n’y a pas en général de valeur médiane unique dans une distribution empirique continue, même avant regroupement. Si l’on cherche à définir une médiane pour la série de températures 36.9, 37.2, 37.5 et 37.6, par exemple, on voit que n’importe quelle valeur comprise entre 37.2 et 37.5 respecterait la définition (valeur séparant l’échantillon en deux parties égales). Strictement parlant, il y a donc en général un intervalle médian sur une série numérique continue (nombre pair d’observations) qui se réduit à une valeur dans le cas d’un nombre impair d’observations.
Définition 1.18 (Médiane)
Pour les variables continues, on définit par convention la valeur médiane comme le centre de l’intervalle médian. Dans le cas des données regroupées en classes, on peut se contenter de repérer la classe médiane du regroupement, c’est-à-dire celui dont les bornes ont des cumuls encadrant la valeur 0.5 et calculer son milieu. Dans notre exemple, l’intervalle C2 = [36.8; 37.0[ est médian et son milieu est 36.9. Il s’agit d’une approximation de la vraie médiane (inconnue) des données et cette approximation peut être très grossière.
On peut améliorer cette estimation en ne se contentant pas de prendre simplement le milieu de l’intervalle, mais en prenant en compte le fait que le cumul cherché 0.5 est plus proche du cumul à droite de la classe (0.6) que du cumul à gauche (0.2). Logiquement, nous devrions prendre une valeur de médiane plus proche de 37.0 que de 36.8 pour en tenir compte. Nous ne savons pas comment se distribuent les observations à l’intérieur de la classe C2 mais nous allons faire l’hypothèse que cette distribution est uniforme (la densité est la même en tout point de l’intervalle). Cette hypothèse se traduit par un cumul linéaire des effectifs dans la classe. On peut donc chercher la médiane par interpolation linéaire, en posant qu’elle sera aussi proche de 37.0 que 0.5 l’est de 0.6, en proportion. On utilise une simple « règle de 3 ».
…
La représentation graphique de la fonction de répartition empirique tire parti de l’hypothèse d’uniformité dans chaque intervalle posée au paragraphe précédent. On trace des bâtons aux bornes de classes, dont la hauteur représente le cumul en cette borne. Puis on relie ces bâtons entre eux. On dit qu’on fait ainsi une approximation linéaire par morceaux d’une fonction de répartition dont la « vraie » forme apparaîtrait différente si nous disposions de l’intégralité des données.
Découpage en intervalles inégaux
Il arrive parfois qu’on souhaite regrouper les données en intervalles de largeurs in- égales. Ce sera le cas si l’on s’attend à trouver peu d’observations dans les valeurs extrêmes et qu’on souhaite que chaque classe soit assez peuplée. On choisira dans ce cas d’avoir des intervalles plus larges aux extrémités qu’au centre. Sans correction appropriée, une telle représentation introduit cependant un biais propre : une classe plus large a plus de chances de contenir plus d’observations. De façon analogue, la comparaison entre la population d’Ile-et-Vilaine et celle de l’Ile-deFrance donnerait la faveur à cette dernière, juste parce que sa superficie est plus importante. Il est usuel en géographie et en démographie d’utiliser des mesures de densité ou de taux (population, natalité) pour rendre ces comparaisons possibles. De la même façon, on utilisera en statistique, lorsque les classes sur une variable numérique sont de largeurs inégales, une représentation où les fréquences fk sont divisées par les largeurs lk des classes correspondantes. On parle de densités de fréquences : dk = fk lk .
Indices de centralité et formes de distribution
Les relations qui s’établissent entre mode, médiane et moyenne d’une distribution numérique sont fortement liées à l’allure symétrique ou dissymétrique de la distribution. La moyenne est en effet un indice de centralité (ou de résumé) très sensible aux valeurs extrêmes d’une distribution. L’ajout dans un échantillon d’une seule valeur très extrême provoque un brusque changement dans la valeur de la moyenne. La médiane n’est que très peu affectée par l’ajout d’une valeur extrême et le mode encore moins. Mode et médiane offrent donc en général un meilleur résumé d’une distribution quand elle est dissymétrique.
Quand une distribution est dissymétrique à droite (on dit aussi étalée à gauche), on constate que x< Mo. Symétriquement on aura en général Mo < q 1 2 < x¯ quand la distribution est dissymétrique à gauche (ou étalée à droite). Quand la symétrie est parfaite, on a x¯ = q 1 2 = Mo. D’une façon générale, le calcul d’un indice de centralité n’a de sens que si la distribution est unimodale : elle présente une forte densité d’observations dans une zone privilégiée et cette densité diminue au fur et à mesure que l’on s’éloigne de cette zone dense, à gauche comme à droite. Les exemples de la fig. 1.8 sont des cas particuliers de distributions unimodales. Une distribution peut présenter plusieurs « bosses » ou modes relatifs (multimodalité). Il est clair que dans ces cas de figure, chercher à résumer la distribution par une valeur typique n’a guère de sens.
1.2.5 Notion de rapport et d’intervalle
L’analyse des variables quantitatives conduit à des distinctions supplémentaires sur la richesse de la mesure. On peut pour une variable numérique se poser la question de l’existence d’un zéro naturel. Ainsi la variable « Age », qui est une variable continue par nature (personne ne naît exactement à la même heure) a un zéro naturel, qui est l’âge zéro. L’existence d’un point origine non arbitraire garantit que les rapports sont préservés en tous points de l’échelle : 38 et 19 ans d’une part, 4 et 2 ans d’autre part, sont bien des mesures de vieillesse dont l’une est le double de l’autre.
Définition 1.19 (Variable de rapport)
On appelle variable numérique de rapport une variable numérique (discrète ou continue) dotée d’un zéro naturel, qui donne sens à la notion de rapport. Toutes les mesures de durée (temps de réaction) ou fondées sur des comptages d’événements (nombre de sujets émettant une réponse cible) sont des échelles de rapport. L’existence d’un zéro non arbitraire fixe du même coup une limite inférieure au domaine de la variable, que l’on appelle aussi borne à gauche. Les variables de niveau rapport peuvent éventuellement avoir aussi une limite supé- rieure, que l’on appelle borne à droite. Cela sera le cas par exemple pour une variable « Proportion de temps consacrée à une parmi deux tâches » (continue), ou « Nombre de sujets parmi 20 adoptant un comportement cible » (discrète). Ce ne sera pas le cas pour une variable « Nombre de comportements agressifs émis par un enfant observé en crèche en un temps fixé » car il n’y a pas de limite supérieure définie pour ce comptage. On note à partir de ces exemples que l’existence de bornes à gauche et à droite sur le domaine d’une variable ne limite le « nombre » de valeurs possibles que pour une variable discrète. Lorsque la propriété de zéro naturel est absente, on parle de variable d’intervalle.
Définition 1.20 (Variable d’intervalle)
On appelle variable d’intervalle une variable quantitative sans zéro naturel. La température corporelle par exemple est une variable numérique d’intervalle continue 3, dans les systèmes de mesure courants, Celsius ou Fahrenheit (le degré 0 de la température est défini différemment dans ces systèmes). Lorsqu’il fait 32˚C, il ne fait pas deux fois plus chaud que lorsqu’il fait 16˚C, car ce rapport ne se préserve pas lorsqu’on change de système thermométrique.
La distinction entre niveaux d’intervalle et de rapport permet de définir, à côté de la typologie des données développée dans ce chapitre, un schéma intégratif ascendant de la puissance de la mesure : une variable nominale permet de distinguer de l’identique ou du différent, une variable ordinale y ajoute la possibilité d’ordonner les modalités, une variable d’intervalle celle de pouvoir calculer des différences numériques, et une variable de rapport, outre toutes les propriétés précédentes, autorise l’opération de rapport.
1.3 Synthèse
Les niveaux de mesures de Stevens (1946), classiquement distingués en psychologie, et les quatre grands types de données statistiques présentés dans ce chapitre, sont présentés simultanément dans le le tableau 1.1, avec leur recouvrement (partiel).
Chapitre 2 Description de liaison
2.1 Lien entre une variables numérique et une variable catégorisée
Dans un grand nombre de situations, les questions pratiques qui se posent au psychologue reviennent statistiquement à la comparaison de distributions, soit pour comparer deux ou plus de deux distributions empiriques, soit pour comparer une distribution empirique à une distribution théorique. Les distributions théoriques seront présentées et étudiées plus loin dans ce cours, et on s’intéresse ici essentiellement à la comparaison des distributions empiriques.
2.1.1 Plans d’analyse
Le psychologue souhaite maintenant regarder si les hommes et les femmes de son échantillon se distinguent du point de vue du score d’anxiété X (nombre de manifestations somatiques de l’anxiété, sur 7). Une autre manière de formuler la question est : y a-t-il un lien entre la variable sexe (G) et l’anxiété (X) ? Autrement dit, nous n’étudions plus simplement la distribution d’une variable, mais la relation de dépendance de deux variables. Cette question peut encore être formulée comme suit : les distributions de scores d’anxiété sont-elles les mêmes chez les hommes et chez les femmes ?
…
Définition 2.1 (Structure d’emboîtement)
On appelle structure d’emboîtement sur les individus, notée I la distribution des individus dans J groupes disjoints Gj (j = 1, 2, ..., J). Un individu sij est donc désormais indicé à la fois en i et j (individu et groupe). L’application X|G définit ce qu’on appelle un plan d’analyse. A la différence d’un protocole, un plan d’analyse met en jeu une question, un problème ou une comparaison. Par exemple : les hommes et les femmes diffèrent-ils quant à l’anxiété dans cet échantillon ? Pour traiter un plan d’analyse (c’est-à-dire répondre à la question qu’il pose), on peut adopter deux approches : comparer des résumés des performances des groupes ou comparer en bloc les distributions de performance des groupes.
2.1.2 Comparaison des indices de centralité
Définition 2.2 (Distribution conjointe d’effectifs)
On appelle distribution conjointe d’effectifs (respectivement de fréquence) de deux variables A et B l’application qui à tout couple de modalités u(A) k , u(B) k des deux variables associe leur effectif (respectivement leur fréquence) d’apparition conjointe.
Définition 2.3 (Distribution marginale d’effectifs)
On appelle distribution marginale d’effectifs (respectivement de fréquences) la distribution univariée d’effectifs (respectivement de fréquences) de l’une des deux variables, obtenue dans la marge du tableau de distribution conjointe, par sommation sur l’ensemble des modalités de l’autre.
Les deux distributions marginales d’effectifs sont lues directement dans les marges lignes et colonnes du tableau ci-dessus.
Les distributions marginales de fréquences correspondantes sont obtenues par simple sommation en ligne et en colonne dans le tableau des fréquences conjointes ou bien en divisant les distributions marginales d’effectifs de l’avant-dernier tableau par 750. On note que dans un tel tableau de fréquences conjointes, c’est la somme totale des fréquences conjointes qui fait 1. On dira donc par exemple que 8 % du groupe complet sont des hommes de niveau d’anxiété 2.
Définition 2.4 (Distribution conditionnelle)
On appelle distribution conditionnelle la distribution de l’une des variables d’une distribution conjointe, pour l’une seulement des modalités de l’autre. Par exemple, la ligne « hommes » du tableau d’effectifs conjoints contient la distribution conditionnelle d’effectifsde l’anxiété pour le sous-groupe des hommes (c’est-à-dire dans la « condition » hommes). Les deux distributions conditionnelles de fréquences d’anxiété, selon le sexe, sont calculées en divisant chaque ligne d’effectif conjoint (ou de fréquence conjointe) par son total marginal.
On note que, dans ce tableau, ce sont les sommes marginales en ligne qui font 1. On dira par exemple que parmi les hommes, 24% sont de niveau d’anxiété 2, tandis que nous ne trouvons que 9% des femmes dans ce cas. La présentation en tableaux de fréquences conditionnelles est celle qui permet une véritable comparaison intergroupe, car elle neutralise la différence d’effectif de groupe. Les deux distributions conditionnelles, pour les hommes et les femmes, peuvent être représentées graphiquement à des fins de comparaison visuelle (fig. 2.1). Une première approche pour comparer la distribution de l’anxiété chez les hommes et les femmes est de calculer des résumés de ces distributions, puis de comparer les résumés. Calculer des résumés sur ces données a du sens car on vérifie facilement que les distributions au sein de chaque sexe sont bien unimodales. Les modes sont respectivement de 3 et 4 pour les deux groupes.
…
De la même façon, on pourrait vouloir comparer les distributions du genre dans les modalités d’anxiété. La colonne « Anxiété 4 » par exemple contient la distribution conditionnelle du sexe pour ce score d’anxiété. Une distribution conditionnelle est donc la distribution d’une variable restreinte à un sous-ensemble d’individus dans une certaine « condition », c’est-à-dire possédant une certaine propriété désignée (être un homme, avoir une anxiété de 4). Comme on le voit, il y a des tableaux de fréquences de natures diverses (conjoints, marginaux et conditionnels) et la question essentielle pour ne pas risquer une interprétation erronée est toujours : « qu’est ce qui somme à 1 dans le tableau ? »
L’écart absolu moyen
Lorsque les données sont numériques, il est possible d’évaluer la dispersion en utilisant l’information numérique de la variable. Nous avons constaté que pour une même valeur de moyenne, les observations d’un échantillon ou d’un groupe pouvaient s’en écarter de manière très différente. Vouloir apprécier la dispersion d’une variable, c’est donc chercher à résumer l’ensemble des écarts de chaque score à la moyenne. De la même façon que la moyenne est un indice de centralité qui prend en compte toutes les valeurs numériques de l’échantillon, nous souhaitons développer un indice de dispersion qui prenne en compte tous les écarts numériques de chaque valeur à la moyenne. Pour chaque sujet i d’un groupe donné, de score d’anxiété xi, son écart propre à la moyenne x¯ de son groupe est 1 : ei = xi − x.
Par exemple, une fois ordonnés par anxiété croissante, les trois premiers hommes de l’échantillon (d’anxiétés 1, 1 et 2) s’écartent de leur moyenne de groupe x¯ = 2.72 de x1−x¯ = 1−2.72 = −1.72, x2−x¯ = 1−2.72 = −1.72 et x3−x¯ = 2−2.72 = −0.72. Une manière simple de résumer l’ensemble de ces écarts pour tous les sujets est de calculer la moyenne de ces écarts. Il nous faut cependant prendre en compte la propriété dite barycentrique de la moyenne (voir équation 1.2) : la moyenne des écarts est toujours égale à zéro, quelles que soient les données. On définit l’indice suivant,