Support de cours sur les principaux outils en statistique

Support de cours sur les principaux outils en statistique
L’épidémiologie s’appuie très largement sur les outils statistiques, qu’il s’agisse de la moyenne, de l'écart-type, de la proportion, de l'intervalle de confiance, mais aussi des tests statistiques. Les notions de base en statistique utiles à la pratique de l’épidémiologie sont donc abordées dès ce module, car elles seront essentielles tout au long de cette formation en épidémiologie.
Introduction
La statistique est une « méthode de raisonnement permettant d’interpréter le genre de données très particulières, qu’on rencontre notamment dans les sciences de la vie, dont le caractère essentiel est la variabilité » (D. Schwartz). En cela, c’est un outil indispensable à l’interprétation des résultats des enquêtes épidémiologiques.
La variabilité est un caractère essentiel des êtres vivants et donc de l’être humain, en particulier.
Par exemple, certaines caractéristiques de l’être humain, comme le poids ou la quantité de sucre dans le sang, varient d’un sujet à l’autre ou de l’enfance à l’âge adulte, parfois même d’un moment à l’autre de la journée.
La présence d’une maladie peut également expliquer la variabilité d’une caractéristique.
Par exemple, au cours de certaines maladies, le nombre de globules rouges circulant par unité de volume de sang peut être plus bas, témoignant d’une anémie.
L’épidémiologiste est confronté en permanence à ce phénomène de variabilité car les questions qu’il essaie de résoudre sont à l’échelon d’un groupe, d’une population et non pas d’un seul individu. Une des solutions est de décrire les propriétés moyennes des groupes d’individus. Pour cela, le traitement des données et la communication des résultats nécessitent l’utilisation de la statistique. Par ailleurs, le plus souvent, l’étude de la population entière est rarement possible car elle est trop vaste : des milliers, voire des centaines de milliers de sujets. Même si c’était possible, il faudrait des moyens trop importants. Il faut donc se résoudre à sélectionner un échantillon, le décrire et en tirer des conclusions sur la population (inférence). Là encore, la méthode statistique est indispensable.
Au total, la méthode statistique intervient à tous les échelons d’une enquête dont l’objectif est de recueillir des informations sur un groupe d’individus : choix du meilleur schéma d’étude, recueil des données, analyse des données. Il convient donc de bien en connaître les grands principes et les outils de base. Mais, avant tout, il vous faut bien comprendre la nature des informations qui sont recueillies afin de choisir ensuite les méthodes les plus appropriées pour les interpréter.
Remarque : tout au long de ce chapitre, les formules mathématiques ont été simplifiées aussi souvent que possible.
Différents types de variables
I Introduction
Une variable est une caractéristique dont on peut d’un groupe de sujets. Une variable peut être quantitative.
observer des valeurs différentes au sein de nature catégorielle ou de nature
Dans la suite de ce chapitre, vous verrez que les modes de représentation et les méthodes d’analyse diffèrent selon que l’on a affaire à une variable catégorielle ou à une variable quantitative. Il est donc important de bien comprendre leurs différences pour les distinguer avec assurance.
II Variable catégorielle ou qualitative
Une variable dite catégorielle ou qualitative est une caractéristique ayant un certain nombre de catégories ou modalités, exhaustives et mutuellement exclusives : exhaustives car toutes les modalités possibles sont citées, mutuellement exclusives car chaque individu peut être classé dans une catégorie et une seule.
Quand il s’agit de classer les sujets selon deux catégories, la variable catégorielle est dite dichotomique (ou binaire).
Par exemple, si l’on dénombre les hommes et les femmes dans un groupe, la variable « sexe » est une variable catégorielle à deux catégories : « hommes » et « femmes ». On peut également classer les sujets selon qu’ils sont fumeurs ou non fumeurs, selon qu’ils sont atteints ou non d’allergie, selon qu’ils ressentent ou non une douleur.
Certaines caractéristiques se décrivent naturellement en plus de deux catégories.
Certaines de ces variables catégorielles sont dites nominales : chaque classe désigne une catégorie de sujets (elle les nomme). Il n’existe pas d’ordre naturel entre les catégories.
C’est, par exemple, le cas du groupe sanguin : A / B / AB / O ou encore de la situation familiale : marié / vivant en couple / célibataire / divorcé / séparé / veuf.
Pour d’autres variables, il existe un ordre naturel entre les différentes catégories. Ces variables sont dites ordinales.
Par exemple, lorsque l’on interroge des sujets sur la sévérité d’une douleur : au lieu de deux catégories (douleur / pas de douleur), on peut classer les individus selon les catégories suivantes : aucune / minime / modérée / sévère / insupportable.
La transformation d’une variable catégorielle ordinale en variable catégorielle dichotomique est toujours possible. L’analyse des données est simplifiée, mais la transformation aboutit à une perte d’information.
Par exemple, si la sévérité de la douleur a été recueillie selon les catégories : « aucune / minime / modérée / sévère / insupportable », on peut être moins précis en classant les sujets selon les 2 catégories : « douleur / pas de douleur » d’une variable catégorielle dichotomique.
III Variable quantitative
Les valeurs d’une variable quantitative sont obtenues par un instrument de mesure ou le résultat d’un dénombrement. Elles sont souvent accompagnées d’une unité de mesure. Avec une telle variable, on peut toujours répondre à une question commençant par : « combien … ?».
Une variable est continue si elle peut prendre, en théorie, un nombre infini de valeurs dans un intervalle donné, et si la précision avec laquelle on la mesure ne dépend que de l’exactitude de l’instrument de mesure.
L’âge, la pression artérielle systolique et la quantité de sucre dans le sang en sont des exemples.
Lorsque l’on arrondit la valeur obtenue, on dit que l’on discrétise cette variable continue, car on lui impose de prendre certaines valeurs.
Par exemple, au lieu d’exprimer l’âge calculé de la date de naissance au jour de visite d’un sujet en jours, on exprime couramment l’âge en années (22, 23, 24 ans, etc.) ou encore de dix ans en dix ans (20 à 29, 30 à 39 ans, etc.).
Dans le premier exemple, l’intervalle entre chaque valeur a une amplitude d’une année, dans le deuxième exemple, l’amplitude d’intervalle est de 10 ans.
Si les intervalles ne sont pas de même amplitude, on parle plutôt de regroupement.
Par exemple, pour décrire l’âge d’enfants vus dans une consultation pédiatrique, on peut utiliser les regroupements : « 0-3 mois », « 4 –11 mois », « 1-3 ans », « 4-10 ans ».
On parle également de variable discrète lorsque la variable est, à l’origine, une variable qui ne peut prendre que certaines valeurs numériques.
Par exemple, le nombre d’enfants d’une famille est une variable quantitative discrète qui peut prendre les valeurs : 0, 1, 2, 3, 4, 5, … Une famille ne peut avoir 1,4 enfants, ni 2,5 enfants.
Au premier abord, la distinction n’est donc pas simple entre certaines variables catégorielles ordinales, comme le stade d’un cancer, qui pourrait être codé par exemple 1, 2, 3 ou 4 et les variables quantitatives discrètes, comme le nombre d’enfants. Un petit test est néanmoins facile à réaliser pour distinguer les deux types de variables. Pour une variable catégorielle ordinale, chaque différence entre les catégories ne signifie pas la même chose. En revanche, pour une variable quantitative discrète, chaque différence entre les catégories a toujours la même signification sur toute l’étendue des valeurs.
Par exemple, pour la variable « stade de cancer », on ne peut pas dire que le stade 2 est deux fois plus grave que le stade 1 ; c’est donc une variable catégorielle ordinale. Pour la variable « nombre d’enfants », on peut dire que deux enfants, c’est deux fois plus que un, et que trois enfants c’est trois fois plus que un ; c’est donc une variable quantitative discrète.
Représentation des données
I Introduction
Décrire les données que l’on a rassemblées pour répondre à une question est une première étape très importante en épidémiologie. Pour chaque type de variable, catégorielle ou quantitative, il existe des formes de représentations différentes qui permettent d’avoir une première impression visuelle. On peut utiliser un tableau ou un graphique.
Si un tableau est plus utile pour présenter de façon complète et précise les données, un graphique est, en revanche, plus utile pour donner une impression visuelle immédiate. Le principal critère de choix réside donc dans la façon dont on souhaite communiquer les résultats : si l’on souhaite disposer de l’ensemble des résultats chiffrés, on choisira plutôt un tableau ; si l’on souhaite visualiser une tendance évolutive, on choisira plutôt un graphique. On veillera à ne pas représenter les mêmes données par un tableau plus un graphique, mais à choisir l’un ou l’autre. Par ailleurs, il doit exister une cohérence (format du titre, contenu) entre des données similaires dans un même tableau ou un même graphique, ou entre des tableaux (ou des graphiques) similaires.
Quelle que soit la forme de représentation des données, quelques principes simples doivent être appliqués afin que l’interprétation soit évidente pour les lecteurs :
- chacune de ces représentations doit être lisible indépendamment de son éventuel texte d’accompagnement,
- elles doivent donc toujours être dotées d’un titre informatif, c’est-à-dire donnant suffisamment d’informations sur la population, le lieu et la période d’étude
- les acronymes doivent être définis (par exemple, en note sous le tableau ou le graphique, ou dans le titre),
- si seuls des pourcentages sont présentés (sans les effectifs correspondants), il faut préciser l’effectif total à partir duquel ils ont été calculés dans le titre
- les unités de mesure doivent systématiquement être indiquées pour les variables quantitatives (exemple : années pour la variable âge). Elles doivent figurer une seule fois à côté du nom de la variable. C’est également le cas pour le caractère % en ce qui concerne les variables catégorielles.
Enfin, dans le document rapportant les résultats d’une étude, il faudra savoir présenter les principaux résultats dans le corps du document, et les résultats secondaires en annexe.
II Tableau
Un tableau est une représentation des données, utilisable quelle que soit la nature de la variable à représenter, quantitative ou catégorielle. La construction d’un tableau permet de disposer de l’ensemble des données. La présentation des données sous forme de tableau est particulièrement indiquée pour des données répétées et précises. Comme il s’agit souvent de nombreux chiffres, il est important de simplifier le plus possible la présentation. Le tableau le plus simple a deux colonnes. Dans la première colonne, figure la liste des catégories d’une variable catégorielle ou des regroupements d’une variable quantitative. Dans la seconde colonne, figurent les effectifs correspondant à chacune de ces catégories.
Par exemple, dans une enquête étudiant la relation entre tabac et cancer du poumon, on décrit les différentes catégories de consommateurs de tabac : jamais fumeur / ex- fumeur / tabac blond / tabac brun / tabac mixte. Le tableau OUTILS- STAT-1 permet de donner le nombre de sujets pour chaque catégorie de la variable « consommation de tabac » (variable catégorielle).
Tableau OUTILS-STAT-1. Répartition des individus selon le type de consommation de tabac. Étude de Fictif et al., 1988.
Consommation de tabac | Nombre de sujets |
Jamais | 500 |
Ex-fumeur | 100 |
Tabac blond | 200 |
Tabac brun | 100 |
Tabac mixte | 100 |
Total | 1000 |
La construction d’un tableau obéit à quelques règles générales :
- il existe toujours un bandeau de titre pour indiquer la nature des informations figurant dans les colonnes, ce bandeau a un trait horizontal au-dessus et au-dessous, la tête de colonne permet d’indiquer la nature de la variable figurant dans cette colonne,
un trait horizontal figure au-dessous de la dernière ligne,
- en dehors de ces traits permettant de souligner les bandeaux, aucun autre trait n’est utile, en particulier aucun trait vertical,
- les chiffres sont alignés par colonne : sur le dernier chiffre de droite (s’il s’agit d’entiers) ou sur la virgule (s’ils sont exprimés avec une décimale),
- pour une même variable, le même nombre de chiffres après la décimale est employé ; en français, le séparateur décimal est la virgule, dans le système anglo-saxon, c’est le point qui est employé,
Par exemple, on ne présenterait pas une proportion de 25,2% pour une catégorie et 34% pour une autre. On choisirait 25% et 34% ou 25,2% et 34,0%,
- les totaux, s’il y a lieu, doivent être donnés,
- le séparateur des milliers est un espace (et non un point comme dans le système anglosaxon) ; on peut également ne pas marquer la séparation.
Enfin, par convention, le titre d’un tableau figure au-dessus du tableau.
Le tableau OUTILS-STAT- 2 permet de représenter les données d’âge (variable quantitative) de 120 femmes venues en consultation dans un centre de dépistage du cancer du sein. Ce tableau illustre également l’application des règles simples de construction d’un tableau. La proportion correspond au rapport de l’effectif sur le total.
Tableau OUTILS-STAT-2. Distribution selon l’âge de 120 femmes ayant consulté dans le centre de Maville entre octobre et décembre 2000. Représentation par un tableau.
Age (en années) | Effectif | Proportion en % |
43 | 1 | 0,8 |
44 | 1 | 0,8 |
45 | 4 | 3,3 |
47 | 2 | 1,7 |
52 | 4 | 3,3 |
53 | 3 | 2,5 |
54 | 5 | 4,2 |
56 | 6 | 5,0 |
57 | 4 | 3,3 |
58 | 4 | 3,3 |
59 | 8 | 6,7 |
60 | 8 | 6,7 |
61 | 12 | 10,0 |
62 | 8 | 6,7 |
63 | 8 | 6,7 |
64 | 8 | 6,7 |
65 | 4 | 3,3 |
66 | 6 | 5,0 |
67 | 6 | 5,0 |
68 | 4 | 3,3 |
70 | 4 | 3,3 |
72 | 3 | 2,5 |
73 | 3 | 2,5 |
76 | 2 | 1,7 |
78 | 2 | 1,7 |
Total | 120 | 100,0 |
On pourra également effectuer des regroupements permettant de présenter les résultats de manière plus synthétique (Tableau OUTILS-STAT-3).
Tableau OUTILS-STAT- 3. Répartition par catégories d’âge de 120 femmes ayant consulté dans le centre de Maville, octobre-décembre 2000.
Age (en années) | Effectif | Proportion en % | Fréquence cumulée |
en % | |||
40-44 | 2 | 1,7 | 1,7 |
45-49 | 6 | 5,0 | 6,7 |
50-54 | 12 | 10,0 | 16,7 |
55-59 | 22 | 18,3 | 35,0 |
60-64 | 44 | 36,7 | 71,7 |
65-69 | 20 | 16,7 | 88,4 |
70-74 | 10 | 8,3 | 96,7 |
75-79 | 4 | 3,3 | 100,0 |
Total | 120 | 100,0 |
Ces données permettent de calculer très facilement la fréquence cumulée à la borne supérieure d’une catégorie, résultat qui vous sera souvent utile. La fréquence cumulée est la proportion d’observations dans toutes les catégories précédentes ajoutée à celle de la catégorie présente. Ces catégories représentent toutes les données (l’exhaustivité des données) et sont mutuellement exclusives.
Par exemple, pour trouver la fréquence cumulée à 49 ans, on va additionner la proportion dans la catégorie « 40-44 » et celle dans la catégorie « 45-49 ». L’écriture « 40-44 » sous-entend que toutes les valeurs entre 40 et 44 ans sont incluses, ou encore de 40 ans exactement à 44,99 ans (la valeur 45 ans exactement étant exclue). D’après le tableau OUTILS-STAT-3, la fréquence cumulée à 49 ans est de 6,7% (1,7% + 5,0%) : 6,7% des femmes avaient moins de 50 ans.
L’examen du tableau OUTILS -STAT -3 permet d’apporter une réponse descriptive à la question initiale : les femmes de 60 ans et plus sont plus nombreuses que celles de moins de 60 ans. La catégorie d’âge la plus représentée est celle des femmes ayant entre 60 et 64 ans.
III Graphique
Le graphique permet essentiellement de visualiser un phénomène remarquable : contrastes ou tendances. L’œil doit pouvoir observer les changements des valeurs en ordonnée (échelle verticale) pour un changement d’unité, de classe ou de modalité en abscisse (échelle horizontale). Le choix entre les graphiques possibles repose essentiellement sur le type et le nombre de variables à représenter. Par convention, le titre d’un graphique figure au-dessous du graphique.
Dans ce paragraphe, vous verrez les principes de construction de graphiques simples.
1 Variable quantitative continue
Pour une variable quantitative continue, si les bornes (valeur minimale et maximale) sont connues, le choix se porte sur l’histogramme ou le polygone de fréquence.
L’histogramme est un graphique où l’axe des abscisses représente les valeurs de la variable, regroupées en classes, et l’ordonnée représente l’effectif ou la fréquence de chacune des classes.
Par exemple, un histogramme permet de représenter la distribution de l’âge des femmes venues en consultation au centre de dépistage (Figure OUTILS-STAT-1).
Age (ans)
Figure OUTILS-STAT- 1. Distribution selon l’âge des 120 femmes ayant consulté dans le centre de Maville entre octobre et décembre 2000. Représentation par un histogramme.
L’examen de cet histogramme permet d’apporter une réponse descriptive plus visuelle qu’un tableau à la question initiale : les femmes de 60 ans et plus sont plus nombreuses que celles ayant moins de 60 ans.
Par ailleurs, un graphique donne une bonne idée de la dispersion des valeurs autour de la catégorie d’âge la plus représentée. En revanche, il est plus difficile de connaître le nombre exact d’individus dans chaque intervalle.
L’intégrité statistique des représentations graphiques des variables quantitatives repose sur un certain nombre de règles :
- le choix de l’échelle doit être correct pour ne pas exagérer ou sous-estimer un changement et, par conséquent, donner une impression fausse des données. La distance entre les marques de graduation doit donc être proportionnelle à l’amplitude réelle des catégories.
Dans l’exemple, un intervalle d’amplitude 5 ans a été choisi et la distance sur l’axe des abscisses est exactement la même entre 40 et 44 ans, entre 45 et 49 ans et ainsi de suite.
- l’axe des abscisses doit couvrir toute l’étendue des données possibles.
Dans l’exemple, la plus petite valeur est 43 ans et la plus grande est 76 ans. Les extrémités du graphique vont donc de 40 à 80 ans.
3) la variable étant continue, il ne peut y avoir d’espace entre la base des différents rectangles en abscisse.
Dans l’exemple, chaque rectangle est contigu au rectangle précédent et au suivant.
Il y a une exception à cette règle si une catégorie a un effectif nul, car, dans ce cas, aucun rectangle n’occupe l’intervalle.
Une astuce si vous travaillez sur MS-ExcelTM : par défaut, ce logiciel laisse un espace entre les différents rectangles. Il faut alors double -cliquer sur l’un des rectangles. La fenêtre « Format de série de données » apparaît. Il faut cliquer sur l’onglet « Options » et choisir une largeur d’intervalle égale à 0.
Les graphiques tridimensionnels ne respectent pas les règles d’intégrité statistique à cause de la distorsion liée à la perspective : ils sont donc déconseillés.
Par exemple, dans la figure OUTILS-STAT-2, la perspective choisie distord la tendance et donne l’impression que les femmes âgées de moins de 60 ans sont plus nombreuses que les autres.
Age (ans)
Figure OUTILS-STAT- 2. Distribution selon l’âge des 120 femmes ayant consulté dans le centre de Maville entre octobre et décembre 2000. Représentation par un histogramme en 3 dimensions d’une variable à une dimension. Exemple de distorsion liée à la perspective.
Le polygone de fréquence est la courbe qui joint les milieux des sommets des rectangles de l’histogramme. Le terme est général, car on peut faire la représentation de chaque catégorie d’âge soit en fonction de son effectif, soit en fonction de sa fréquence.
Age (ans)
Figure OUTILS-STAT-3. Distribution de l’âge des 120 femmes ayant consulté dans le centre de Maville entre octobre et décembre 2000. Représentation par un polygone de fréquence.
Le polygone de fréquence cumulée est la courbe qui joint les valeurs des fréquences cumulées de chaque classe.
Un exemple de calcul des fréquences cumulées figure dans le tableau OUTILS-STAT-3 Le tracé correspondant à ces données est celui de la figure OUTILS-STAT-4.
…
Age (ans)
Figure OUTILS-STAT-4. Distribution de l’âge des 120 femmes ayant consulté dans le centre de Maville, octobre-décembre 2000. Représentation par un polygone de fréquence cumulée.
En pratique, si l’on ne dispose pas de logiciel adapté, ces graphiques peuvent être tracés à la main sur du papier à carreaux ou du papier millimétré. Si l’on dispose d’un tableur, MS-Excel™ par exemple, il est facile de trouver ce type de représentation ; il faut veiller néanmoins au respect des règles d’intégrité statistique, en particulier la règle n°3. Enfin, tous les logiciels statistiques couramment utilisés ont un module graphique permettant de réaliser ce type de graphique.
2 Variable catégorielle
On présente le nombre ou la proportion de sujets dans chaque catégorie. Le graphique permettant cette représentation est le diagramme à barres . Chaque barre a la même largeur, et contrairement à l’histogramme, un espace est laissé entre chaque barre.
Si l’on reprend l’exemple du tabac (Tableau OUTILS-STAT-1), on obtient la figure OUTILS-STAT-5.
…
Type de consommation tabagique
Figure OUTILS-STAT-5. Description de la consommation de tabac à l’inclusion dans une étude du risque de cancer du poumon chez 1000 sujets. Représentation à l’aide d’un diagramme à barres.
Le graphique en secteurs ou « camembert » illustre également la répartition d’une variable catégorielle. Il nous semble néanmoins inutile pour deux raisons : 1) il ne respecte pas les règles d’intégrité statistique car une surface n’est pas adaptée pour représenter une seule dimension et le risque de distorsion optique est d’autant plus important que l’on emploie plusieurs couleurs ou hachures ; 2) il est le plus souvent peu informatif en comparaison à un tableau.
Jamais
Ex-fumeur
Tabac bond
Tabac brun
Tabac mixte
Figure OUTILS-STAT-6. Description de la consommation de tabac à l’inclusion dans une étude du risque de cancer du poumon chez 1000 sujets. Représentation à l’aide d’un diagramme en secteurs en 2 dimensions d’une information à une dimension.
Paramètres décrivant une distribution
I Introduction
Vous avez vu que la plupart des caractéristiques permettant de décrire les êtres vivants n’ont pas une valeur unique. L’ensemble des valeurs observées sur un échantillon pour une caractéristique est sa distribution observée. Pour donner un sens aux données dont il dispose, l’épidémiologiste va devoir les résumer. Il va utiliser pour cela des paramètres, qui sont des fonctions des observations : les « paramètres de tendance centrale », comme la moyenne ou la médiane ; ou les « paramètres de dispersion », comme la variance, l’étendue et les percentiles. Nous allons aborder la définition de ces termes et l’usage de ces paramètres dans ce nouveau chapitre.
II Paramètres de tendance centrale
1 Variable quantitative
Pour une variable quantitative, une façon simple de résumer les valeurs obtenues sur un échantillon est d’utiliser la moyenne arithmétique, appelée plus couramment moyenne. La moyenne est obtenue en faisant la somme des valeurs, puis en divisant cette somme par le nombre de valeurs, noté ici n.
Par exemple, si vous recueillez l’âge en années d’une population de cinq femmes qui viennent d’accoucher de leur premier enfant : 24, 17, 35, 37, 32. La somme est : 145 ans, et comme il y a 5 valeurs, la moyenne est : 145/5=29 ans. L’âge moyen des femmes à l’accouchement de leur premier enfant est donc, pour la série de valeurs mesurées au sein de cet échantillon, de 29 ans.
Chaque valeur est notée xi .
Dans l’exemple, on a donc : x1= 24, x2 = 17, x3 = 35, x4 = 37, x5 = 32.
La somme est notée ∑ xi (c’est-à-dire : somme de toutes les valeurs de la première à la
i =1n
∑ xi
dernière) et la moyenne, μ, est donc : μ = i=1 . n
Une autre façon de résumer les valeurs est d’utiliser la médiane. La médiane est la valeur centrale de la distribution, qui divise l’échantillon en deux moitiés de taille égale. Pour trouver la médiane, il faut d’abord classer toutes les observations par ordre croissant.
• Si le nombre d’observations est impair, la médiane est la valeur correspondant à l’observation située au milieu, celle située au (n +1) 2 ème rang.
Pour notre série de 5 observations d’âge, après avoir ordonné les observations de façon croissante, la série s’écrit : 17, 24, 32, 35, 37 et l’on voit facilement que la médiane est égale à 32 ans. La médiane correspond bien à la valeur de la 3ème observation, car : (5+1)/2 = 3.
- Si n est un nombre pair, on considère que la médiane est à mi-chemin entre les deux valeurs du milieu de la distribution (puisque l’on cherche la médiane, synonyme de milieu).
Par exemple, pour une série de 8 observations d’âge : 17, 24, 27, 27, 29, 32, 35, 37, la médiane se situe entre la valeur de la 4ème observation (27 ans) et celle de la 5ème observation (29 ans), car (8+1)/2 = 4,5. La médiane vaut donc : (27 + 29)/2 = 28 ans.
Enfin, le mode est, par définition, la valeur la plus représentée de la série. Une série peut ne pas avoir de mode ou au contraire avoir plusieurs modes.
Par exemple, pour la série des 8 observations d’âge, le mode est 27 ans, car cette valeur apparaît deux fois, alors que les autres valeurs n’apparaissent qu’une seule fois. La 1ère série des 5 valeurs d’âge (17, 24, 32, 35, 37) n’a pas de mode.
Dans la série suivante : 17, 24, 27, 27, 29, 29, 32, 35, 37, il existe deux modes : 27 ans et 29 ans, valeurs qui apparaissent deux fois, alors que toutes les autres n’apparaissent qu’une seule fois. Dans ce cas, on parle de distribution bimodale.
2 Variable catégorielle ou quantitative discrétisée
Pour une variable catégorielle, qu’elle soit dichotomique, nominale ou ordinale, on présente la proportion des sujets dans les différentes catégories.
Par exemple, parmi 100 malades atteints d’arthrite rhumatoïde, on observe 76 femmes et 24 hommes. La proportion de femmes est le nombre de femmes rapporté au nombre total de sujets, soit 76%. La proportion d’hommes est de 24%.
Cette description selon les proportions peut également être utilisée pour une variablequantitative dont les valeurs ont été discrétisées ou bien regroupées.
Par exemple, si l’on reprend la série de femmes ayant consulté dans un centre de dépistage du cancer du sein, la proportion de femmes ayant plus de 60 ans est 70/120, soit 58,3%.
La fréquence cumulée à la borne supérieure de classe, que vous avez déjà vue lors du chapitre sur la représentation des données, est la proportion des observations dans toutes les classes précédentes ajoutée à celle de la classe présente. Elle est utile pour une variable quantitative ayant fait l’objet d’une discrétisation (Tableau OUTILS-STAT-3) ; elle est également utile pour une variable catégorielle ordinale.
III Paramètres de dispersion
Les paramètres qui viennent d’être cités sont tous des paramètres qui résument la tendance centrale des observations, mais ne donnent pas une idée de leur dispersion. Or, la dispersion des valeurs est importante à prendre en compte dans l’interprétation des résultats et les décisions qui en découlent.
Par exemple, si l’on s’intéresse à la durée d’incubation d’une infection (délai entre la date d’exposition à l’agent infectieux et la date du diagnostic), calculer que la moyenne vaut 13 jours n’apporte pas une information suffisante pour envisager les mesures pertinentes d’observation ou d’isolement à prendre pour les sujets qui sont exposés à l’agent infectieux. En effet, on ne recommanderait pas de garder les patients seulement 13 jours en observation ou en isolement parce que la moyenne des observations est de 13 jours. En fait, on a également besoin de savoir combien de personnes développent la maladie au 14ème jour, au 15ème jour, etc.
Afin d’apprécier la distribution observée d’une variable quantitative autour de la moyenne ou de la médiane, on peut simplement repérer la plus petite (minimum) et la plus grande valeur (maximum) de la distribution : il s’agit de l’étendue des observations. On peut également entendre par étendue la différence entre valeurs minimum et maximum. Si l’on présente la différence, il est recommandé de donner également la valeur minimum ou maximum.
Par exemple, dans la série suivante de valeurs d’âge (en années) : 17, 24, 27, 27, 29, 29, 32, 35, 37, le minimum est 17 ans et le maximum est 37 ans. L’étendue est 17-37 ans. On peut aussi considérer que l’étendue est de 20 ans.
Néanmoins, l’étendue est souvent insuffisante pour résumer la dispersion d’une distribution, car les valeurs extrêmes sont assez particulières. Les quantiles sont les valeurs d’une distribution définies par la proportion de sujets qui se trouvent au-dessous et au-dessus de cette valeur. On parle de quartiles, déciles, percentiles.
Les quartiles sont les trois valeurs qui partagent la distribution en quatre parties égales. Le premier quartile correspond à la valeur de l’observation qui a 25% de la distribution au-dessous et 75% au-dessus, le second quartile est donc … la médiane, et le troisième quartile correspond à la valeur de l’observation qui a 75% de la distribution au-dessous et 25% au-dessus.
Par exemple, la durée de survie de 42 patients atteints de cancer digestif a été recueillie lors d’une consultation de suivi de gastro-entérologie. La série de valeurs est ordonnée de manière croissante (Tableau OUTILS-STAT-4).
Tableau OUTILS-STAT-4. Durée de la survie (en mois) de 42 patients atteints de cancer digestif. Service de gastro-entérologie de l’hôpital de Maville, 2000.
Il y a au total 42 observations et la médiane correspond à la valeur située entre le rang 21 et le rang 22, car : (42+1)/2 = 21,5. Comme la durée de survie est respectivement de 38 et 40 mois à ces deux rangs, la médiane vaut (38 + 40)/2 = 39 mois.
Pour trouver la valeur de l’observation correspondant aux 1er et 3ème quartiles, on peut procéder avec la même méthode.
Le rang du 1er quartile est : (n+1)/4. Dans l’exemple, on trouve (42+1)/4 = 10,75 et il s’agit donc d’une valeur située entre la valeur classée au 10ème rang (17 mois) et celle classée au 11ème rang (23 mois). Si l’on utilise le même principe de calcul que pour la médiane, le 1er quartile vaut (17+23)/2 = 20 mois (ou de façon plus précise : 17 + 0,75x(23-17) = 21,5 mois).
Le rang du 3ème quartile est (n+1) x (3/4). Dans l’exemple, 43 x (3/4) vaut 32,25. Or, la valeur au 32ème rang et la valeur au 33ème rang valent toutes deux 58 mois. Le 3ème quartile de cette distribution est donc 58 mois.
Plutôt que les quartiles, on présente souvent l’étendue inter-quartiles (25% à 75%) qui est donc la partie centrale qui couvre 50% de la distribution observée.
Dans l’exemple, l’étendue inter-quartiles est 20-58 mois.
On peut raisonner de la même manière avec les quintiles, les déciles ou les centiles (percentiles), partageant la distribution en 10 ou 100 parties égales, respectivement. On peut ainsi calculer la valeur correspondant au 5ème percentile et au 95ème percentile et obtenir l’étendue centrale couvrant 90% de la distribution observée.
Une autre façon de mesurer la variabilité consiste à calculer la variance, σ², qui est une mesure des distances de chaque individu à la moyenne :
n−μ 2
∑ (xi )
σ 2 =i =1
n
La variance a l’unité de la variable au carré.
Par exemple, pour la variance de l’âge, il peut s’agir d’années au carré (années²) ou de jours au carré (jours²).
Pour exprimer la variabilité dans la même unité que les valeurs observées, on en prend la racine carrée, qui s’appelle l’écart-type (ou écart-type inter-individuel) :
…
Par exemple, pour les cinq valeurs d’âge de l’exemple initial de ce chapitre, on trouve :
Tableau OUTILS-STAT-5. Exemple de décomposition du calcul pour la variance et l’écart-type. Série de 5 valeurs d’âge.
Age (en années), | Age au carré (en années au carré), |
xi | xi2 |
17 | 289 |
24 | 576 |
32 | 1024 |
35 | 1225 |
37 | 1369 |
n | n |
Total : ∑ xi =145 | ∑ ( xi )2 = 4483 |
i=1 | i =1 |
Variance et écart-type sont très intéressants à titre descriptif car ils permettent d’apprécier à quel point la distribution est dispersée. Plus la variance et l’écart-type sont grands, plus ladispersion est grande (pour une même variable).
Lois en statistique
I Introduction
Comme il est habituellement impossible d’étudier la population entière, on dispose le plus souvent de données sur un échantillon d’individus. On utilise alors les informations obtenues sur cet échantillon pour en tirer des conclusions sur l’ensemble de la population que cet échantillon est supposé représenter. L’échantillon est considéré représentatif de cette population s’il n’a pas fait l’objet d’une sélection particulière. La méthode idéale pour constituer un échantillon représentatif d’une population est le tirage au sort.
Dans ce chapitre, vous verrez comment les probabilités et les lois de probabilité contribuent à utiliser les informations obtenues à partir d’un échantillon pour appréhender la population. L’exemple de la loi Normale permettra d’illustrer ces notions.
II Rappels sur les probabilités
La probabilité d’un événement est la proportion de fois où cet événement se produit si on répète à l’infini les conditions où il peut se produire.
Par définition, la valeur d’une probabilité est comprise entre 0 et 1 (ou 0% et 100%). Un événement impossible, qui ne peut se produire, a une probabilité de 0. Un événement certain, qui se produit toujours, a une probabilité de 1.
III Loi Normale et son usage
Dans l’échantillon dont nous disposons, nous savons décrire la distribution observée d’une variable quantitative continue. Si l’on souhaite utiliser ces informations pour en déduire ce qui se passe dans la population dont cet échantillon est issu et représentatif, il faut faire l’hypothèse que la variable suit, dans la population, une distribution théorique ou loi deprobabilité. Cette loi de probabilité est spécifiée mathématiquement. Dans cette écrituremathématique, la loi dépend de paramètres. La moyenne, notée μ, et l’écart-type, noté σ, sont, par exemple, les paramètres de la distribution théorique la plus utilisée, la loi Normale (ou loi de Gauss ; les majuscules N et G sont intentionnelles). On note N(μ,σ ). On utilise des lettres grecques pour désigner la moyenne et l’écart-type de la population ou « théoriques ». On appelle ces paramètres théoriques car ils ne sont pas connus le plus souvent (on ne connaît que les valeurs observées dans l’échantillon). L’importance de la loi Normale est considérable dans le domaine du vivant car de nombreuses variables aléatoires suivent cette loi, en théorie. La loi Normale a la forme d’une courbe en cloche comme on peut le voir sur la figure OUTILS-STAT-7. Elle tend à avoir un pic : on la dit unimodale (le pic correspond au mode). Le pic est obtenu autour de la valeur moyenne de la variable qui est aussi la valeur médiane. De plus, la distribution est symétrique autour de ce pic.
Toute distribution Normale peut être transformée en une seule distribution ayant pour moyenne 0, et pour écart-type 1 : la distribution Normale, centrée et réduite, notée :
N(0,1).
Comment faire ? On soustrait à chaque valeur d’une distribution Normale quelconque, la moyenne, μ, et l’on divise par l’écart-type, σ. Cela revient à écrire : xi – μσ
On appelle cette quantité : l’écart-réduit. La distribution de l’écart-réduit suit une loi N(0,1).
…
Figure OUTILS-STAT-7. La distribution Normale de moyenne 0 et d’écart-type 1.
L’intérêt de cette transformation réside dans les propriétés très intéressantes de cette distribution.
Avant de pouvoir explorer ces propriétés, nous avons besoin d’un tableau appelé « Table dela loi normale centrée réduite » ou « Table de l’écart-réduit ». Vous pouvez le consultersur le site ou l’imprimer. Dans ce tableau, l’écart-réduit est appelé Uα. Comment l’interpréter ?
- à l’intérieur du tableau, figurent les valeurs d’une distribution Normale centrée réduite (les valeurs dites de Uα, en valeur absolue)
- et dans les bandeaux à gauche et au-dessus, figurent les valeurs des probabilités correspondantes α.
On trouve la probabilité α d’observer des valeurs comprises entre ]-∞ à –Uα[ et ]+ Uα à +∞[ en additionnant la valeur correspondante de la ligne sur le bandeau à gauche et la valeur correspondante de la colonne sur le bandeau de titre.
Voici une illustration à partir de données concrètes. Dans la population des hommes de 35-40 ans, la concentration moyenne de cholestérol total dans le sang est 1,84 g/l et l’écart- type 0,40 g/l. On fait l’hypothèse que la concentration de cholestérol total dans le sang a une distribution Normale.
Question : quelle est la probabilité d’observer une valeur de la concentration de cholestérol total > 2,50 g/l dans le sang si μ = 1,84 g/l et σ = 0,4 g/l ?
Réponse : selon l’hypothèse d’une distribution Normale, on peut calculer de combien d’écarts-types, la valeur 2,50 g/l est éloignée de la moyenne :
…
La valeur 2,50 g/l est éloignée de la moyenne de 1,65 écarts-types. Dans la table de la loi normale centrée réduite, on trouve que la probabilité d’être en dehors de 1,65 écarts-types (au-dessous ou au-dessus) est α = 0,10. On en déduit que la probabilité de se situer au-dessus de 1,65 écarts- types est donc α/2 = 0,10/2 = 0,05. Autrement dit, 5% de la population a, en théorie, une concentration de cholestérol total dans le sang au-dessus de cette valeur de 2,50 g/l (Figure OUTILS-STAT-8).
Figure OUTILS-STAT -8. Recherche de la probabilité d’observer une concentration de cholestérol total dans le sang > 2,50 g/l, si μ = 1,84 g/l et σ = 0,4 g/l, dans le cas d’une distribution normale.
Principes de l’analyse des données en statistique
I Introduction
Le plus souvent, on dispose de données sur un échantillon et on utilise ces informations pour décrire la population dont cet échantillon est issu. L’analyse se déroule en deux étapes :
- la 1ère étape consiste à donner une description résumée de la distribution de la variable.Par exemple, à la suite d’une grande enquête sur un échantillon représentatif, on donne une estimation de la proportion de diabétiques ou une estimation de la consommation moyenne d’alcool en grammes par semaine dans la population ;
- la 2nde étape consiste à comparer formellement la distribution observée d’une variabledans un échantillon par rapport à sa distribution attendue dans la population ou à comparer la distribution observée dans plusieurs groupes.
Par exemple, dans un essai clinique, on compare la fréquence des récidives de mélanome après la mise en route de deux traitements différents ou, dans une enquête visant à étudier l’association entre tabac et cancer du poumon, on compare la proportion de sujets exposés au tabac selon que les sujets sont atteints de cancer du poumon (cas) ou non (témoins).
Dans ce chapitre, vous verrez les grands principes de ces deux étapes.
II Étape de description : estimation
1 Introduction
On souhaite utiliser les résultats obtenus dans un échantillon pour estimer la vraie valeur dans la population.
Par exemple, dans un échantillon, on trouve que la pression artérielle systolique moyenne est 140 mmHg. Quelle information sur la vraie valeur dans la population ce résultat apporte-t-il ?
Faisons l’hypothèse que l’échantillon est représentatif de la population, c’est-à-dire constitué sans biais, au mieux par tirage au sort. Si l’on tirait au sort des échantillons successifs à partir d’une même population, chaque échantillon fournirait une estimation ponctuelle du paramètre d’intérêt (par exemple, ici, la moyenne). On peut comprendre intuitivement que cette estimation va varier d’un échantillon à l’autre, en suivant une loi de probabilité. Cela nous aide à comprendre pourquoi au sein d’un échantillon représentatif, la moyenne, m, d’une variable, peut différer de la moyenne de la population, μ, uniquement du fait du hasard. Cette fluctuation est importante à prendre en compte, même si l’on s’attend à ce que m soit très proche de μ, puisque l’échantillon est représentatif de la population. Il est donc nécessaire d’apprécier l’incertitude associée à notre estimation, grâce à un intervalle de confiance. Dans ce chapitre, vous aborderez le cas des petits et des grands échantillons pour une variable quantitative, et seulement le cas des grands échantillons pour les variables catégorielles.
2 Fluctuations d’échantillonnage : exemple d’une moyenne, variable quantitative
Une façon de procéder est de supposer que l’échantillon dont nous disposons n’est en fait qu’un des multiples échantillons d’une taille donnée, n, représentatifs de la population, qu’il est possible de constituer. Comment varient alors les moyenn