Cours a propos des concepts de base de la statistique appliquee avec exercices et problemes corriges
Cours a propos des concepts de base de la statistique appliquee avec exercices et problèmes corrigés
…
La moyenne arithmétique
La moyenne arithmétique (parfois notée M) est probablement la statistique la plus utile et la plus fréquemment utilisée, aussi bien dans la vie scientifique et professionnelle que dans la vie de tous les jours2 . Il suffi t de penser, par exemple, à une note scolaire moyenne. Facile à calculer, la moyenne possède un ensemble de propriétés et de caractéristiques qui en font la valeur de la tendance centrale représentant le mieux la distribution et qui, par conséquent, est celle qu’on utilise généralement le plus.
Comment trouver la moyenne ?
Pour trouver la moyenne, il suffi t d’additionner la valeur de chaque observation et de diviser ce total par le nombre d’observations. La formule pour trouver la moyenne M est : Formule 3.1
Xi est la valeur obtenue sur la variable X pour chaque observation i (i allant de 1 à N, la dernière personne), ∑ (sigma majuscule) est le symbole qui indique une sommation et N est le nombre total d’observations. La formule se lit de la manière suivante : la moyenne (M) de la variable X est égale à la somme (∑) des observations (Xi ) divisée par le nombre (N) d’observations. À partir du Tableau 3.1, le Tableau 3.2 en donne un exemple en calculant la moyenne obtenue à l’examen partiel par 11 étudiants.
Critique de la moyenne comme statistique de la tendance centrale
Lorsqu’il s’agit de trouver la valeur typique d’une distribution, la moyenne a beaucoup plus d’avantages que d’inconvénients, mais, néanmoins, elle a deux inconvénients principaux. D’une part, la moyenne est souvent une valeur abstraite que l’on ne retrouvera pas nécessairement dans les données. Par exemple, la moyenne de la note obtenue à l’examen (Tableau 3.1) est 70,9. Si on étudie la distribution des notes, on constate que personne n’a obtenu cette note à l’examen. Si la femme canadienne moyenne a 1,24 enfant, et qu’un journaliste souhaite faire un reportage sur elle, même en cherchant longtemps, il aura bien du mal à la trouver !
D’autre part, lorsque la distribution des données est très asymétrique, la moyenne présente une image qui peut être trompeuse. Un bel exemple nous est donné par les salaires des joueurs de hockey de la LNH. Le Tableau 3.3 montre leur salaire moyen, médian et modal. Dans ce tableau, nous voyons que le salaire moyen (1 700 000 $) représente plus que le triple du salaire modal (500 000 $). Même s’il est indéniable qu’en moyenne les joueurs de hockey gagnent 1 700 000 $, le salaire le plus fréquent (le mode) n’est qu’une fraction de ce montant, et le salaire médian lui aussi est bien infé- rieur (1 000 000 $) au salaire moyen. Dans ce cas, il serait plus raisonnable de dire que le salaire typique des joueurs de la LNH se situe davantage aux alentours de 500 000 que de 1 700 000 $. Malgré ces inconvénients, la moyenne est néanmoins l’estimation par excellence de la tendance centrale d’un échantillon. Voyons pourquoi.
…
La moyenne utilise toutes les informations disponibles. La valeur de la tendance centrale doit être une représentation aussi parfaite que possible de la distribution. Le mode ne se sert que d’une parcelle des valeurs de la distribution (seule la valeur la plus fréquente est prise en considération). La médiane ne compte que la position des observations. La valeur des observations individuelles n’est pas pertinente. Pour calculer la moyenne, par contre, on a besoin de la totalité de l’information contenue dans la distribution. Puisque chaque valeur de la distribution contribue à la moyenne, c’est elle qui décrit le mieux la distribution complète. Chaque valeur de la distribution, sans exception, « a son mot à dire » lorsqu’il s’agit de calculer la moyenne.
La moyenne est donc la statistique de la tendance centrale qui est la plus démocratique ! La moyenne est la statistique de la tendance centrale qui fait le moins d’erreurs. Le second avantage de la moyenne provient du fait qu’elle fait le moins d’erreurs lorsqu’elle est utilisée pour « prédire » chaque valeur de la distribution. On se rappellera que la tendance centrale doit indiquer la valeur typique, c’est-à-dire la valeur qui décrit le mieux toutes les autres valeurs de la distribution. Reprenons les notes du Tableau 3.2 dans le Tableau 3.4.
…
Dans le Tableau 3.4, la moyenne est M = 72, la médiane est Md = 73 et le mode est Mo= 75 ; N = 11. Laquelle de ces trois statistiques de la tendance centrale est la plus représentative de toutes les valeurs de la distribution ? Pour répondre à cette question, il faut défi nir l’expression « la plus repré- sentative ». Dans ce dessein, on choisit l’écart par rapport à la mesure de tendance centrale, c’est-à-dire la diff érence entre la valeur réelle de chaque observation et la valeur de la tendance centrale. Cette diff érence s’appelle l’erreur.
Ainsi, la meilleure mesure de tendance centrale devrait être celle qui fait le moins d’erreurs lorsque l’on s’en sert pour prédire chaque valeur de la distribution. On peut faire l’exercice avec les données reproduites au Tableau 3.4. On prend chaque valeur de la distribution, de laquelle on soustrait respectivement la moyenne, la médiane et le mode. Plus grande est cette diff érence, plus grande est l’erreur produite par cette statistique. Au Tableau 3.4, nous observons que la première observation obtient une valeur réelle de 65 alors que la moyenne, la médiane et le mode sont respectivement de 72, 73 et 75. Si la moyenne représente parfaitement cette observation, elle devrait avoir la même valeur (65) que l’observation. Puisque la moyenne est égale à 72, il est clair que la moyenne fait une erreur de –7 (65 – 72 = –7). Le signe négatif signifi e que la moyenne surestime la donnée (la véritable valeur de l’observation est plus faible que la moyenne). Lorsque la diff érence produit un signe positif, cela signifi e que la moyenne sous-estime la donnée (la valeur de l’observation est plus grande).
Comparons maintenant l’erreur faite par la médiane, le mode et la moyenne lorsqu’on les utilise pour « prédire » la première observation du Tableau 3.4. L’erreur faite par la moyenne, dans ce premier cas (–7) est plus petite que les erreurs occasionnées par la médiane et le mode (–8 et –10 respectivement). Cela n’est pas toujours le cas pour toutes les observations : pour l’observation 7, par exemple, les erreurs faites par la moyenne sont plus fortes (+2) que celles faites respectivement par la médiane et le mode (+1 et –1). Le Tableau 3.4 montre les erreurs pour toutes les observations. Nous pouvons alors déterminer l’erreur produite par chaque mesure de la tendance centrale. Nous faisons la somme des erreurs et nous observons que l’erreur totale faite par la moyenne vaut 0 alors que celles du mode et de la médiane valent respectivement –11 et –27. Si nous calculons l’erreur moyenne faite par la moyenne, la médiane et le mode, nous trouvons respectivement 0, –1 et –2,47.
La mesure de tendance centrale qui produit le moins d’erreur totale ou la plus petite erreur moyenne est celle qui décrit le mieux la distribution et, clairement, la moyenne en fait le moins. Ce résultat n’est pas un accident : invariablement, l’erreur totale (et l’erreur moyenne) produite par la moyenne est égale à zéro et, sauf pour le cas où la moyenne, la médiane et le mode sont identiques, l’erreur faite par le mode et la médiane sera plus grande. Il s’ensuit que la moyenne est la mesure de tendance centrale qui représente le mieux les données d’un échantillon. Pour ceux qui aiment l’algèbre, l’encadré en fait la preuve mathématique.
…
Quiz rapide 3.3 Générez une distribution contenant 5 données et vérifi ez que la moyenne ne fait aucune erreur de prédiction en moyenne. Le mode et la médiane en font-ils plus ?
La moyenne est le point d’équilibre d’une distribution. L’erreur de pré- diction moyenne est toujours égale à zéro quand on utilise la moyenne pour « prédire » chaque valeur de la distribution. Pour que cela soit vrai, il faut que la somme des erreurs supérieures à la moyenne et la somme des erreurs inférieures à la moyenne soient égales. Par conséquent, la moyenne est souvent interprétée comme étant le point d’équilibre d’une distribution. La Figure 3.1 propose une représentation graphique de la situation. Imaginons que les cubes sont des enfants de même poids assis sur une balançoire à bascule. Le triangle représente le point d’équilibre de la balançoire et les enfants sont disposés des deux côtés de ce point d’équilibre. Dans la situation A, nous voyons que la barre est en équilibre lorsque les deux groupes d’enfants sont exactement à la même distance du point d’équilibre (le triangle). Dans la situation B, nous déplaçons un des enfants près de l’extrémité gauche de la balançoire à bascule. Pour garder la barre horizontale, il devient nécessaire de déplacer le point d’équilibre vers la gauche, plus près de l’enfant que nous avons déplacé. La moyenne agit comme le triangle de la Figure 3.1 : elle a tendance à se déplacer vers les valeurs les plus extrêmes de la distribution.
La Figure 3.2 reprend la même idée, mais, cette fois, en montrant la façon dont la moyenne, la médiane et le mode sont infl uencés par trois formes de distribution (voir le chapitre 2) : une distribution symétrique, une distribution asymétrique négative et une distribution asymétrique positive. Dans la situation A, on remarque que la moyenne, la médiane et le mode coïncident tous exactement. Lorsque les trois valeurs de la tendance centrale d’une distribution coïncident, la distribution est symétrique. La situation B montre une distribution asymétrique. La moyenne est maintenant déplacée vers la droite, vers les observations extrêmes qui se trouvent du côté positif de l’abscisse. Lorsque la moyenne est décalée vers la droite de l’abscisse par rapport à la médiane, la distribution est asymé- trique positive.
Dans la situation C, l’asymétrie est négative parce que la moyenne est décalée vers la gauche (la partie ayant des valeurs plus faibles) de l’abscisse. Ainsi, l’asymétrie fait référence à la position de la moyenne par rapport à la médiane. Lorsque l’asymétrie est positive, la moyenne se trouve à la droite de la médiane, et elle se trouve à sa gauche lorsque la distribution est asymétrique négative. Ainsi, lorsque la moyenne est numériquement supé- rieure à la médiane, la distribution est asymétrique positive. À l’inverse, lorsque la moyenne est numériquement inférieure à la médiane, la distribution est asymétrique négative.
…
LES MESURES DE DISPERSION
La moyenne est certes une des statistiques les plus importantes que l’on puisse calculer afi n de comprendre une distribution. C’est une synthèse qui donne la meilleure représentation d’une distribution. Mais ce n’est pas parce qu’elle produit la « meilleure » estimation de toutes les valeurs d’une distribution qu’elle est une « bonne » estimation de la distribution (le salaire des joueurs de la LNH est un exemple de ce concept).
L’hiver au Québec : autobus ou métro ?
Supposons que, pour se rendre à un cours, on ait le choix entre l’autobus et le métro. Lequel prendre ? Tout dépend du temps de trajet moyen de l’un et l’autre mode de transport. S’il faut en moyenne 30 minutes en métro et 45 minutes en autobus, alors on prend certainement le métro. Imaginons par contre que les deux modes de transport prennent en moyenne 30 minutes. Doit-on en préférer un ? Supposons que l’autobus met entre 10 et 50 minutes pour parcourir le trajet, alors que le métro met entre 25 et 35 minutes. Puisqu’il est impératif d’être à l’heure à tous ses cours, il vaut mieux éviter l’autobus qui peut réserver de mauvaises surprises. Dans cet exemple, la fi abilité dans la durée du trajet est indiquée par la variabilité : plus la durée est variable, moins on a de chances que la durée moyenne soit la durée réelle du trajet.
Prenons un deuxième exemple : comptons le nombre de nez (oui !) sur le visage de chaque étudiant dans une classe et calculons la moyenne du nombre de nez. Il n’est pas nécessaire d’avoir un ordinateur pour savoir que la moyenne de la variable « nombre de nez » sera égale à 1. Maintenant, utilisons cette moyenne pour prédire le nombre de nez qu’un étudiant, aléatoirement choisi, possède. Dans ce cas, il est quasi certain que la moyenne sera une estimation parfaite du nombre de nez de cette personne (nous n’avons tous habituellement qu’un nez). Répétons l’expérience, mais cette fois, analysons non pas le nombre de nez, mais la taille des étudiants. Calculons la moyenne (disons qu’on obtient 1,70 m) et essayons de prédire la taille d’un étudiant choisi au hasard. Puisque la moyenne est la meilleure estimation, nous allons prédire que cette personne mesure 1,70 m. Mais, à moins d’avoir beaucoup de chance, il est probable que l’étudiant choisi aura une taille diff érente. Dans ce dernier cas, la moyenne est une moins bonne estimation de la taille, même si elle reste la meilleure estimation disponible.
Qu’est-ce qui fait la diff érence entre une bonne et une moins bonne estimation ? Si la distribution contient des valeurs très similaires (voire identiques, comme le nombre de nez), la moyenne est une bonne (et à la limite, une parfaite) estimation des valeurs de l’échantillon. Si la distribution contient des valeurs qui diff èrent beaucoup entre elles, la moyenne est une moins bonne estimation. Pour décrire adéquatement une distribution, il faut par conséquent trouver un moyen de quantifi er non seulement sa moyenne, mais aussi le degré de diff érence entre les observations.
L’étendue
Nous avons vu, en construisant la distribution des salaires des joueurs de hockey que, même si la moyenne des salaires est d’environ 1 700 000 $, certains joueurs gagnent moins de 200 000 $ et d’autres reçoivent jusqu’à 11 000 000 $. À l’aide de la construction d’une distribution des eff ectifs, il est facile de déterminer le salaire le plus élevé et le salaire le plus faible. En comparant ces deux extrêmes (165 000 et 11 000 000 $), il est clair que les salaires peuvent être très diff érents. La diff érence entre les deux extrêmes d’une distribution produit une première statistique qui refl ète le degré de dispersion (de diff érence). Cette statistique, la diff érence entre la valeur maximale et minimale, s’appelle l’étendue.
…
L’étendue interquartile
Puisque l’étendue est toujours sensible aux valeurs extrêmes d’un échantillon, nous pouvons améliorer la technique en calculant une étendue différente qui prend le nom d’étendue interquartile. Au lieu de comparer la valeur la plus grande et la valeur la plus petite de l’échantillon, l’étendue interquartile compare la diff érence entre deux autres valeurs, qui, elles, sont plus stables. Nous savons que les observations tendent à être plus rares aux extrémités de la distribution et qu’elles sont plus fréquentes autour de la moyenne. Alors si nous calculons les étendues à partir des valeurs plus proches de la moyenne, le résultat obtenu aura tendance à être plus stable. Par convention, on défi nit « plus proche de la moyenne » 50 % des observations qui se situent autour de la médiane (+25 % et –25 %).
Comment trouver l’étendue interquartile ?
Nous verrons la défi nition exacte du quartile au prochain chapitre. En principe, l’étendue interquartile se calcule en retirant de la distribution 25 % des scores les plus faibles, 25 % des scores les plus élevés, puis en calculant l’étendue sur les données restantes. En examinant les pourcentages cumulatifs au Tableau 3.1, nous voyons que 25 % des étudiants obtiennent une note égale ou inférieure à 52 et que 72 % des étudiants obtiennent une note égale ou inférieure à 74 (72 % est le pourcentage le plus proche de 75 % dans le tableau). Nous pouvons maintenant calculer l’étendue interquartile, la diff érence entre ces deux quantités. L’étendue interquartile est proche de 22 (74 –52 = 22).
Critique de l’étendue interquartile comme statistique de la dispersion
L’étendue interquartile est plus stable que l’étendue. Elle est particulièrement utile lorsque nous travaillons avec des distributions très asymétriques où quelques observations peuvent se trouver très loin de la moyenne. Par exemple, pour les salaires des joueurs de hockey, l’étendue est supérieure à 10 000 000 $, mais l’étendue interquartile est de 1 500 000 $. De là, nous pouvons conclure que, même si les salaires couvrent un très large éventail, la diff érence entre les salaires de la majorité des joueurs n’est pas aussi grande (étendue interquartile). L’étendue interquartile est plus stable que l’étendue, car l’ajout d’un joueur avec un salaire très élevé ou très faible ne la changera pas. Néanmoins, l’étendue interquartile n’est pas la statistique de dispersion la plus stable, car elle n’utilise qu’une petite partie de l’information disponible (seulement les deux valeurs qui défi nissent 50 % des observations). Il faut trouver une façon de mesurer la dispersion des valeurs qui prenne en considération toutes les valeurs de la distribution. La variance autour de la moyenne est la statistique qui remplit cette condition.
LA VARIANCE AUTOUR DE LA MOYENNE
La variance est liée, sous une forme ou une autre, à la quasi-totalité des règles et des techniques statistiques. Il importe de bien la comprendre, car cette statistique revient constamment dans ce livre, de même que dans tous les livres de statistiques. Pour intégrer ce concept, il faut préalablement comprendre le concept de l’erreur autour de la moyenne.
Le concept de l’erreur autour de la moyenne revisité
Bien que la moyenne soit la meilleure estimation des valeurs d’une distribution, nous voulons savoir à quel point la moyenne détermine avec précision chaque observation individuelle. La moyenne est bonne lorsque l’erreur, autrement dit l’écart entre chaque observation et la moyenne, est petite. Si les écarts entre les observations et la moyenne sont petits, cela implique que la diff érence entre les observations est petite. Lorsque les écarts entre les observations et la moyenne sont grands, la diff érence entre les observations est plus grande et la moyenne est une moins bonne estimation des valeurs individuelles de la variable. Le Tableau 3.5 présente les données pour deux échantillons notés X et Y, chacun composé de trois observations. Ces deux échantillons ont une même moyenne de 60. Cependant, il est clair que les valeurs de la distribution X (59, 60, 61) sont très similaires alors que les valeurs de la distribution Y sont très diff érentes (40, 60, 80). Il est donc certain que la moyenne sera une bonne estimation pour X et une estimation beaucoup moins bonne pour Y. Essayons maintenant de concevoir une approche qui pourra confi rmer quantitativement notre intuition.