Cours de statistique : coefficient de variation
Cours de statistique : coefficient de variation
Introduction - Objectifs du cours
Ce cours est destiné en priorité à un public n’ayant aucune formation en statistique et cependant confronté de façon récurrente à la manipulation et à l’analyse de séries de données. Aucun pré-requis en mathématique n’est exigé si ce n’est la connaissance des opérations mathématiques de base. Volonté, curiosité et ténacité permettront de maîtriser sans encombre les notions abordées qui, malgré leur complexité apparente, demeurent relativement simples. Cette formation se présente davantage comme une initiation à la rigueur que nécessite la manipulation d’ensembles de données afin d’utiliser à bon escient les méthodes appropriées pour éviter de faire parler faussement les chiffres. Les concepts et méthodes statistiques seront abordées au travers de nombreux exemples que viendront ponctués des exercices à réaliser dans le logiciel Excel dont la maîtrise de base est supposée acquise. Lorsque nécessaire, un point rouge l signalera la référence d'un exercice à réaliser. Au final, il s’agira de se familiariser avec et de maîtriser la méthode statistique en général en vue de décrire, de résumer et d’analyser une population ou un ensemble de données.
Chapitre 1
1. Définitions, terminologie et notation
1.1 Qu’est-ce-que la statistique ?
Il n'existe pas de définition universelle et totalement aboutie de la statistique. Celles présentées ci-après donnent un aperçu des différentes facettes que peut revêtir le terme « statistique » en tant que science.
La statistique c’est la science des grands nombres regroupant l'ensemble de méthodes mathématiques qui, à partir du recueil et de l'analyse de données réelles, permettent l'élaboration de modèles probabilistes autorisant les prévisions. (Larousse).
On perçoit dans cette première définitions plusieurs termes et notions fondamentales propres à la statistique : le recueil sous-entend la collecte qui elle-même suppose dans bien des cas la réalisation d'une enquête ou d'un sondage. Enquête et sondage impose l'échantillonnage en vue de l'inférence1.
L'analyse des données suppose la manipulation de tableaux ou grands ensembles de données qu'il s'agira de décrire et de résumer tout en accompagnant cette opération de représentations graphiques et cartographiques.
La notion de modèles probabilistes sous-entend une certaine maîtrise de l'incertitude dans le but de réaliser des prévisions ou de pratiquer l'inférence.
Autre définition, moins académique celle-ci :
la statistique est un ensemble de méthodes permettant de prendre une bonne décision face à l’incertitude (Wallis & Roberts, The Nature of Statistics)
C’est aussi un ensemble d’outils et de méthodes qui permettent de synthétiser et de résumer des grands volumes de données, des grandes matrices d’informations.
On voit se dessiner ici les deux principales branches de la statistique :
- La statistique descriptive
La statistique mathématique ou inférentielle
1.2 La statistique descriptive :
Ensemble des méthodes permettant de décrire une population par le biais des individus qui la composent. La statistique descriptive s’intéresse donc à décrire et caractériser un ensemble d’individus représenté la plupart du temps sous la forme de tableaux (tableaux de données), à résumer et synthétiser ces tableaux par l’intermédiaire de graphiques et de paramètres appropriés (fréquences, distribution, moyenne, dispersion, etc.). Elle s’attachera à éventuellement rechercher des corrélations (liaisons statistiques) entre les éléments de ces tableaux (variables et individus).
Exemple :
Les températures moyennes mensuelles à Strasbourg sur la période 1971-2000
Températures moyennes | Jan. | Fév. | Mars | Avr. | Mai | Juin | Juil. | Août | Sept. | Oct. | Nov. | Déc. | |
mensuelles (°C) | |||||||||||||
Normales | 1,6 | 2,8 | 6,7 | 9,7 | 14,3 | 17,3 | 19,5 | 19,3 | 15,5 | 10,6 | 5,3 | 2,8 | |
Maximales | 4,2 | 6,2 | 11,1 | 14,9 | 19,6 | 22,4 | 25,1 | 25,0 | 20,7 | 14,6 | 8,3 | 5,3 | |
Minimales | -1,0 | -0,7 | 2,2 | 4,6 | 9,0 | 12,1 | 13,9 | 13,6 | 10,3 | 6,6 | 2,3 | 0,3 | |
Le « simple » passage d'un tableau de données plus ou moins important à un graphique et/ou à quelques indicateurs pertinents telle que la moyenne constituent une opération relevant de la statistique descriptive.
1.3 La statistique mathématique ou inférentielle :
Cette branche des statistiques s’intéresse davantage à extrapoler des résultats issus d’échantillons en vue de caractériser une population mère inconnue, de faire des prévisions de comportements basées sur le calcul de probabilités.
Exemple :
En période électorale, on interroge 1 000 personnes sur leur intention de vote. A partir des résultats obtenus sur cet échantillon, on prévoit, avec une certaine précision, le comportement de l’ensemble des électeurs (population mère) et par là même, le résultat des élections. C’est ce qu’on appel l’inférence statistique et c’est le principe même du sondage d’opinion par exemple.
ra'>1.3 La statistique mathématique ou inférentielle :
Cette branche des statistiques s’intéresse davantage à extrapoler des résultats issus d’échantillons en vue de caractériser une population mère inconnue, de faire des prévisions de comportements basées sur le calcul de probabilités.
...
Le lien de complémentarité entre statistique inférentielle et statistique descriptive est évident : la première collecte et fournit à la seconde la « matière première » à décrire et à et analyser qui, retournée à la première est extrapolée.
Le présent cours sera consacré à la statistique descriptive. Mais avant de commencer, il convient de se familiariser avec le vocabulaire et la notation universelle de la statistique.
1.4 Terminologie et notation standard de la statistique
Terminologie et concepts fondamentaux
Population : ensemble des individus (ou unités statistiques) présentant un caractère commun. Pour une thématique donnée, la population regroupe toujours la totalité des individus relatif à cette thématique (notion d'exhaustivité). Exemples :
- la population européenne : ensemble des individus résidant sur le territoire européen à un moment donné.
- Le parc automobile français: ensemble des automobiles immatriculées sur le territoire français.
- Le parc de logements de Toulouse : ensemble des logements de la ville de Toulouse.
- Le lot 9 718 du médicament « alpha » : ensemble boîtes de « alpha » produit sous le n°. de lot 9 718.
- Le cheptel bovin de l'exploitation Martin : ensemble des bovins femelles et mâles rattachés à l'exploitation agricole Martin.
La population est en général notée P
L'effectif total d'une population est noté N
Unité statistique (ou individu) : élément de base constitutif de la population à laquelle il appartient. Il est indivisible et peut être un animal, un végétal, un humain ou un objet. Exemples : une automobile, un logement, une vache, une ampoule, une ville, etc. noté i
Échantillon : sous-ensemble construit et représentatif d'une population donnée. Lorsque l'on parle d'échantillon on parle en général de population mère, c'est-à-dire de la population dont est issu l'échantillon. L'échantillon est fréquemment noté s
Dénombrement : comptage exhaustif des individus composant une population donnée. Le recensement de la population est un dénombrement.
Caractère(s) : caractéristique(s) de l'individu intégrant la population étudiée. Exemple : la couleur, le sexe, le poids, la taille, la marque, le modèle, l'espèce, le prix, la surface, etc.
Variable : une variable est une caractéristique pouvant prendre plusieurs des valeurs d'un ensemble d'observations possibles auquel une mesure ou une qualité peut être appliquée.
Modalité : valeur qualitative ou quantitative que peut prendre le caractère précédemment défini. Exemple : sexe féminin ou masculin, poids 45 kg, couleur verte, etc. Attention, les modalités sont exhaustives et mutuellement exclusives. Chaque individu doit pouvoir être classé dans une et une seule modalité.
Récapitulatif intermédiaire par l'exemple:
Population : Le parc locatif privé loué vide de Cahors
Individu : Un logement appartenant à ce parc
Caractère : Taille du logement
Modalité : Nombre de pièces de ce logement
Classe : il est fréquent qu'une population soit divisée en sous-ensembles cohérents construits à partir de critères déterminés de façon à réduire la taille des tableaux de données et à en faciliter la lecture, l'analyse et l'interprétation. Cette division induit une regroupement des individus et la formation de classes rassemblant chacune des individus présentant des caractères similaires.
...
4.2.5 Le coefficient de variation
L'écart-type, malgré sa pertinence dans la mesure de la dispersion d'une distribution, possède un inconvénient majeur: il est exprimé dans l'unité de la variable à laquelle il se rapporte. Il est alors impossible de comparer les dispersions de deux ou davantage distributions ayant un lien entre elles (lien de causalité ou autre) et dont les valeurs s'expriment dans des unités différentes.
Le coefficient de variation est une mesure de dispersion des observations d'une variable quantitative d'intervalle qui permet de s'affranchir de la notion d'unité et ainsi de comparer la dispersion de différentes distributions.
C'est une mesure neutre qui s'exprime la plupart du temps en pourcentage. Il se calcule en divisant l'écart-type par la moyenne et s'écrit donc :
Coefficient de variation :
Cv =x
Plus grand est le coefficient de variation, plus grande est la dispersion.
Exemple : considérons la surface des logements dits de petite taille (1 à 3 pièces) à celle des logements dits de grande taille (4 pièces et plus).
Pour le groupe de logements de 1, 2 et 3 pièces nous obtenons :
x =56,6 m2 =12,4 m2
Pour le groupe de logements dits récents nous obtenons :
x =81,5 m2 =13,2m2
A première vue, et en examinant seulement les écarts types, on pourrait conclure que la dispersion de la surface des logements de grande taille est plus élevée que celle des petits logements. Le calcul des coefficients de variation respectifs montre qu'il n'en est rien :
Pour les petits logements | Cv=0,219 21,9% |
Pour les grands logements | Cv=0,162 16,2 % |
On note que le coefficient de variation des logements de petite taille est plus élevé que celui des logements de grande taille. Contrairement à ce que laissait penser les écart-type calculés, la dispersion pour le groupe des petits logements est plus élevée que celle des grands logements.
Chapitre 5
5. Séries chronologiques : progression et indices
L'utilisation et l'analyse de séries chronologiques, c'est-à-dire de séries qui figurent l'évolution d'une variable statistique au cours du temps, s'appuient sur deux outils principaux : d'une part la progression et d'autre l'indice. Ces deux outils mesurent les variations d'une variable entre deux dates ou plus selon un pas de temps régulier ou non.
5.1 Progression
La progression mesure le sens et l'intensité du changement intervenu sur une variable numérique V à différents temps t. Au temps t la variable s'écrit par convention Vt (V indice t). Lorsque t = 0 la variable s'écrit V0 , quand t = 1 elle s'écritV1, lorsque t = n on aVn. A chaque temps t la variableVest caractérisée par une valeurdifférente.
Exemple : considérons la population de la France à différentes dates ,comme suit :
t | Date | Population |
1876 | V1 = 38 437 592 | |
1 | 1901 | V2 = 40 681 415 |
2 | 1921 | V3 = 39 209 518 |
3 | 1946 | V4 = 40 506 639 |
4 | 1962 | V5 = 46 243 173 |
5 | 1982 | V6 = 54 334 871 |
6 | 1999 | V7 = 58 518 395 |
7 | 2007 | V8 = 62 106 000 |
Dès lors, plusieurs mesures de progression peuvent être appliquées afin de caractériser la variation de la variable « population ».
5.1.1 La variation absolue
La variation absolue correspond à la différence de valeurs de la variable V entre deux dates, deux temps t. Elle s'écrit :
Variation absolue : V =V t−V 0
Reprenons notre exemple relatif à la population de la France à travers le temps. La variation absolue de population entre 1901 et 1946 s'écrit :
V 0=Population quand t = 0, c'est-à-dire à la date de départ, ici 1901 = 40 681 415
V 1=Population quand t = 1, c'est-à-dire à la date d'arrivée, ici 1946 = 40 506 639
...
V 1901−1946=V 1−V 0=Pop1946−Pop1901=40 506 639−40 681 415=−174 776
La variation absolue de population en France entre 1901 et 1946 est donc négative signifiant une baisse des effectifs évaluée à – 174 776 habitants.
Le taux de croissance sur une période (entre deux dates)
La variation absolue mesure l'évolution brute et le sens de variation d'une quantité sans indication de son intensité par rapport à une situation de référence V0. La mesure de cette intensité, en plus du sens de variation (positif ou négatif), se réalise par l'intermédiaire d'un taux, c'est-à-dire d'un rapport d'une différence sur une quantité de référence le tout exprimé en pourcentage. Ce taux s'écrit :
Taux de croissance sur une période : gt = | V | 1−V | = | V | |
V 0 | V 0 | ||||
Avec : V1 – V0 représente la différence. On reconnaît ici la variation absolue D V décrite plus en amont V0 représente la quantité de référence, c'est-à-dire la valeur de la variable à la date initiale t = 0
Le taux de croissance ainsi obtenu est sans unité et le résultat multiplié par 100 donne un pourcentage.
Exemple: nous avons vu dans dans le cas de la variation absolue que la population de la France entre 1901 et 1946 avait évolué à la baisse avec une perte de 174 776 habitants. Quelle est l'intensité de cette diminution par rapport à la situation initiale de 1901 ? en d'autres termes, quelle est le taux de croissance de la population en pourcentage entre 1901 et 1946 ?
g %= | V 1 | −V0 | = | Pop1946 | −Pop1901 | = | −174 776 | =−0,0043 =−0,43 % | |
V 0 | Pop1901 | 40 681 415 | |||||||
Entre 1901 et 1946, la population française a diminué de 174 776 habitants ce qui correspond à une baisse de -0,43 %.
5.1.2 Le taux de croissance sur plusieurs périodes ou taux de croissance moyen
Que se passe-t-il lorsque l'on dispose pour une même variable de plusieurs valeurs correspond à son état à plusieurs dates et que l'on souhaite connaître le taux de croissance moyen sur l'ensemble des périodes ? Ce cas de figure est similaire à celui abordé dans le paragraphe concernant la moyenne géométrique et la formule utilisée pour calculer le taux de croissance moyen sur plusieurs périodes en est identique. En voici la formulation adaptée :
...
Exemple : reprenons le cas de la France et de sa population dans la première moitié du XXe siècle. Nous disposions des chiffres de la population pour les années 1901 et 1946. De nouvelles données sont disponibles à l'intérieur de cet intervalle pour les années 1906, 1911, 1921, 1926, 1931 et 1936 formant la série suivante :
t | Date | Population |
1901 | V0 = 40 681 415 | |
1 | 1906 | V1 = 41 066 809 |
2 | 1911 | V2 = 41 479 006 |
3 | 1921 | V3 = 39 209 518 |
4 | 1926 | V4 = 40 743 897 |
5 | 1931 | V5 = 41 834 923 |
6 | 1936 | V6 = 41 911 530 |
7 | 1946 | V7 = 40 506 639 |
Quel est le taux de croissance moyen de la population française entre 1901 et 1946 ?
...
5.1.3 Augmentations ou diminutions successives
Lorsque qu'une grandeur croît successivement à des taux différents à chaque période et que l'on veut connaître la valeur de la grandeur au terme des augmentations ou diminutions successives on applique la formule suivante:
t
V t=V 0∏1 gi
i=1
Exemple : on connaît à un moment donné t = 0 le prix mensuel moyen des loyers au m² : V0 = 7,48 €/m². Durant quatre années successives la seule information disponible concerne la hausse moyenne observée pour ces mêmes loyers soit : g1 = 2,33 % pour le 1ère année, g2 = -1,03 % pour le 2ième année, g3 = 1,93 % pour le 3ième année et g1 = 2,48 % pour le4ième année. Quelle la valeur du loyer mensuel moyen à l'issue de ces 4 années, autrement dit, déterminez V4 ?
t
V 4 =V0∏ 1 gi =7,48 1 g1 1 g2 1 g3 1 g4
i=1
V 4=7,48 1 0,0233 1−0,0103 1 0,0193 1 0,0248 =7,91 € /m2
...
Pour aller un peu plus loin : temps de doublement d'une grandeur
Quel est le temps nécessaire à une grandeur quelconque (population, prix, etc.) pour sa valeur double en considérant un taux de croissance moyen constant ?La solution est donnée par la formule suivante:
2V0=V0 1 g t
L'inconnue est ici le paramètre t qui représente la quantité de temps nécessaire à la vérification de l'égalité posée. Sans faire étalage de démonstrations mathématiques superflues, on peut écrire que t est égal à :
t= ln2 ln 1 g
(ln représente le logarithme népérien)
Exemple : en 1850, la population de la France était d'environ 35 millions d'habitants. En considérant un taux de croissance annuel moyen de 0,53 % observé à l'époque, combien de temps aurait-il fallu pour que celle-ci double ?
2V0=V0 1 g t⇔
2 35000000 =35 000000 1 0,0053 t ⇔
t = | ln2 | = | 0,6934 | = 131,1 ans | |
ln 1 0,0053 | 0,00258 | ||||
Il aurait fallu au pays 131 ans pour voir sa population doubler, soit un doublement prévu en 1981. Or en 1981, la population de la France était de 54 millions d'âmes soit quelques 77 % de son objectif. C'est donc que le taux annuel moyen de croissance de la population n'a été constant sur la période et a été en moyenne inférieur à 0,53%. Les deux grandes guerres y sont probablement pour quelque chose.
Remarque : on observe que la valeur initiale V0 n'intervient pas du tout dans le résultat finale et que la seule connaissance du taux de croissance annuel moyen (g) est nécessaire pour connaître, quel que soit le phénomène, un taux de doublement.
- Exercice 19 : fichier Excel associé « Exercice 19 - Progression.xls ».
...
5.2 Indices
L'indice est avant toute chose un résumé d'informations. Il est une autre façon d'exprimer une variation relative, c'est-à-dire un rapport de valeurs absolues, en désignant dès le départ l'une d'elles comme référence ou base à laquelle on affecte par convention la valeur 100.
Exemple: plutôt que de dire que le prix d'un bien immobilier a augmenté de 12,5 % de 2006 à 2007, on peut écrire que sur base 100 en 2006, il était en 2007 à l'indice 112,5 (on note couramment 2006 = 100). Cette façon d'exposer une variation n'ajoute rien à la précédente si ce n'est qu'elle permet d'éviter les variations négatives : ainsi, au lieu de parler d'une baisse de – 20 % on écrira que l'indice est passé de 100 à 80.
Dans cet exemple, on a affaire à un indice élémentaire c'est-à-dire qui renseigne sur l’évolution temporelle ou spatiale d’une seule valeur, par opposition à un indice complexe ou indice synthétique qui résume quant à lui l’évolution de plusieurs grandeurs comme plusieurs prix, plusieurs quantités, plusieurs valeurs (prix x quantités), etc.
5.2.1 Les indices élémentaires
Définition : un indice élémentaire est un rapport entre deux valeurs d'une même grandeur dans deux situations différentes dont une est appelée « base » et adoptée comme valeur de référence, et l'autre situation « courante ». Si on note I1/0 l'indice se rapportant à une grandeur simple g dans la situation 1 par rapport à la situation 0, on a :
I 1/0=gg10
Exemple : en 1876, la population française comptait 38,4 millions d'habitants. En 2007, cette même population était évaluée à 62,1 millions d'âmes. Calculer l'indice de variation de population en prenant comme référence l'année 1876.
I 1/0= I 1876/2007=38,462,1=1,62
La situation de base, ou de référence (g0), est toujours placée au dénominateur, le numérateur (g1) étant occupé par la situation dite courante. Pour éviter de trainer trop de chiffres après la virgule, on a pour habitude de multiplier le résultat d'un indice par 100. Dans l'exemple précédent on obtient donc 1,62 x 100 = 162. En base 1876 = 100, la population française était en 2007 à l'indice 162, soit une population en progression de 62 % entre 1876 et 2007.
Les indices élémentaires ont trois propriétés:
La réversibilité: un indice élémentaire est réversible c'est-à-dire que l'on inverse les situations comme suit :
I = | 1 | = | 1 | |||
g | 1 | |||||
0/ 1 | I 1/ 0 | |||||
g0 |
Cette propriété est peu utilisée dans les comparaisons chronologiques car il est peu fréquent de mettre au dénominateur une période postérieure à celle mise au numérateur. Elle l'est en revanche beaucoup plus et
même essentielle lorsqu'il s'agit de comparaisons géographiques pour lesquelles il n'existe aucune relation d'ordre entre les lieux comparés et où le choix du lieu de référence demeure parfaitement arbitraire.
Exemple: prenons le revenu moyen par ménage de 3 pays de l'Union Européenne en 2007 (Danemark, France et Hongrie) avec comme référence France = 100 et calculons les indices élémentaires. Nous obtenons :
Pays | Revenu | Indice base |
moyen | France = 100 | |
DK - Danemark | 25 113 | 135,9 |
FR - France | 18 481 | 100,0 |
HU - Hongrie | 4 377 | 23,7 . |
...
Chaque période est indicée par rapport à la situation de référence 1936 = 100. Mais dès lors que l'on ne possède plus les chiffres initiaux de population comment faire pour comparer une période avec une autre sur la base des seuls indices et toujours en considérant la référence 1936 = 100 ?
L'indice de variation de population entre 1936 et 1962 est 110,3 signifiant qu'entre ces deux dates le nombre d'habitants a cru de 10,3 %. Entre 1936 et 2007, l'indice donne une valeur de 148,3 indiquant une progression démographique de 48,3 %. Qu'en est-il de l'indice de variation de population entre 1962 et 2007 avec 1936 = 100 ? En posant I1/0 = I1962/1932 et I2/0 = I2007/1932 et en utilisant la propriété de transitivité, on peut écrire :