Manuel de statistique pour les debutants

ECOLE PREPARATOIRE EN SCIENCES ECONOMIQUES COMMERCIALES ET DES SCIENCES DE GESTION DE CONSTANTINE | |
Introduction à la Statistique Descriptive DAKHMOUCHE Meghlaoui | |
Ecole PrØparatoire en Sciences Economiques
Commerciales et des Sciences de Gestion de Constantine
Introduction la Statistique Descriptive
Dr. Meghlaoui Dakhmouche
AnnØe Universitaire 2010/2011
Table des mati?res
1 Notions fondamentales de la statistique descriptive 4
1.1 Concepts de base de la statistique descriptive . . . . . . . . . 4
1.1.1 Population - Individu . . . . . . . . . . . . . . . . . . . 5
1.1.2 Caract?re - ModalitØ . . . . . . . . . . . . . . . . . 5
1.1.3 Tableau statistique . . . . . . . . . . . . . . . . . . . . 6
1.2 Les di?Ørents types de caract?res . . . . . . . . . . . . . . . . 6
1.2.1 Caract?re qualitatif . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Caract?re quantitatif . . . . . . . . . . . . . . . . . . . 7
1.2.3 Notion de classe . . . . . . . . . . . . . . . . . . . . . . 8
2 Les distributions statistiques une dimension 9
2.1 PrØsentation gØnØrale des tableaux statistiques . . . . . . . . . 9
2.2 Les distributions caract?re qualitatif . . . . . . . . . . . . . 11
2.2.1 ReprØsentation par tuyaux d orgue . . . . . . . . . . . 11
2.2.2 ReprØsentation par secteur . . . . . . . . . . . . . . . . 12
2.3 Les distributions caract?re quantitatif . . . . . . . . . . . . . 13
2.3.1 Variable discr?te . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 Variable continue . . . . . . . . . . . . . . . . . . . . . 18
3 CaractØristiques de tendance centrale 26
3.1 Les di?Ørentes caractØristiques de tendance centrale . . . . . . 27
3.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2 Calcul du mode pour une distribution en classes d in-
nØgales amplitudes . . . . . . . . . . . . . . . . . . . . 28
3.1.3 La mØdiane . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.4 La mØdiale . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 La moyenne arithmØtique . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Moyenne arithmØtique simple . . . . . . . . . . . . . . 35
3.2.2 Moyenne arithmØtique pondØrØe . . . . . . . . . . . . . 35
3.3 Calcul pratique de la moyenne arithmØtique . . . . . . . . . . 36
3.3.1 Cas d une variable discr?te . . . . . . . . . . . . . . . . 36
3.3.2 Cas d une variable continue . . . . . . . . . . . . . . . 38
3.3.3 PropriØtØs de la moyenne arithmØtique . . . . . . . . . 40
3.4 Autres types de moyennes . . . . . . . . . . . . . . . . . . . . 42
3.4.1 Moyenne gØomØtrique . . . . . . . . . . . . . . . . . . . 42
3.4.2 PropriØtØs de la moyenne gØomØtrique . . . . . . . . . 43
3.4.3 Moyenne harmonique . . . . . . . . . . . . . . . . . . . 44
3.4.4 GØnØralisation de la notion de moyenne . . . . . . . . . 45
3.4.5 PropriØtØs comparØes des di?Ørentes moyennes . . . . . 46
4 Les caractØristiques de dispersion 48
4.1 Les di?Ørentes caractØristiques de dispersion . . . . . . . . . . 48
4.1.1 L Øtendue . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1.2 Les quartiles et l intervalle interquartile . . . . . . . . . 49
4.1.3 GØnØralisation de la notion de quartile . . . . . . . . . 51
4.1.4 L Øcart absolu moyen . . . . . . . . . . . . . . . . . . . 52
4.1.5 La variance et l Øcart-type . . . . . . . . . . . . . . . . 52
4.2 Calcul pratique de la variance et de l Øcart-type . . . . . . . . 53
4.2.1 Cas d une variable discr?te . . . . . . . . . . . . . . . . 53
4.2.2 Cas d une variable continue . . . . . . . . . . . . . . . 56
4.3 Autres caractØristiques d une distribution statistique . . . . . 60
4.3.1 Coe¢ cient de variation . . . . . . . . . . . . . . . . . . 60
4.3.2 Courbe de concentration . . . . . . . . . . . . . . . . . 61
4.3.3 Indice de concentration ou indice de Gini . . . . . . . . 62
4.3.4 Calcul pratique de l indice de Gini . . . . . . . . . . . 63
4.4 Les caractØristiques de forme . . . . . . . . . . . . . . . . . . . 65
4.4.1 Coe¢ cient d asymØtrie (skewness) . . . . . . . . . . . . 65
4.4.2 Coe¢ cient d aplatissement (Kurtosis) . . . . . . . . . . 67
5 Distributions statistiques deux dimensions 68
5.1 PrØsentation gØnØrale d un tableau double entrØe . . . . . . 68
5.2 Distributions marginales . . . . . . . . . . . . . . . . . . . . . 70
5.3 Distributions conditionnelles . . . . . . . . . . . . . . . . . . . 71
5.3.1 PropriØtØs des frØquences marginales et conditionnelles 72
5.4 ReprØsentations graphiques des distributions deux caract?res 73
5.4.1 Cas des caract?res qualitatifs . . . . . . . . . . . . . . 73
5.4.2 Cas des caract?res quantitatifs . . . . . . . . . . . . . . 73
5.5 Covariance entre deux variables statistiques . . . . . . . . . . 75
5.5.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5.2 Coe¢ cient de corrØlation . . . . . . . . . . . . . . . . . 76
5.5.3 Di?Ørents genres de corrØlation . . . . . . . . . . . . . 77
5.6 Ajustement linØaire ou droite des moindres carrØs . . . . . . . 78
6 Les sØries chronologiques 83
6.1 GØnØralitØs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.2 Analyse empirique d une sØrie chronologique . . . . . . . . . . 85
6.2.1 DØcomposition d une sØrie chronologique . . . . . . . . 85
6.2.2 Les mod?les de composition des trois composantes . . . 86
6.2.3 Choix du mod?le . . . . . . . . . . . . . . . . . . . . . 87
6.3 Les indices statistiques . . . . . . . . . . . . . . . . . . . . . . 87
6.3.1 Les indices ØlØmentaires . . . . . . . . . . . . . . . . . 88
6.3.2 Les indices synthØtiques . . . . . . . . . . . . . . . . . 90
6.3.3 Les di?Ørents types d indices statistiques . . . . . . . . 91
INTRODUCTION
D un point de vue pØdagogique, il nous appara t nØcessaire de distinguer trois Øtapes naturelles pour l enseignement des probabilitØs et des statistiques : la statistique descriptive, le calcul des probabilitØs ØlØmentaires et thØoriques, et la statistique thØorique ou infØrencielle. La statistique descriptive vise rØsumer quantitativement et graphiquement l information recueillie sur un ensemble concret au moyen d une investigation exhaustive. Son but n est pas d expliquer mais de dØcrire et de dØgager l essentiel de l information vØhiculØe par les donnØes. Elle synthØtise numØriquement et graphiquement cette information. Le calcul de probabilitØ, quant lui, a pour objet l Øtude des phØnom?nes alØatoires. Il est fondØ sur une axiomatique appropriØe et se dØveloppe suivant une logique mathØmatique Øtrang?re toute prØoccupation concr?te immØdiate. En n, la statistique thØorique se rapporte l Øtude de l induction statistique, c est dire l analyse de l information obtenue partir d un mØcanisme alØatoire. Tandis que la statistique descriptive "constate" l aide d une analyse exhaustive, en gØnØral coßteuse et parfois impossible entreprendre, la statistique mathØmatique vise cerner les caractØristiques de la population m?re sur la base de l Øtude d Øchantillons alØatoires. Le dØveloppement historique de la connaissance dans ce domaine a plus ou moins respectØ ces trois Øtapes. Souvent, on introduit la notion de probabilitØ comme une frØquence relative avant mŒme la dØ nition de la notion ØlØmentaire de frØquence. Les ØlØments du langage des probabilitØs tels que, ensemble fondamental, Øv?nement, probabilitØ, sont des gØnØralisations naturelles des notions de population, caract?re, frØquence. De mŒme, la variable alØatoire est un prolongement naturel de la variable statistique. Comme le cheminement de la pensØe va de l observation des faits vers leur idØalisation abstraite, la statistique descriptive appara t, par les probl?mes qu elle pose et les limites de ses possibilitØs, comme une introduction heuristique pour aborder le calcul des probabilitØs.
La statistique descriptive est, comme son nom l indique, une mØthode descriptive basØe sur les observations recueillies propos de l Øtude de certains phØnom?nes d ordre Øconomique, sociologique ou expØrimental. L analyse des donnØes se fait essentiellement dans deux directions principales. La premi?re, d essence gØomØtrique, consiste les classer et les disposer de la mani?re la plus explicite possible, sous forme de tableaux, de graphiques ou de courbes.
La seconde a pour but de rØsumer l information contenue dans les donnØes l aide de certaines caractØristiques numØriques. Ces deux axes ne sont pas exclusifs et sont souvent utilisØs simultanØment.
Le premier chapitre est consacrØ aux dØ nitions des notions et des concepts fondamentaux de la statistique descriptive. Dans le deuxi?me chapitre nous proposons une mØthode gØnØrale pour l Øtude des distributions statistiques une dimension. Nous y verrons les di?Ørentes fa ons de prØsenter des donnØes statistiques et de les visualiser graphiquement. Au troisi?me chapitre on s intØresse tr?s sommairement l Øtude des distributions deux caract?res. On y dØ nit aussi les notions de distributions marginales et conditionnelles. Le quatri?me chapitre de ce cours est consacrØ l Øtude des caractØristiques de tendance centrale. Et on insistera plus spØcialement sur le calcul pratique de la moyenne arithmØtique et on introduira d autres types de moyennes. Quant aux caractØristiques de dispersion, elles seront abordØes dans l avant-derni?re partie de cet exposØ oø on dØ nira les notions fondamentales de variance et d Øcart-type. De mŒme, il y sera fait allusion aux caractØristiques de forme. En n on termine cet exposØ par la dØ nition de la notion de sØrie chronologique et par la dØ nition des indices statistiques et leurs calculs pratiques.
Chapitre 1 Notions fondamentales de la statistique descriptive
La statistique est une mØthode d analyse des ensembles comportant un grand nombre d ØlØments. C est une science qui permet de traiter et d analyser les rØsultats des mesures e?ectuØes sur les individus d une population relativement un certain nombre de caract?res. Les rØsultats des mesures sont, en gØnØral, appelØs observations. Pour extraire l information contenue dans ces observations il est nØcessaire d utiliser un certain nombre d opØrations logiques qui caractØrisent les mØthodes statistiques. Les ØlØments soumis l analyse doivent appartenir un ensemble homog?ne et Œtre dØlimitØs avec
prØcision. Par la suite, ces ØlØments sont ordonnØs et classØs relativement leurs mesures.
Pour Œtre e¢ cace, les mØthodes statistiques doivent formaliser simplement le probl?me posØ en utilisant des concepts mathØmatiques abstraits. Par exemple, tous les ØlØments classØs dans le mŒme sous-groupe sont considØrØs comme Øquivalents.
1.1 Concepts de base de la statistique descriptive
Les observations constituent la source principale de l information statistique. Le statisticien doit dØ nir avec prØcision l ensemble ØtudiØ et les crit?res qui permettent sa description chi?rØe. De ses origines historiques, la statistique a conservØ en partie la terminologie de la dØmographie. On y parle, par exemple, de population pour dØsigner un ensemble, et d individus pour nommer les ØlØments de cet ensemble.
1.1.1 Population - Individu
De nition 1 On appelle population l ensemble des unitØs statistiques ou individus ØtudiØs par le statisticien.
Remarque 2 Chaque observation porte sur un individu. On emploiera les termes de population et d individu aussi bien lorsqu il s agit d un ensemble d Œtres humains (population algØrienne la date du recensement, Øl?ves d un Øtablissement scolaire, etc) ou d un ensemble d objets inanimØs (production de pi?ces d une usine, stocks de marchandises, etc) ou mŒme d un ensemble plus ou moins abstrait (ensemble des accidents de la route survenus au cours d un mois de l annØe, ensemble des jours ouvrables de l annØe, etc). Les individus d une population peuvent donc Œtre, selon les cas, des Œtres humains, des objets ou des Øv?nements.
1.1.2 Caract?re - ModalitØ
Pour dØcrire une population on classe les individus qui la composent en un certain nombre de sous-ensembles. Le classement peut se faire relativement un ou plusieurs caract?res. Par exemple, pour dØcrire la population algØrienne on pourra retenir les caract?res sexe, ge, Øtat matrimonial, catØgorie socioprofessionnelle, etc. S il s agit du personnel d une entreprise, le sexe et l ge restent des caract?res intØressants et on pourra y rajouter la profession, la quali cation, etc.
Le choix d un caract?re dØtermine le crit?re qui servira classer les individus de la population en deux ou plusieurs sous-ensembles. Le nombre de ces derniers correspond aux di?Ørentes situations possibles ou modalitØs du caract?re. A n que le classement d un individu soit toujours possible sans ambigu tØ, les di?Ørentes modalitØs d un caract?re doivent Œtre la fois exhaustives et incompatibles. Un individu ne doit appartenir qu un et un seulement des sous-ensembles obtenus. Ainsi, le caract?re sexe a deux modalitØs qui dØterminent dans une population le sous-ensemble des individus masculins et le sous-ensemble des individus fØminins. Le nombre de modalitØs selon lesquelles on consid?re un caract?re est xØ plus ou moins conventionnellement.
1.1.3 Tableau statistique
L Øtude d une population suivant un seul caract?re est rØsumØe dans un tableau statistique une seule dimension ou simple entrØe, dont chaque case correspond l une des modalitØs du caract?re. Dans chacune de ces derni?res on y inscrit le nombre d individus prØsentant cette modalitØ. Mais une population peut aussi Œtre ØtudiØe simultanØment suivant deux ou plusieurs caract?res. Le nombre de cases, donc de sous-ensembles incompatibles et exhaustifs, est alors Øgal au produit du nombres de modalitØs des di?Ørents caract?res. Ainsi, le croisement du caract?re sexe avec le caract?re Øtat matrimonial (en deux modalitØs) nous donne le tableau suivant :
Etat Matr/Sexe | Homme | Femme |
MariØ | H. mariØes | F. mariØes |
Non MariØ | H.n. mariØes | F.n. mariØes |
Il est possible de croiser trois caract?res, quatre caract?res ou plus. Ainsi, on obtient des tableaux statistiques trois, quatre dimensions ou plus. Mais en pratique, on ne peut croiser un trop grand nombre de caract?res, car le nombre de cases du tableau augmente tr?s vite et son utilisation devient fastidieuse.
1.2 Les di?Ørents types de caract?res
Un caract?re peut Œtre qualitatif ou quantitatif. Les mØthodes d analyse d une population di??rent suivant la nature du caract?re ØtudiØ.
1.2.1 Caract?re qualitatif
De nition 3 Un caract?re qualitatif est un caract?re dont les modalitØs Øchappent la mesure.
Remarque 4 On ne peut pas quanti er numØriquement les caract?res qualitatifs, on ne peut que les constater. Par exemple, le sexe, la nationalitØ, la profession, etc.
Example 5 ConsidØrons la rØpartition par nationalitØ des Øtrangers vivants en France (en Milliers) :
Nat. | All | Bene | Esp | Ita | Pol | Port | Autres Eu | Alg | Mar | Tun | Autres Etr |
Nb | 25 | 60 | 120 | 80 | 100 | 210 | 140 | 650 | 310 | 60 | 420 |
1.2.2 Caract?re quantitatif
De nition 6 Un caract?re est quali Ø de quantitatif lorsqu il est mesurable ou repØrable.
De nition 7 A chaque unitØ statistique ou individu correspond un nombre reprØsentant la mesure ou la valeur du caract?re. Cette mesure est alors appelØe variable statistique et est notØe en gØnØralx.
Remarque 8 Les modalitØs du caract?re sont les valeurs possibles ou ensemble de variation de la variable statistique.
Une variable statistique peut Œtre discr?te ou continue.
Variable statistique discr?te
De nition 9 Une variable statistique est dite discr?te lorsqu elle ne peut prendre que des valeurs isolØes dans son intervalle de variation.
Remarque 10 Les valeurs prises par une variable discr?te sont en gØnØral des valeurs enti?res, par exemple le nombre d enfants charge dans une famille.
Example 11 ConsidØrons la rØpartition du nombre de ventes d un certain type d appareil sur les jours ouvrables de l annØe. Soitx la variable statistique "le nombre de ventes par jour ouvrable" :
Nombre de ventesx | 1 | 2 | 3 | 4 | 5 | 6 | |
Nombre de joursni | 24 | 57 | 75 | 53 | 33 | 7 | 4 |
Variable statistique continue
De nition 12 Une variable statistique est dite continue lorsqu elle peut prendre toutes les valeurs l intØrieur de son intervalle de variation.
Remarque 13 Le nombre des valeurs possibles d une variable statistique continue est toujours in ni. Ainsi, on prendra pour modalitØs du caract?re des classes de valeurs.
Example 14 La taille, le poids, l ge d une personne. La durØe de vie d une lampe, la distance sØparant deux points.
Remarque 15 Souvent, la distinction entre variable statistique continue et variable statistique discr?te est di¢ cile. Par exemple, toute mesure est discr?te du fait de sa prØcision limitØe, alors que la nature intrins?que de la variable statistique est continue (par exemple le diam?tre d une pi?ce usinØe).
RØciproquement, une variable de nature discr?te pouvant prendre un tr?s grand nombre de valeurs possibles, est considØrØe comme une variable statistique continue et ainsi ses valeurs sont regroupØes en classes.
Example 16 Le salaire d un ouvrier, les bØnØ ces annuels des entreprises, la date de naissance d une personne, la note d un Øtudiant, le diam?tre d une pi?ce usinØe.
1.2.3 Notion de classe
Pour Øtudier une variable statistique continue on divise son ensemble de variation en intervalles ou classes de valeurs ayant une amplitude constante ou variable.
Example 17 La variable " ge" est souvent dØcoupØe en classes quinquennales : 0 moins de 5 ans, de 5 ans moins de 10 ans, etc.
Remarque 18 Le choix du nombre de classes et de leur amplitude se fait en fonction de l e?ectif de la population et de la prØcision des mesures. Les e?ectifs des classes doivent Œtre signi catifs pour Øliminer les variations accidentelles qui apparaissent lorsqu on consid?re de trop faibles e?ectifs. Par ailleurs, le nombre de classes doit aussi Œtre su¢ sant et leurs amplitudes pas trop grandes pour ne pas masquer certaines particularitØs de la distribution statistique. Toute diminution inconsidØrØe du nombre de classes ou toute augmentation exagØrØe des amplitudes de celles-ci, induit une perte d information.
En conclusion, on remarque que la statistique descriptive porte sur une population sur laquelle aucun mod?le statistique n est dØ ni a priori. On ne dispose que d un ensemble de mesures sans structuration a priori.
Chapitre 2 Les distributions statistiques une dimension
Apr?s la dØ nition du caract?re Øtudier sur la population, les observations obtenues sont ordonnØes et forment ainsi une distribution statistique. Les distributions les plus simples sont naturellement celles relatives un seul caract?re. Elles sont gØnØralement prØsentØes sous forme de tableaux statistiques simple entrØe. L information synthØtisØe dans un tableau statistique n est pas souvent facile obtenir par simple lecture. Alors la reprØsentation de cette distribution statistique sous forme de diagramme rend plus simple l acc?s cette information. Selon que le caract?re ØtudiØ soit qualitatif ou quantitatif, et suivant qu il soit de nature discr?te ou continue, on est amenØ utiliser des reprØsentations graphiques de di?Ørents types.
2.1 PrØsentation gØnØrale des tableaux statistiques
ConsidØrons une population P composØe de n individus. Sur chacun de ces individus on e?ectue une observation concernant un caract?re C. Supposons que le caract?re C admet k modalitØs :
M1;M2;:::;Mk
L opØration prØliminaire est la mise en ordre des observations. Cela consiste classer chacun des n individus de la population dans les k sous-ensembles dØ nis par les diverses modalitØs du caract?re C. Pour chaque modalitØ Mi, i = 1;2;:::;k , on inscrira dans le tableau statistique le nombre d ØlØments (i.e. le cardinal) du sous-ensemble de la population correspondant.
De nition 19 Le cardinal du sous-ensemble de la population correspondant la modalitØMi est appelØ e?ectif ou frØquence absolue et est notØni.
Remarque 20 Tous les individus de la population prØsentant la modalitØMi sont considØrØs comme Øquivalents relativement au caract?reC. On ne retient alors que leur nombre.
De nition 21 La frØquence relativefi de la modalitØMi est dØ nie par le rapport :
Remarque 22 La frØquencefi est la proportion des individus de la population prØsentant la modalitØMi. Alors, les frØquences permettent de comparer les structures des populations d e?ectifs di?Ørents relativement un caract?re commun. Les modalitØs sont incompatibles, i.e. deux modalitØs distinctes d un caract?re donnØ ne peuvent pas Œtre prØsentes chez un mŒme individu en mŒme temps . Elles sont aussi exhaustives, i.e. chaque individu de la population est classØ dans un et un seul sous-groupe correspondant une modalitØ. Donc chaque observation gure dans un et un seul sous-groupe de la population.
ConsØquence
La somme des e?ectifs ni est Øgale l e?ectif total n de la population , i.e.
Alors, il en rØsulte que la somme des frØquences relatives fi est Øgale 1 , i.e.
Un tableau statistique dØcrivant une population P relativement un caract?re C, sera prØsentØ sous la forme gØnØrale suivante :
ModalitØs du caract. C | E?ectifs ni |
M1 | n1 |
M2 | n2 |
::: | ::: |
Mi | ni |
::: | ::: |
Mk | nk |
2.2 Les distributions caract?re qualitatif
La prØsentation d un tableau statistique concernant un caract?re qualitatif suit les r?gles gØnØrales. Une premi?re synth?se de l information contenue dans un tableau statistique est fournie par un graphique. Le principe de la reprØsentation graphique des caract?res qualitatifs est la proportionnalitØ des surfaces reprØsentatives aux e?ectifs (ou aux frØquences) reprØsentØs. Il existe deux types de reprØsentations frØquemment utilisØes.
2.2.1 ReprØsentation par tuyaux d orgue
Cette reprØsentation fait gurer les di?Ørentes modalitØs du caract?re sous forme de rectangle ou de cylindres dont la base est constante et dont la hauteur est proportionnelle l e?ectif (ou la frØquence).
Remarque 23 GØnØralement, les di?Ørentes modalitØs sont ordonnØes sur le graphique dans le sens des e?ectifs croissants ou dØcroissants.
Example 24 Reprenons l exemple 5 et a¢ chons la reprØsentation par tuyaux d orgue de la distribution des Øtrangers en France.
Fig. 2.1 RØpartition par tuyaux d orgues des Øtrangers en France
2.2.2 ReprØsentation par secteur
Dans cette reprØsentation les aires et par consØquent les angles au centre sont proportionnels aux e?ectifs (ou aux frØquences) des di?Ørentes modalitØs. En e?et,
Example 25 Mieux que les tuyaux d orgue, ce mode de guration permet de visualiser l importance relative de chaque modalitØ dans l ensemble de la population. Pour des comparaisons dans l espace, la reprØsentation par secteur permet de mieux faire appara tre les di?Ørences entre les classes d individus en valeurs absolues et en valeurs relatives.
Example 26 Reprenons l exemple 5 et a¢ chons la reprØsentation par secteur de la distribution des Øtrangers en France.
Fig. 2.2 ReprØsentation par secteur des Øtrangers en France
2.3 Les distributions caract?re quantitatif
2.3.1 Variable discr?te
Tableau statistique
Les di?Ørentes modalitØs sont constituØes par les valeurs possibles xi de la variable statistique x. En face de chacune de ces valeurs on inscrit l e?ectif ni correspondant. Pour permettre les comparaisons entre populations d e?ectifs di?Ørents, le tableau est complØtØ par l indication de la frØquence relative fi correspondant chaque valeur xi.
De nition 27 La frØquence cumulØe croissante, notØeFi, est la somme des frØquences correspondantes aux valeurs de la variable statistique infØrieures ou Øgalesxi, i.e.
La distribution statistique d une variable quantitative discr?te est en gØnØral prØsentØe dans un tableau statistique tel que :
Modalites | Effectifs | Frequences | Frequences cumulees |
x1 | n1 | f1 | F1 = f1 |
x2 | n2 | f2 | F2 = f1 + f2 |
::: | ::: | ::: | ::: |
xi | ni | fi | Fi = f1 + f2 + ::: + fi |
::: | ::: | ::: | ::: |
xk | nk | fk | Fk = 1 |
Total | n | 1 |
Tableau statistique : variable discr?te
Remarque 28 La frØquence cumulØe croissanteFi indique la frØquence ou la proportion des individus de la population pour lesquels la variable statistiquex est infØrieure ou Øgalexi.
De nition 29 L e?ectif cumulØ croissant, notØNi, est dØ ni, similairement la frØquence cumulØe croissante, par la formule suivante :
Proposition 30 La frØquence cumulØe croissante et l e?ectif cumulØ croissant sont liØs par la relation :
DØmonstration : En e?et,
De nition 31 Il est parfois utile de dØ nir les e?ectifs cumulØs dØcroisants, notØs , tels que :
Ni0 = nk + nk 1 + ::: + ni
Remarque 32 L e?ectifs cumulØ dØcroissant est le rØsultat de l addition, de proche en proche, des e?ectifs d une distribution observØe en commen ant par le dernier e?ectif, i.e.
En d autres termes, est le nombre d individus prØsentant une mesure du caract?rex infØrieure ou Øgalexi, i.e.
nombre de valeurs dex xi
Il est clair que l on peut dØ nir les frØquences cumulØes dØcroissantes, notØes Gi, telles que :
Example 33 ConsidØrons la distribution des jours d ouverture d un magasin suivant le nombre de ventes d un certain appareilA.
Nombre de ventesxi | nombre de jours | fi | Ni | Fi |
24 | 0;096 | 24 | 0;096 | |
1 | 57 | 0;228 | 81 | 0;324 |
2 | 75 | 0;300 | 156 | 0;624 |
3 | 53 | 0;212 | 209 | 0;836 |
4 | 33 | 0;132 | 242 | 0;968 |
5 | 4 | 0;016 | 246 | 0;984 |
6 | 3 | 0;012 | 249 | 0;996 |
7 | 1 | 0;004 | 250 | 1;00 |
Totaux | 250 | 1 |
ReprØsentation graphique Dans le cas des sØries statistiques discr?tes il existe deux types de reprØsentations graphiques.
La reprØsentation en diagramme en b tons
De nition 34 La reprØsentation en diagramme en b tons est la reprØsentation de la distribution des frØquences ou des e?ectifs d une variable discr?te. A chaque valeurxi portØe en abscisse on fait correspondre un segment vertical de longueur proportionnelle l e?ectifni ou la frØquencefi de cette valeur.
Example 35 Reprenons l exemple prØcØdent et reprØsentons la distribution des jours de l annØe en fonction du nombre de ventes.
Fig. 2.3 ReprØsentation en diagramme en bat ns
Courbe cumulative
De nition 36 La courbe cumulative est la reprØsentation graphique des effectifs cumulØs ou des frØquences cumulØes. C est un graphique en escalier dont les paliers horizontaux ont pour ordonnØes respectivementFi ouNi. Les marches de l escalier correspondent aux valeurs possiblesxi de la variable statistiquex et sont des hauteurs proportionnelles aux e?ectifs cumulØs ou aux frØquences cumulØes.
Fig. 2.4 Courbe cumulative
Example 37 Reprenons l exemple 31 et tra ons la courbe cumulative de la distribution des jours de l annØe en fonction du nombre de ventes.
Remarque 38 La courbe cumulative est la reprØsentation graphique de la proportionF(x) des individus de la population pour lesquels la valeur de la variable statistique est infØrieure ou Øgalex . Cette fonction, dØ nie pour toute valeur dex , est appelØe fonction cumulative ou fonction de rØpartition. Elle est constante dans chaque intervalle sØparant deux valeurs de la variable statistique, i.e.F(x) = Fi,xi x < xi+1, elle est nulle pour toutes les valeurs dex infØrieures la plus petite valeur desxi et est Øgale 1 pour toutes les valeurs dex supØrieures la plus grande valeur desxi . On peut aussi dØ nir la fonction de rØpartition de la variable statistiquex, notØe aussiF(x), comme la ligne brisØe qui joint les milieux des paliers de la courbe cumulative.
Example 39 On reprend l exemple prØcØdent et on trace la fonction de rØpartition sur le graphe de la courbe cumulative.
Fig. 2.5 Fonction de rØpartition
2.3.2 Variable continue
Tableau statistique
Dans le cas d un caract?re quantitatif continu x, l Øtablissement du tableau de frØquences implique d e?ectuer au prØalable une rØpartition en classes des donnØes. Cela nØcessite de dØ nir le nombre de classes attendu et donc l amplitude associØe chaque classe ou intervalle de classe. En r?gle gØnØrale, on choisit des classes de mŒme amplitude. Pour que la distribution des frØquences ait un sens, il faut que chaque classe comprenne un nombre (ni) su¢ sant de valeurs. Diverses formules empiriques permettent d Øtablir le nombre de classes pour un Øchantillon de taille n. Les plus frØquemment utilisØes sont :
La r?gle de Sturge : Nombre de classes = 1 + (3;3lnn)
La r?gle de Yule : Nombre de classes = 2;54p4n
L amplitude a des classes est obtenue de la mani?re suivante :
avec xmax et xmin respectivement la plus grande et la plus petite valeur de x dans la sØrie statistique.
Les modalitØs du caract?re sont reprØsentØes par les di?Ørentes classes. Si l on dØsigne respectivement par ei1 et ei les extrØmitØs infØrieure et supØrieure de la classe n i , on dØ nit cette derni?re comme suit :
ei 1 x < ei
Remarque 40 Les frØquences et les frØquences cumulØes sont dØ nies de la mŒme fa on que dans le cas discret, ainsi que les e?ectifs et les e?ectifs cumulØs.
En gØnØral, les rØsultats des observations d une variable statistique continue x sont disposØs dans un tableau statistique tel que :
Classe n i | Lim des classes | ni | fi | Ni | Fi | |
1 | e0 x < e1 | n1 | f1 | N1 | F1 | |
2 | e1 | x < e2 | n2 | f2 | N2 | F2 |
3 | e2 | x < e3 | n3 | f3 | N3 | F3 |
::: | ::: | ::: | ::: | ::: | ::: | |
i | ei | 1 x < ei | ni | fi | Ni | Fi |
::: | ::: | ::: | ::: | ::: | ::: | |
k | ek | 1 x < ek | nk | fk | Nk = n | Fk = 1 |
Total | k ni = n i=1 | k fi = 1 i=1 |
Tableau statistique : Cas continu
ReprØsentation graphique
Comme pour les variables discr?tes il existe pour les variables statistiques contines deux types de reprØsentations graphiques utilisØs frØquemment. Histogramme
De nition 41 L histogramme est la reprØsentation graphique de la distribution des e?ectifs ou des frØquences d une variable statistique continue. A chaque classe de valeurs de la variable statistique portØe en abscisse, on fait correspondre un rectangle basØ sur cette classe. Alors chaque modalitØ est reprØsentØe par un rectangle dont l aire (et non la hauteur) est proportionnelle la frØquence ou l e?ectif de cette classe.
Remarque 42 En gØnØral les classes de valeurs ont la mŒme amplitude. Mais dans le cas contraire, on prendra pour unitØ d amplitudeu leP:G:C:D des di?Ørentes amplitudesai = ei ei1. Ensuite, on exprime l amplitude des classes dans la nouvelle unitØ telle que :
Par suite, la hauteur du rectangle reprØsentatif de chaque classe sera Øgale de telle sorte que la surface du rectangle soit Øgale la frØquence de
la classe correspondante, i.e.
Example 43 ConsidØrons la rØpartition des ouvriers d une entreprise suivant leur salaire mensuel net :
Classe de Salaire(DA) | ni | fi | Ni | Fi |
12000 x < 14000 | 26 | 0;186 | 26 | 0;186 |
14000 x < 16000 | 33 | 0;235 | 59 | 0;421 |
16000 x < 20000 | 64 | 0;458 | 123 | 0;879 |
20000 x < 24000 | 7 | 0;050 | 130 | 0;929 |
24000 x < 30000 | 10 | 0;071 | 140 | 1;000 |
Total | 140 | 1;000 |
Tra ons l histogramme des frØquences de cette distribution.
Fig. 2.6 Histogramme des frØquences
De nition 44 La courbe des frØquences est la fonction en escalier dont les paliers sont constituØs par les bases supØrieures des rectangles formant l histogramme des frØquences.
De nition 45 Le polyg ne des frØquences est la ligne brisØe qui relie les milieux des cotØs supØrieurs des rectangles de l histogramme des frØquences.
Example 46 Reprenons l exemple de la rØpartition des ouvriers d une entreprise suivant leur salaire mensuel net et tra ons la courbe des frØquences et le polyg ne des frØquences de cette distribution.
Fig. 2.7 Courbe des frØquences et polyg ne des frØquences
Au moment de l Øtude des lois de probabilitØ on comprendra mieux la signi cation de cette courbe des frØquences. Elle reprØsente une approximation (ou estimation) de la distribution de probabilitØ thØorique de la population relativement au caract?re ØtudiØ.
Courbe cumulative
De nition 47 Comme pour les variables discr?tes, la coube cumulative ou histogramme des frØquences cumulØes, est la reprØsentation graphique de la fonction cumulative ou fonction de rØpartitionF(x).
Les observations Øtant regroupØes en classes, on ne connait de cette fonction que les valeurs correspondant aux extrØmitØs supØrieures des classes, i.e.
F (ei) = Fi i = 1;2;:::;k
Elle est estimØe par le polyg ne des frØquences cumulØes qui est la ligne brisØe joignant les milieux des cotØs supØrieurs des rectangles de l histogramme des frØquences cumulØes.
Remarque 48 Dans une certaine littØrature on parle de frØquence "cumulØe descendante"Gi et de frØquence "cumulØe ascendante"Fi. Cette dØnomination implique une confusion. En e?et, on a tendance admettre implicitement queGi est Øgale 1 Fi, ce qui n est le cas. Par contre, quand on parle de fonction cumulativeF(x) qui est dØ nie sur l ensemble R en entier et telle que et, on peut dØ nir la fonctionG(x) telle que :
G(x) = 1 F(x)
Ainsi, sachant que alors, i.e. l intersection des fonctionsF(x) etG(x) a lieu au point d abscissex = Me. L utilitØ de la fonctionG(x) intervient dans la dØtermination graphique de la mØdiane condition que les tracØs deF(x) etG(x) soient tr?s prØcis.
Example 49 Repenons l exemple 41 et tra ons l histogramme des frØquences cumulØes et le polyg ne des frØquences cumulØes.
Fig. 2.8 Histogramme et polyg ne des frØquences cumulØes
Conclusion 50 La notion de courbe des frØquences (resp. la courbe des frØquences cumulØes) dØcoule de l idØe suivante : si les amplitudes des classes diminuent et si le nombre des observations est su¢ samment grand pour Øviter les irrØgularitØs dues la faiblesse des e?ectifs, alors l histogramme des frØquences (resp. l histogramme des frØquences cumulØes) tend, en tant que fonction en escalier, vers une courbe continue appelØe courbe des frØquences (resp. courbe des frØquences cumulØes) et qui, la limite, converge vers la densitØ de la distribution thØorique (resp. la fonction de rØpartition thØorique) de la population.
Example 51 On a mesurØ la taille en centim?tres d une population de 8585 hommes. Les rØsultats sont rØsumØs dans le tableau suivant :
x | x < 145 | [145;148[ | [148;151[ | [151;154[ | [154;157[ | [157;160[ | [160;163[ | ||||||||
ni | 2 | 4 | 14 | 41 | 83 | 169 | 394 | ||||||||
Ni | 2 | 6 | 20 | 61 | 144 | 313 | 707 | ||||||||
[163;166[ | [166;169[ | [169;172[ | [172;175[ | [175;178[ | [178;181[ | [181;184[ | |||||||||
669 | 990 | 1223 | 1329 | 1230 | 1063 | 640 | |||||||||
1376 | 2366 | 3589 | 4918 | 6148 | 7211 | 7851 | |||||||||
[184;187[ | [187;190[ | [190;193[ | [193;196[ | [196;199[ | [199;202[ | 202 x | |||||||||
392 | 202 | 84 | 33 | 16 | 5 | 2 | |||||||||
8243 | 8445 | 8529 | 8562 | 8578 | 8583 | 8585 | |||||||||
En tra ant la courbe des frØquences de cette distribution statistique, on peut remarquer que l allure de cette courbe a une forme qui se raproche tr?s nettement de celle d une courbe normale. De mŒme, si on trace la courbe des frØquences cumulØes de cette distribution, on remarque que son allure est tr?s voisine de celle de la fonction de rØpartition d une loi normale.
.
Fig. 2.9 Courbe des frØquences
Fig. 2.10 Courbe des frØquences cumulØes
Chapitre 3 CaractØristiques de tendance centrale
La reprØsentation graphique des distributions statistiques a permis une premi?re synth?se de l information contenue dans les tableaux statistiques. On peut comparer les di?Ørentes sØries statistiques par simple comparaison de leurs reprØsentations graphiques. Cette comparaison reste toutefois incommode et devient quasi-impossible si elle doit porter sur un grand nombre de distributions statistiques. Il est inconcevable de classer 1500 candidats un concours de grandes Øcoles au vu de la reprØsentation graphique des 1500 sØries de 25 notes obtenues aux diverses Øpreuves par chaque candidat. Il est Øvidemment plus commode de calculer une note moyenne pour chacun des candidats et ensuite faire un classement. La tendance centrale caractØrise l ordre de grandeur de la variable statistique. Quant la notion de dispersion, elle mesure la uctuation des observations autour de cette tendance centrale. Le statisticien Yule a prØcisØ les propriØtØs souhaitables que doit satisfaire une caractØristique de tendance centrale ou de dispersion : elle doit Œtre dØ nie de fa on objective; elle doit dØpendre de toutes les observations; elle doit avoir une signi cation concr?te; elle ne doit pas Œtre sensible aux uctuations d Øchantillonnage; elle doit Œtre simple calculer et doit se prŒter aisØment au calcul algØbrique.
Trois caractØristiques de tendance centrale sont couremment utilisØes : le mode, la mØdiane et la moyenne arithmØtique. Dans certains cas, usage d autres caractØristiques de tendance centrale telles que la moyenne gØomØtrique ou la moyenne harmonique, s impose. Mais la caractØristique de tendance centrale la plus couramment utilisØe est la moyenne arithmØtique.
3.1 Les di?Ørentes caractØristiques de tendance centrale
3.1.1 Le mode
De nition 52 Le mode d une distribution statistique, qu on noteraMo, est la valeur de la variable statistique pour laquelle la frØquence est la plus grande.
Remarque 53 Le mode est donc la valeur de la variable statistique la plus frØquente.
DØtermination graphique
Lorsque la variable est discr?te le mode est dØ ni avec prØcision. Si, par exemple, deux valeurs successives de la variable statistique ont la mŒme frØquence maximum, on dit qu il y a un intervalle modal dont les extrØmitØs correspondent ces deux valeurs.
DØtermination du mode : variable discr?te
Lorsque la variable est continue, la dØtermination du mode est beaucoup moins prØcise car les frØquences dØpendent du dØcoupage en classe. L utilisation de la courbe des frØquences ajustØe sur l histogramme, bien que peu prØcise, conduit une bonne estimation du mode dans le cas oø les classes sont d Øgale amplitude.
DØtermination du mode : variable continue
Il est possible d Øtablir une formule d interpolation linØaire pour le calcul exacte du mode dans le cas d une rØpartition en classes d amplitude quelconque.
3.1.2 Calcul du mode pour une distribution en classes d innØgales amplitudes
ConsidØrons une sØrie statistique continue regroupØe en classes d amplitudes inØgales. Le mode est alors dØterminØ l intØrieure de la classe modale (correspondant la frØquence ou l e?ectif le plus grand). On peut identi er le mode comme la valeur mØdiane de la classe modale ou bien e?ectuer une interpolation linaire pour obtenir la valeur exacte du mode comme suit :
(3.1)
oø
ei1 est la limite infØrieure de la classe modale
ai est l amplitude de la classe modale ni est l e?ectif de la classe modale ni1 est l e?ectif de la classe infØrieure la plus proche de la classe modale ni+1 est l e?ectif de la classe supØrieure la plus proche de la classe modale En adoptant les notations suivantes :
m = ni ni 1 et s = ni ni+1
la relation (3:1) peut Œtre prØsentØe telle que :
Example 54 Soitx la variable statistique « taille d une exploitation (en ha) » . Les rØsultats d observations sont rØsumØs dans le tableau statistique suivant :
x | ni | Ni |
]0;2[ | 2 | 2 |
[2;6[ | 20 | 22 |
[6;21[ | 80 | 102 |
[21;41[ | 50 | 152 |
[41;81[ | 98 | 250 |
[81;121[ | 30 | 280 |
280 |
La valeur du mode est calculØe telle que :P
- Valeur approchØe :
La classe modale [41;81[ est d e?ectifni = 98, d oø
Mo = 61 hectares
- Valeur exacte :
On utilise la formule d interpolation linaire :
hectares
avecei1 = 41,ai = 40, m = 98 50 = 48 et s = 98 30 = 68
Remarque 55 Une distribution de frØquences peut prØsenter un seul mode (distribution unimodale) ou plusieurs modes (distribution bi ou trimodale).
PropriØtØs
Les principaux avantages du mode font qu il est facile dØterminer et qu il a une signi cation immØdiate. Par contre sa dØtermination n est pas assez prØcise dans le cas continu. Elle dØpend en partie du dØcoupage en classes. Ainsi, il est sensible aux uctuations d Øchantillonnage et se prŒte tr?s mal au calcul algØbrique.
3.1.3 La mØdiane
De nition 56 La mØdiane d une distribution statistique, notØeMe, est la valeur de la variable statistique telle que le nombre des observations qui prØsentent une valeur infØrieureMe soit Øgal au nombre des observations qui prØsentent une valeur supØrieureMe.
Remarque 57 La mØdiane partage en deux e?ectifs Øgaux les observations rangØes par ordre croissant ou dØcroissant. La mØdiane est la valeurMe de la variable statistique pour laquelle la frØquence cumulØe est Øgale , i.e.
DØtermination pratique
Cas d une variable discr?te
Dans une sØrie statistique composØe de 2k + 1 observations et disposØe par ordre croissant ou dØcroissant, la valeur de la (k + 1)ieme observation correspond la mØdiane.
Example 58 ConsidØrons une sØrie statistique composØe de 9 mesures :
18;17;13;9;8;24;19;23;28. Alors, la sØrie disposØe par ordre croissant donne : 8;9;13;17;18;19;23;24;28. Donc la mØdiane estMe = 18.
Dans le cas d une sØrie statistique comportant 2k observations, il n y a pas proprement parler de mØdiane. Ainsi, on introduit la notion d intervalle mØdian dont les extrØmitØs correspondent aux valeurs de la kieme et de la (k + 1)ieme observations.
Example 59 Supposons que la sØrie statistique soit : 8;9;13;15;17;18;19;23;24;28. On convient de retenir pour valeur mØdiane la valeurMe telle que :
i.e telle que :
Graphiquement cette dØtermination est simple partir de la courbe des e?ectifs cumulØs ou celle des frØquences cumulØes.
Example 60 ConsidØrons une distribution statistique reprØsentØe par le tableau suivant :
xi | 1 | 2 | 3 | 4 | 5 | 6 | |
Ni | 24 | 81 | 156 | 205 | 240 | 248 | 250 |
Fi | 0;096 | 0;324 | 0;624 | 0;820 | 0;960 | 0;992 | 1;00 |
DØtermination graphique de la mØdiane : variable discr?te
Cas d une variable continue
Dans le cas d une variable statistique continue la mØdiane est dØ nie avec exactitude. Mais, en raison du regroupement par classe on ne peut gØnØralement que la situer l intØrieur d une classe qu on quali era de classe mØdiane.
De nition 61 La classen i est une classe mØdiane si :
DØtermination exacte de la mØdiane La solution de l Øquation est tr?s simple graphiquement. On va montrer que la valeur de Me est la mŒme que celle obtenue par le calcul algØbrique.
Proposition 62 L estimation de la valeur exacte de la mØdiane peut Œtre obtenue par interpolation linØaire l intØrieur de la classe mØdiane l aide de la relation suivante :
oøei1est la borne infØrieure de la classe mØdianeai est l amplitude de la classe mØdiane
Ni1est l e?ectif cumulØ de la classe prØcØdant la classe mØdianeni est l e?ectif de la classe mØdianen est l e?ectif total de la population ØtudiØe
DØmonstration : ConsidØrons la gure suivante :
DØtermination graphique de la mØdiane : variable continue
Alors, en utilisant quelques propriØtØs de gØomØtrie euclidienne on remarque que :
OM = OA0 + A0M
Mais en vertu du thØor?me de Thal?s :
d oø
et par suite
En rempla ant ces quantitØs par leurs mesures algØbriques, on obtient :
D oø
PropriØtØs La mØdiane rØpond assez bien la plupart des conditions de Yule. Elle s interpr?te aisØment et se calcule facilement. Elle dØpend de l ensemble des observations. La valeur de la mØdiane n est pas in uencØe par les observations aberrantes. Mais elle est sensible aux uctuations d Øchantillonnage et elle se pr?te mal au calcul algØbrique en tant que solution de
.
3.1.4 La mØdiale
De nition 63 La mØdiale est la valeur de la variable statistique qui divise en deux la somme des valeurs de la variable.
Example 64 ConsidØrons la rØpartition des employØs d une entreprise selon leur salaire mensuel net.
Salaires (euros) | ni | Fi | Somme des salaires | FQi :Part cumu:des salaires |
[800;900[ | 25 | 0,212 | 21250 | 0,164 |
[900;1000[ | 30 | 0,466 | 28500 | 0,385 |
[1000;1100[ | 28 | 0,703 | 29400 | 0,613 |
[1100;1500[ | 25 | 0,915 | 32500 | 0,865 |
[1500;2000[ | 10 | 1 | 17500 | 1 |
118 | 129150 |
P
Alors, la mØdiale est dØterminer par interpolation dans la classe [1000;1100[, i.e.
euros
Par comparaison, la mØdiane est dØterminØe par interpolation telle que :
euros
Remarque 65 La mØdiale ne peut Œtre infØrieure la mØdiane. La mØdiale est d autant supØrieure la mØdiane que la distribution est plus concentrØe.
Dans l exemple, l Øcart mØdiale mØdiane = 1050;4 1014;3 = 36;1 euros.
D oø, le ratio
3.2 La moyenne arithmØtique
De nition 66 La moyenne arithmØtique d une variable statistiquex, notØex, est Øgale la somme des valeurs prises par cette variable divisØe par le nombre des observations.
Example 67 Les 8 ouvriers d une petite entreprise ont per u en janvier 1990 les salaires suivants : 7500;8300;9100;9600;10700;11300;12000;12500 D:A. Le salaire moyen des ouvriers de cette entreprise en janvier 1990 est alors :
7500 + 8300 + 9100 + 9600 + 10700 + 11300 + 12000 + 12500
= 10125 D:A
8
3.2.1 Moyenne arithmØtique simple
De nition 68 ConsidØrons une sØrie statistique comportantn observationsx1;x2;:::;xi;:::;xn. Alors la moyenne arithmØtique simple est calculØe l aide de l expression suivante :
Remarque 69 A chaque valeur prise par la variable statistique correspond un seul individu. Cette moyenne arithmØtique est dite simple par opposition la moyenne arithmØtique pondØrØe.
3.2.2 Moyenne arithmØtique pondØrØe
Example 70 Reprenons l exemple prØcØdent et supposons que les 8 ouvriers
de l entreprise aient per u les salaires suivants : 8300;8300;9600;9600;9600;10800;10800; 12500 D:A. Le calcul du salaire moyen peut Œtre e?ectuØ comme prØcØdemment. Cependant, on aurait pu prØsenter les observations dans un tableau statistique tel que :
Salairex | E?ectifni |
8300 | 2 |
9600 | 3 |
10800 | 2 |
12500 | 1 |
Total | 8 |
Il serait bien entendu erronØ de dire que le salaire moyen des ouvriers est :
8300 + 9600 + 10800 + 12500
= 10300 D:A
4
Les salaires doivent Œtre pondØrØs par les e?ectifs correspondants, et donc :
2 8300 + 3 9600 + 2 10800 + 12500
x = = 9937;50 D:A
8
La moyenne ainsi calculØe est appelØe moyenne arithmØtique pondØrØe. Les coe¢ cients de pondØration sont les frØquences absolues des di?Ørentes valeurs de la variable statistique. Ce type de calcul de la moyenne est naturellement utilisØ dans le cas d observations regroupØes en classe.
De nition 71 Soitx une variable statistique pouvant prendre lesk valeursx1;x2;:::;xi;:::;xk auquelles correspondent respectivement lesk frØquences absolues ou e?ectifsn1;n2;:::;ni;:::;nk. Alors la moyenne arithmØtique pondØrØe de cette variable a pour expression :
Remarque 72 x peut aussi s Øcrire :
oøfi reprØsente la frØquence relative des di?Ørentes valeurs de la variable statistique. Lesfi,i = 1;2;:::;ksont appelØs coe¢ cients de pondØration.
3.3 Calcul pratique de la moyenne arithmØtique
3.3.1 Cas d une variable discr?te
Example 73 Reprenons l exemple du nombre de ventes d un certain type d appareil par jour ouvrable. Le nombre moyen de ventes n est autre que la moyenne arithmØtique des ventes. Pour calculer cette moyenne, il est toujours possible d utiliser directement la formule de la dØ nition. Mais souvent on utilise le tableau statistique oø l on dispose les di?Ørentes Øtapes des calculs tel que :
xi | ni | nixi |
24 | ||
1 | 57 | 57 |
2 | 75 | 150 |
3 | 53 | 159 |
4 | 33 | 132 |
5 | 7 | 35 |
6 | 4 | 24 |
Totaux | k i=1 i = 253 n | k i=1 ixi = 557 n |
P P
Alors,
Le nombre moyen de ventes par jour ouvrable est donc 2;20.
Souvent les calculs qui rØsultent de l application de la formule de dØ nition sur les valeurs brutes, peuvent s avØrer assez fastidieux. Il est alors possible d allØger ces calculs en procØdant une transformation des donnØes brutes, par exemple en choisissant une nouvelle origine x0 pour la variable statistique x. On dØ nit ainsi une nouvelle variable appelØe variable auxiliaire telle que :
(3.2)
ThØor?me 74 En adoptant le changement d origine, on obtient la mŒme relation entrex etx, i.e :
x0 = x x0
DØmonstration : En e?et, chaque valeur xi correspond une nouvelle valeur. Et d apr?s (3:2) on a :
(3.3)
Et en sommant les k Øquations (3:3), on obtient :
Comme, alors en divisant par n les deux membres de l ØgalitØ ci-dessus, il vient :
D oø
x0 = x x0
Remarque 75 Ainsi on pourra calculerx0 et en dØduirex.
Example 76 Reprenons l exemple 84 ci-dessus et prenons pour nouvelle originex0 = 2. La variable auxiliaire est alors dØ nie par :
x"i = xi 2
On obtient ainsi le tableau statistique suivant :
xi | ni | ||
24 | 2 | 48 | |
1 | 57 | 1 | 57 |
2 | 75 | ||
3 | 53 | 1 | 53 |
4 | 33 | 2 | 66 |
5 | 7 | 3 | 21 |
6 | 4 | 4 | 16 |
Totaux | k i=1 i = 253 n |
P P
Alors,.
D oøx = x0 + 2 = 2;20
3.3.2 Cas d une variable continue
La distribution d une variable statistique continue est prØsentØe, en gØnØral, sous forme de classes. La formule de dØ nition de la moyenne ne peut Œtre appliquØe directement car on ne connait pas les valeurs exactes prises par la variable statistique, mais seulement le nombre d observations l intØrieur de chaque classe. On supposera alors que les observations sont rØparties uniformØment dans chaque classe. C est dire n importe quelle valeur l intØrieur de la classe peut reprØsenter cette derni?re. Par convention et sans trop de perte d information, on prendra le centre de la classe comme reprØsentant. Cette convention implique un biais systØmatique dans le calcul de la moyenne. Le centre de la classe n i sera notØ en gØnØral Xi, et il est donnØ par la relation suivante :
oø ei et ei1 dØsignent respectivement la borne supØrieure et la borne infØrieure de la classe n i.
Ainsi on est ramenØ au calcul de la moyenne arithmØtique dans le cas d une variable discr?te que l on peut e?ectuer directement partir de la dØ nition ou en utilisant une variable auxiliaire.
Example 77 Reprenons la distribution des ouvriers d une entreprise suivant leur salaire mensuel.
On prendra pour origine le centre de la classe modale, i.e.XMo = 18000. On remarque aussi que les nombresi = Xi 18000,i = 1;2;:::;ksont divisibles par 1000. Donc on prendra pour variable auxiliaire telle que :
Les calculs seront toujours disposØs dans un tableau du genre ci-dessous :
Classe de Salaire | ni | Xi | Xi0 | ||
12000 x < 14000 | 26 | 13000 | 2 | 52 | |
14000 x < 16000 | 33 | 15000 | 1 | 33 | |
16000 x < 20000 | 64 | 18000 | |||
20000 x < 24000 | 7 | 22000 | 1 | 7 | |
24000 x < 30000 | 10 | 27000 | 2 | 20 | |
Total | 140 | 58 |
D oø P

0;414
Et par consØquent
X = 1000X0 + 18000 17586 D:A
D une fa on gØnØrale, le choix d une nouvelle origine XMo et d une nouvelle Øchelle de mesure u va permettre de rØduire le volume des calculs. On dØ nit une variable auxiliaire Xi0 par la transformation linØaire :
(3.4)
oø XMo est, en gØnØral, le centre de la classe modale et u est le PGCD des amplitudes de classes.
En suivant le mŒme raisonnement que pour le cas discret, on remarque que si l on adopte le changement de variable (3:4) il existe la mŒme relation entre
X et X0, i.e.
X = uX0 + XMo
3.3.3 PropriØtØs de la moyenne arithmØtique
La moyenne arithmØtique rØpond assez bien l ensemble des conditions de Yule. Elle se pr?te facilement au calcul algØbrique et a une signi cation concr?te. Mais elle est sensible aux uctuations d Øchantillonnage.
La somme algØbrique des Øcarts des observations la moyenne est nulle, i.e.
En e?et
La somme des carrØs des Øcarts des observations la moyenne est infØrieure la somme des carrØs des Øcarts par rapport toute autre valeur. En e?et, soit :
oø S(b) est un polyn me du second degrØ en b.
Le polyn me S(b) est minimum au point oø sa dØrivØe par rapport b est nulle, i.e.
D oø
Et par consØquent
La moyenne x d une population composØe de deux sous-populations P1 de moyenne x1 et P2 de moyenne x2, s exprime simplement en fonction de x1 et x2.
Supposons que la population P poss?de un e?ectif de n individus, et que les sous-populations P1 et P2 ont des e?ectifs respectifs n1 et n2 tels que n1+n2 = n. Soit n1i le nombre d individus de la sous-population P1 prØsentant la modalitØ xi du caract?re et soit n2i le nombre d individus prØsentant la mŒme modalitØ dans la sous-population P2. Donc, dans la population P l e?ectif des individus prØsentant la modalitØ xi est ni = n1i + n2i. D autre part
et
Alors, la moyenne x de la population est :
D oø
Donc la moyenne de la population totale apparait comme la moyenne pondØrØe des moyennes des sous populations. Plus gØnØralement, pour h populations on a :
Positions respectives du mode, de la mØdiane et de la moyenne arithmØtique
Pour les distributions symØtriques on a :
x = Me = Mo
Pour les distributions asymØtriques on a deux situations selon que la distribution est plus plate gauche qu droite et vice versa :
x < Me < Mo ou bien Mo < Me < x
3.4 Autres types de moyennes
En plus de la moyenne arithmØtique, il existe d autres types de moyennes. On les rencontre beaucoup moins frØquemment, mais leur utilisation est cependant recommandØe dans certains cas.
3.4.1 Moyenne gØomØtrique
De nition 78 La moyenne gØomØtrique simple d une sØrie de valeursx1;x2;:::;xn, notØeG, est dØ nie par :
(3.5)
Remarque 79 En prenant le logarithme de la relation (3:5), on obtient une autre formule pour la moyenne gØomØtrique simple :
(3.6)
Example 80 ConsidØrons une sØrie de neuf nombres : 18;17;13;9;8;24;19;23;28. Leur moyenne gØomØtrique est alors :
On peut aussi calculer la moyenne gØomØtrique en utilisant la formule (3:6).
En e?et
AlorselnG = e2;795 = 16;36
De nition 81 Soitx une variable statistique pouvant prendre lesk valeursx1;x2;:::;xn. On dispose d une sØrie statistique de taillen comportantn1foisx1,n2foisx2, ,nk foisxk. Alors la moyenne gØomØtrique pondØrØe est donnØe par l expression :
(3.7)
Remarque 82 En prenant le logarithme dans la formule (3:7) on obtient une autre expression pour la moyenne gØomØtrique pondØrØe :
(3.8)
Par ailleurs, la formule (3:7) peut aussi s Øcrire : !
oø est la frØquence de la modalitØxi.
3.4.2 PropriØtØs de la moyenne gØomØtrique
ConsidØrons deux sØries statistiques de mŒme taille n, de deux variables statistiques x et y :
x1;x2;:::;xn et y1;y2;:::;yn
Formons les produits zi = xiyi, i = 1;2;:::;n et calculons moyenne gØomØtrique G(z) de ces produits :
Donc la moyenne gØomØtrique du produit xy est Øgale au produit de moyennes gØomØtriques de x et de y.
Formons les rapports et calculons leur moyenne gØomØtrique G(q) telle que :
Donc la moyenne gØomØtrique du rapport est le rapport des moyennes gØomØtriques de x et de y.
3.4.3 Moyenne harmonique
De nition 83 La moyenne harmonique d une sØrie de valeursx1;x2;:::;xn, notØeH, est dØ nie par l expression :
Example 84 Reprenons l exemple 88 et calculons la moyenne harmonique :
Example 85 Un spØculateur a consacrØ pendant 4 annØes la mŒme sommeS l achat de lingots d or aux prix respectifs 5400; 5500; 5800 et 6400 Ule kg. Le prix moyen d achat du kilogramme d or par le spØculateur n est pas la moyenne arithmØtique. En e?et, la dØpense totale e?ectuØe par le spØculateur est 4S. La premi?re annØe il a achetØ kg d or, la deuxi?me annØe kg d or, etc. Au total il a achetØ la quantitØ d or suivante :
Le prix d achat moyen du kg d or est donc :
De nition 86 ConsidØrons une variable statistique pouvant prendre les valeursx1;x2;:::;xk. Et supposons que l on a obtenu rØalisations de cette variable avec les e?ectifs respectifsn1;n2;:::;nk tels que Pi=1ni = n. Alors la moyenne harmonique pondØrØe est donnØe par l expression suivante :
Example 87 Une entreprise de transport poss?de 10 camions qui font la rotation entre un endroitA et un endroitB. Au cours d une de ces rotations le trajetAB (distanceD) a ØtØ couvert par ces vØhicules aux vitesses moyennes suivantes :
Vitesse Moy (Km/h) 40 60 70
Nombre de camions 3 5 2
Au total les camions ont parcouru une distance 10D. Pour couvrir le trajet
AB, 3 camions ont mis un temps camions un temps et les deux autres un temps. Au total le tempsT mis par l ensemble des camions pour parcourir la distance 10Da ØtØ :
Donc, pour l ensemble des camions la vitesse moyenneV a ØtØ :
3.4.4 GØnØralisation de la notion de moyenne
Toutes les moyennes ØtudiØes ont ØtØ dØ nies suivant un principe commun. En e?et, pour le calcul de chaque type de moyenne les observations ont ØtØ introduites sous une forme particuli?re. Par exemple, pour la moyenne harmonique ce fut l inverse des observations, pour la moyenne gØomØtrique ce fut leur logarithme. D une mani?re gØnØrale, la dØ nition d une moyenne fait intervenir une fonction f des observations.
De nition 88 Soit’(x) une fonction monotone de la variable statistiquex. On appelle’ moyenne le nombreC dØ ni tel que :
(3.9)
Remarque 89 A partir de cette dØ nition gØnØrale on retrouve facilement les formules des di?Ørentes moyennes :
1. Si on consid?re la fonction. D apr?s la relation (3:9),’(H) = est la moyenne harmonique. Alors
2. Si on prend’(x) = lnx, alors on retrouve la moyenne gØomØtrique :
3. La fonction IdentitØf(x) = xredonne, bien entendu, la moyenne arithmØtiquex :
4. A partir de cette formule gØnØrale on peut construire de nouvelles exemple, si on consid?re la fonction’(x) = x2, on dØ nit ainsi la moyenne quadratiqueMQ :
3.4.5 PropriØtØs comparØes des di?Ørentes moyennes
De toutes les moyennes c est certainement la moyenne arithmØtique qui rØpond le mieux aux conditions de Yule. En particulier, elle est d un calcul aisØ et rapide, et sa signi cation est facile concevoir. Les moyennes arithmØtique et quadratique sont in uencØes par les ØlØments le plus frØquents de la sØrie. Au contraire, les moyennes hamonique et gØomØtrique tendent rØduire l in uence des valeurs les plus frØquentes en faveur des valeurs les plus rares. Les moyennes harmonique H, gØomØtrique G, arithmØtique x et quadratique MQ d une mŒme sØrie statistique sont, en gØnØral, classØes dans l ordre suivant :
H G x MQ
Example 90 Pour la sØrie des nombres 18;17;13;9;8;24;19;23 et 28, les di?Ørents types de moyennes sont telles que :
H = 14;97 G = 16;36 x = 17;66 MQ = 18;78
Chapitre 4 Les caractØristiques de dispersion
Les caractØristiques de dispersion les plus frØquemment utilisØes sont l Øtendue, l intervalle interquartile, l Øcart absolu moyen, la variance et l Øcarttype. Ces deux derni?res caractØristiques sont les plus couramment utilisØes. Le calcul de l indice de concentration peut Œtre recommandØ dans certains cas. L Øtendue et l intervalle interquartile sont, dans leur principe, du type de la mØdiane. Les observations y interviennent par leurs rangs et non par leurs valeurs. L Øcart absolu moyen et l Øcart-type, au contraire, font intervenir l Øcart la moyenne arithmØtique de chacune des observations. Ceux sont des moyennes d Øcart la moyenne. L indice de concentration repose, quant lui, sur un principe tout fait di?Ørent.
4.1 Les di?Ørentes caractØristiques de dispersion
4.1.1 L Øtendue
De nition 91 L Øtendue d une distribution statistique, notØew, est la diffØrence entre la plus grande et la plus petite des valeurs observØes, i.e.
w = x(n) x(1)
oøx(n) = max(xi) etx(1) = min(xi).i i
PropriØtØs
La signi cation de l Øtendue est Øvidente et son calcul est immØdiat. Mais cette caractØristique prØsente des inconvØnients. Elle ne dØpend que des termes extr?mes de la sØrie et elle est donc tr?s sensibles aux uctuations d Øchantillonnage. La forme de la distribution entre les extr?mes n est pas prise en compte. Donc, l Øtendue est une caractØristique de dispersion imparfaite.
4.1.2 Les quartiles et l intervalle interquartile
Pour remØdier aux inconvØnients de l Øtendue, on a pensØ minimiser l in uence des termes extr?mes de la sØrie sur le calcul de la caractØristique de dispersion. Pour cela, on dØ nit les quartiles Q1, Q2 et Q3. Ces derniers sont les valeurs de la variable statistique telles que, les observations Øtant rangØes par ordre croissant, un quart de celles-ci est infØrieur Q1, un quart est compris entre Q1 et Q2, un quart compris entre Q2 et Q3, et le dernier quart est supØrieur Q3. En d autres termes Q1, Q2 et Q3 sont les valeurs de la variable statistique pour lesquelles la fonction cumulative est respectivement est telle que :
F (Q1) = 0;25 ; F (Q2) = 0;50 et F (Q3) = 0;75
Remarque 92 Le deuxi?me quartileQ2est donc Øgal la mØdiane.
De nition 93 On appelle intervalle interquartile, notØIQ, la di?Ørence entre les valeurs du troisi?me et du premier quartile, i.e.
IQ = Q3 Q1
Remarque 94 L intervalle interquartile est donc l intervalle qui contient 50% des observations tout en laissant 25% sa droite et 25% sa gauche.
DØtermination pratique des quartiles
Le quartile se dØtermine de la mŒme mani?re que la mØdiane. Soit il est dØterminØ graphiquement partir de la courbe des e?ectifs cumulØs ou celle des frØquences cumulØes, Soit il est calculØ par interpolation linØaire. La formule de dØtermination des quartiles est la mŒme que celle utilisØe pour la dØtermination de la mØdiane Me = Q2. En e?et,
oø eh1 est la borne infØrieure de la classe contenant le quartile n h, h =
1;2;3;4 ah est l amplitude de la classe contenant le quartile n h, h = 1;2;3;4 Nh1 est l e?ectif cumulØ de la classe prØcØdant celle contenant le quartile n h, h = 1;2;3;4 nh est l e?ectif de la classe contenant le quartile n h, h = 1;2;3;4 n est l e?ectif total de la population ØtudiØe
PropriØtØs
Les avantages de l intervalle interquartile sont la rapiditØ de son calcul et sa signi cation immØdiate. Sa dØtermination n est pas prØcise et il se pr?te mal au calcul algØbrique.
Diagramme en bo te (ou bo te moustaches) Il s agit d un diagramme permettant de positionner les quartiles Q1, Q2, Q3, au moyen de rectangles de largeur arbitraire, prolongØs par des "moustaches" de part et d autre, de longueur au plus Øgale une fois et demie Q3Q1.
Si la plus petite ou la plus grande valeur observØe se trouvent l intØrieur, on raccourcit les moustaches correspondantes; si elles se trouvent l extØrieur, on positionne part les valeurs "aberrantes" qui dØpassent des moustaches :
Ces diagrammes sont surtout utiles pour comparer rapidement l allure gØnØrale de plusieurs distributions.
4.1.3 GØnØralisation de la notion de quartile
Les dØciles
Pour obtenir les quartiles on a divisØ en quatre parties Øgales l e?ectif de la sØrie statistique prØalablement ordonnØe par ordre croissant. Les dØciles, au nombre de 9, sØparent l e?ectif de la population ØtudiØe en 10 parties Øgales. Le premier dØcile D1 est tel que des observations lui est infØrieur et d une fa on gØnØrale des observations est compris entre deux dØciles successifs et on a :
F (D1) = 0;1 ; F (D2) = 0;2 ; F (D3) = 0;3 ;:::; F (D9) = 0;9
Remarque 95 Les dØciles sont dØterminØs de la mŒme mani?re que les quartiles. La formule de dØtermination des dØciles est la mŒme que celle utilisØe pour la dØtermination de la mØdianeMe = Q2. En e?et,
oøeh1est la borne infØrieure de la classe contenant le dØcilen h,h = 1;2;::: ahest l amplitude de la classe contenant le quartilen h,h = 1;2;::: Nh1est l e?ectif cumulØ de la classe prØcØdant celle contenant le dØcilen h,h = 1;2;:::
nh est l e?ectif de la classe contenant le quartilen h,h = 1;2;::: n est l e?ectif total de la population ØtudiØe
Les percentiles
Pour des sØries comportant su¢ samment d observations on peut dØ nir les percentiles tels que 1% des observations est compris entre deux percentiles successifs, i.e.
F (P1) = 0;01 ; F (P2) = 0;02 ;:::; F (P99) = 0;99
Les quantiles
Plus gØnØralement, on peut dØ nir les quantiles.
De nition 96 Le quantile d ordre (0 1), notØq , est la solution de l ØquationF(x) = . Ainsi, en dØsignant parF1la fonction inverse de la fonctionF on a alors :
q = F1 ( )
Remarque 97 Une proportion des individus de la population poss?de un caract?reC de mesure infØrieureq .
4.1.4 L Øcart absolu moyen
De nition 98 Soitx une variable statistique pouvant prendre lesk valeursx1;x2;:::;xk auxquelles correspondent les e?ectifs respectifsn1;n2;:::;nk. L Øcart absolu moyen, notØe, est alors la moyenne arithmØtique des valeurs absolues des Øcarts la moyenne arithmØtique, i.e.
PropriØtØs
L Øcart absolu moyen satisfait assez bien aux premi?res conditions de Yule. Mais il se pr?te tr?s mal au calcul algØbrique. L Øcart absolu moyen est minimum lorsqu on prend les Øcarts par rapport la mØdiane.
4.1.5 La variance et l Øcart-type
L Øcart-type sera dØ ni partir des carrØs des Øcarts des observations leur moyenne arithmØtique. On dØterminera de cette fa on une sorte de distance moyenne des observations la moyenne arithmØtique. Cette distance, au sens mathØmatique du terme, servira comme mesure de dispersion de la variable statistique autour de sa caractØristique de tendance centrale.
De nition 99 ConsidØrons une variable statistiquex pouvant prendrek valeursx1;x2;:::;xk auxquelles correspondent les e?ectifsn1;n2;:::;nk tels que
k
i=1ni = n. Alors la variance de la variable statistiquex , notØeV ar(x) ou bien2x, est la moyenne arithmØtique des carrØs des Øcarts la moyenne arithmØtique :
De nition 100 L Øcart-type, notØx, est Øgal la racine carrØe de la variance :
Remarque 101 L Øcart-type est appelØ parfois Øcart quadratique moyen (EQM).
Example 102 ConsidØrons la sØrie des salaires horaires de sept ouvriers d une entreprise : 30;45;51;62;70;78;84 D.A. Alors
x = 60 D:A
Les Øcarts la moyenne arithmØtique (xi x) sont : 30; 15; 9;2;10;18;24. Leurs carrØs (xi x)2sont : 900;225;81;4;100;324;576.
D oø
et x = pV ar (x) = p315;71 = 17;76 DA
4.2 Calcul pratique de la variance et de l Øcarttype
Les calculs de la moyenne arithmØtique et de l Øcart-type vont gØnØralement de pair. On conservera le tableau dØj utilisØ dans le calcul de la moyenne.
4.2.1 Cas d une variable discr?te
Calcul au moyen de la formule brute
Example 103 ConsidØrons le tableau statistique suivant et calculons l Øcarttype.
xi | ni | nixi | xi x | ni (xi x)2 |
1 | 25 | 25 | 2;18 | 136;81 |
2 | 55 | 110 | 1;18 | 76;582 |
3 | 75 | 225 | 0;18 | 2;43 |
4 | 50 | 200 | 0;82 | 33;62 |
5 | 35 | 175 | 1;82 | 115;934 |
6 | 10 | 60 | 2;82 | 79;524 |
Totaux |
L e?ectifnP= 250 etx = 3;P18, alors P
V ar(x) = 2x = 1;78 et x = p1;78 = 1;335
Notons que mŒme pour une distribution statistique aussi simple que celle ØtudiØe, le calcul de l Øcart-type est assez long et fastidieux
Calcul au moyen de la formule dØveloppØe
Il est possible de dØvelopper la formule de dØ nition de la variance telle que :
D oø
(4.1)
Remarque 104 La relation (4:1) est appelØe formule dØveloppØe de la variance.
Remarque 105 Reprenons l exemple 111 et calculons l Øcart-type :
xi | ni | nixi | nix2i |
1 | 25 | 25 | 25 |
2 | 55 | 110 | 220 |
3 | 75 | 225 | 675 |
4 | 50 | 200 | 800 |
5 | 35 | 175 | 875 |
6 | 10 | 60 | 360 |
Totaux |
Alors ,x = 3;18PetV ar(x) = 2x P= 11;82 (3;18)2 P= 1;71.
D oø
x = p1;71 = 1;31
Remarque 106 Le rØsultat ainsi obtenu est plus prØcis que celui obtenu par la mØthode prØcØdente, car l approximation n intervient qu travers le termex. Il est encore possible de simpli er les calculs en utilisant une translation d origine.
Calcul avec changement de variable
ConsidØrons le changement de variable (changement d origine) suivant :
(4.2)
Nous avons dØj Øtabli qu il existe la mŒme relation entre x0 et x, i.e.
x0 = x x0 (4.3)
D oø, en retranchant les relations (4:2) et (4:3) membre membre, on obtient :
Par suite, et d apr?s la dØ nition de la variance :
ThØor?me 107 La valeur de l Øcart-type est invariante par translation sur l origine de la variable statistique.
Example 108 On consid?re toujours l exemple 111. Prenons pour nouvelle origine de la variable statistiquex0 = 3 et considØrons le changement de variablex0i = xi 3. On obtient alors le tableau statistique suivant :
xi | ni | x0i | nix0i | nix0i2 |
1 | 25 | 2 | 50 | 100 |
2 | 55 | 1 | 55 | 55 |
3 | 75 | |||
4 | 50 | 1 | 50 | 50 |
5 | 35 | 2 | 70 | 140 |
6 | 10 | 3 | 30 | 90 |
Totaux |
Alors,x0 = 0;18Pd oøx = 0;18 + 3 = 3P;18 P
Et
V ar (x") =
D oø
x = x0 = 1;3
4.2.2 Cas d une variable continue
Les observations l intØrieur d un mŒme intervalle sont reprØsentØes par la valeur mØdium Xi (centre de la classe n i) dØ nie telle que :
oø ei et ei1 dØsignent respectivement les extrØmitØs supØrieure et infØrieure de la classe n i.
Ainsi la variable Xi joue le mŒme r le qu une variable discr?te a?ectØe d un e?ectif Øgale au nombre des valeurs de la variable statistique appartenant l intervalle [ei1;ei[. On ram?ne ainsi le calcul de la moyenne et de l Øcarttype dans le cas continu celui utilisØ dans le cas discret. La moyenne est alors et la variance est . Dans la suite, on n Øtudiera que la mØthode de changement de variable.
Calcul avec changement de variable
Il est souvent intØressant de considØrer le changement de variable suivant :
(4.4)
oø u est le PGCD des amplitudes des classes et XMo est gØnØralement le centre de la classe modale.
D apr?s les rØsultats prØcØdents, il existe entre les moyennes X et X0 la mŒme relation que celle entre Xi et Xi0, i.e.
(4.5)
En retranchant les relations (4:4) et (4:5) membre membre, il vient :
Par suite, en rempla ant dans la dØ nition de 2X, on obtient :
D oø
2 2 2 X = uX0
ThØor?me 109 SiXi etXi0 sont en relation fonctionnelle telle queXi = , alorsX etX0 sont tels que :
X = u X0
Example 110 Reprenons l exemple 85 de la distribution des ouvriers d une entreprise suivant leur salaire mensuel.
Classe de Salaire | ni | Xi | Xi0 | ||
12000 x < 14000 | 26 | 13000 | 2 | 52 | 104 |
14000 x < 16000 | 33 | 15000 | 1 | 33 | 33 |
16000 x < 20000 | 64 | 18000 | |||
20000 x < 24000 | 7 | 22000 | 1 | 7 | 7 |
24000 x < 30000 | 10 | 27000 | 2 | 20 | 40 |
Total | 140 | 184 |
Le centre de la classe modale estXMo = 18000P. Alors le changement de
variable e?ectuØ est . Ainsi,X0 = 0;414 d oøX = 17586.
Par ailleurs,V ar (X0) = 2X0 = 1;143, d oø
X = 103 X0 = 1069
Correction de Sheppard
Lorsque les observations sont regroupØes par classe, l hypoth?se de la concentration au centre de la classe des observations se situant dans le mŒme intervalle (i.e. quand le centre de la classe est substituØ aux di?Ørentes valeurs observØes) implique une approximation dans le calcul de l Øcart-type. Pour le calcul de la moyenne arithmØtique en gØnØral les erreurs se compensent, alors que pour celui de l Øcart-type elles se rajoutent . Si la distribution statistique est unimodale et support compact (i.e. si la courbe de la distribution est tangente l axe des abscisses aux extrØmitØs), alors on peut corriger la valeur de l ecart-type calulØe partir des observations regroupØes en classe, avec la formule proposØe par W.F. Sheppard :
oø u reprØsente le PGCD de l amplitude des classes.
PropriØtØs de l Øcart-type
L Øcart-type satisfait assez bien l ensemble des conditions de Yule. Il tient compte de toutes les observations. Il se pr?te facilement au calcul algØbrique. C est la caractØristique de dispersion la moins sensible aux uctuations d Øchantillonnage.
PropriØtØs de la variance
La variance d une population P composØe de deux sous-populations P1 et P2 de moyennes respectives x1 et x2, et de variances respectives 21 et 22, peut s exprimer simplement en fonction de et 22. Supposons que l e?ectif de la population P soit n et que les e?ectifs des sous-populations sont respectivement n1 et n2 tels que :
n = n1 + n2 et ni = n1i + n2ii = 1;2;:::;k Par dØ nition, la variance de la sous-population P1 a pour expression :
Que l on peut mettre sous la forme :
(4.6)
De mŒme, la variance de la sous-population P2 a pour expression :
que l on peut mettre sous la forme :
(4.7)
Par ailleurs, la variance de la population P est dØ nie telle que :
!
Et d apr?s les relations (4:6) et (4:7), la vriance 2 peut Œtre Øcrite telle que :
Finalement
(4.8)
La relation (4:8) se gØnØralise aisØment une population constituØe d un nombre ni h quelconque de sous-populations. En e?et, en dØsignant par ni, i = 1;2;:::;h, les e?ectifs des sous-populations Pi tels que :
et La variance totale de la population P est alors :
Ainsi, on vient de dØmontrer le thØor?me suivant :
ThØor?me 111 La variance totale dans une population constituØe d un nombre ni quelconque de sous-populations, est une somme de la moyenne des variances dans les sous-populations et de la variance entre les sous-populations, i.e
oøxi,i = 1;2;:::;hest la moyenne arithmØtique dans la sous-populationn i,x est la moyenne arithmØtique de la population totale et2i ,i = 1;2;:::;hest la variance de la sous-populationn i
De nition 112 Le terme est appelØ variance intra-groupe et est notØe2intra. Le terme est appelØ variance inter-groupe et est notØ 2inter.
Remarque 113 La variance totale 2peut Œtre exprimØe alors telle que :
2 2 2
= intra + inter
D une mani?re gØnØrale, la variance d une population composØe de plusieurs sous-populations rØsulte de deux facteurs : la variabilitØ interne chaque sous-population et la variabilitØ entre les di?Ørentes sous-populations.
4.3 Autres caractØristiques d une distribution statistique
4.3.1 Coe¢ cient de variation
En gØnØral, l Øcart-type et la moyenne s expriment dans la mŒme unitØ de mesure que la variable statistique. Or, on peut avoir comparer des dispersions de distributions qui ne sont pas exprimØes dans la mŒme unitØ de mesure ou bien qui di??rent par leurs moyennes. Alors, on introduit une caractØristique de dispersion relative.
De nition 114 On appelle coe¢ cient de variation, et on noteCV , le rapport de l Øcart-type la moyenne arithmØtique, i.e.
CV =
x
Remarque 115 Le coe¢ cient de variation est un nombre sans dimension. Il est par consØquent indØpendant des unitØs de mesure choisies.
Example 116 Les distributions des salaires dans deux entreprises semblablesE1etE2ont les caractØristiques suivantes :
x1 = 19600 DA et 1 = 2500 DA
x2 = 18000 DA et 2 = 1400 DA
Les coe¢ cients de variation sont donc :
et
Supposons que l on dØsire comparer ces distributions avec celle observØe propos d une entreprise amØricaine comparable, avec les caractØristiques :
x = 2800 $ ; = 450 $
4.3.2 Courbe de concentration
La courbe de concentration exige comme pour la mØdiale, la connaissance pour chaque classe du nombre d observations et de la somme des valeurs correspondantes.
Soit Fi la frØquence cumulØe des observations et FQi le pourcentage cumulØ de la somme des valeurs. Alors, la courbe de concentration est obtenue en tra ant le graphe de FQi (ordonnØe) en fonction de Fi (abscisse). On obtient alors la courbe suivante :
Courbe de concentration ou courbe de Lorenz
Remarque 117 La courbe de concentration ou courbe de Lorenz est notamment utilisØe en Øconomie pour mesurer les inØgalitØs de possession de richesse (on supposera donc quex reprØsente un certain bien possØdØ par les individus de la population). Elle est fabriquØe de la fa on suivante. Soitxi une valeur prise parx. On noteF(x) la proportion de la population pour laquellex < xi (F est donc la courbe cumulative (fonction de rØpartition) dex). On noteFQ(xi) la proportion du bien possØdØ par ces individus par rapport au bien total. Alors la courbe de Lorenz est la courbe joignant tous les points (F(xi);FQ(xi)). La courbe de Lorenz joint donc toujours le point (0;0) au point (1;1). Elle est situØe sous le segment joignant ces deux points.
De nition 118 La diagonale du carrØ circonscrit la courbe de Lorenz s appelle droite d Øqui-rØpartition.
Remarque 119 La diagonale principale du graphique (droite d Øqui rØpartition) reprØsente une distribution parfaitement Øgalitaire. Plus la courbe de concentration s Øcarte de la droite d Øqui rØpartition, plus la distribution est inØgalitaire. D autre part, plus la dispersion est faible plus la courbe de concentration s applatit sur la diagonale.
4.3.3 Indice de concentration ou indice de Gini
C est une mesure de dispersion proposØe par le statisticien italien Corrado Gini. L indice de concentration ou indice de Gini, notØ G, est une mesure de dispersion relative d une sØrie statistique. Cette caractØristique ne s applique qu aux variables statistiques continues et valeurs positives. Son calcul exige la connaissance pour chaque classe du nombre d observations et de la somme des valeurs correspondantes. L indice de concentration est dØ ni en gØnØral partir de la courbe de Lorenz d une variable statistique positive x.
De nition 120 L indice de Gini d une distribution statistique est le double de l aire de la surface dØlimitØe par la courbe de Lorenz et la premi?re diagonale du carrØ unitØ.
Remarque 121 Du fait queF(x) etFQ(x) varient dans l intervalle [0;1] et qu ils sont nuls ou Øgaux 1 en mŒme temps, la courbe de concentration s inscrit dans un carrØ unitaire. Elle se situe en dessous de la diagonale du carrØ car, en gØnØral,F(x) est supØrieurFQ(x). L indice de Gini est toujours compris entre 0 et 1.
L indice de Gini est tr?s utilisØ en Øconomie comme mesure des inØgalitØs dans une population. Supposons par exemple que la variablex correspond aux revenus dans une population. Si l indice de Gini est proche de 0, ceci signi e que les di?Ørences relatives sont en moyenne faible par rapport la moyenne des revenus, i.e. les inØgalitØs dans la population sont faibles. Si l indice de Gini est proche de 1, au contraire il y a de fortes di?Ørences relatives en moyenne, i.e. les inØgalitØs sont fortes.
4.3.4 Calcul pratique de l indice de Gini
L aire comprise entre la courbe de Lorenz et la diagonale du carrØ est calculØe par approximation. Pour rappel, l aire d un trap?ze est telle que :
hauteur (petite base + grande base)
2
Pour obtenir l aire entre la courbe de Lorenz et la diagonale du carrØ, il faut soustraire l aire des trap?zes en dessous de la courbe de concentration 0;5.
Alors en posant F0 = FQ0 = 0 et Fk = FQk = 1 oø k est le nombre de classes, l idice de Gini est donnØ par la formule suivante : !
Que l on peut Øcrire aussi sous la forme :
Example 122 Reprenons l exemple de la rØpartition des employØs d une entreprise selon leur salaire mensuel net.
Salaires (euros) | ni | Fi | FQi | Fi Fi 1 | FQi 1 + FQi | (Fi | Fi 1)(FQi 1 + FQi) |
[800;900[ | 25 | 0;212 | 0;164 | 0;212 | 0;164 | 0;034768 | |
[900;1000[ | 30 | 0;466 | 0;385 | 0;254 | 0;549 | 0;139446 | |
[1000;1100[ | 28 | 0;703 | 0;613 | 0;237 | 0;998 | 0;236526 | |
[1100;1500[ | 25 | 0;915 | 0;865 | 0;212 | 1;478 | 0;313336 | |
[1500;2000[ | 10 | 1 | 1 | 0;085 | 1;865 | 0;158525 | |
118 | 0;882601 |
P
Fig. 4.1 Calcul de l indice de Gini
Alors, l indice de Gini est tel que :
G = 1 0;8826 0;117
4.4 Les caractØristiques de forme
En plus des caractØristiques de tendance centrale et de dispersion, il serait instructif de dØ nir des indices pour rØsumer l information vØhiculØe par les donnØes, sur l allure et la forme de la distribution d une sØrie statistique. Pour une distribution statistique symØtrique la moyenne, le mode et la mØdiane co ncident. Il est donc naturel de considØrer la dØviation de la moyenne par rapport au mode ou bien par rapport la mØdiane, comme mesure d asymØtrie de la distribution statistique. K. Pearson a proposØ comme mesure de l asymØtrie une quantitØ fonction du mode. Mais cette quantitØ est sujette l inconvØnient dØterminer le mode. Cependant, pour une large classe de distributions de frØquences, la mesure d asymØtrie peut Œtre dØterminØe exactement l aide des quatre premiers moments de la distribution.
De nition 123 Soitx1;x2;:::;xn une distribution statistique d une variablex. On appelle moment centrØ d ordrer de la variable statistiquex, notØr, la quantitØ dØ nie telle que :
4.4.1 Coe¢ cient d asymØtrie (skewness)
Une distribution statistique symØtrique a tous ses moments centrØs impairs nuls et a fortiori la moyenne 1.
De nition 124 Soit3et2les moments centrØs d ordre respectifs 3 et 2 de la distribution statistiques. On appelle caractØristique d asymØtrie le coe¢ cient1dØ ni tel que :
1 = = 3
2
Distributions asymØtriques
Distribution symØtrique
Remarque 125 Le coe¢ cient1est sans dimension, invariant par changement d origine et d Øchelle. Il est nul pour les distributions symØtriques. On utilise Øgalement comme indice d asymØtrie le rapport :
oøQ1etQ3sont les quartiles, etMe la mØdiane.
Pour les distributions unimodales1etd sont de mŒme signe et ils s annulent pour les distributions symØtriques.
4.4.2 Coe¢ cient d aplatissement (Kurtosis)
De nition 126 On appelle caractØristique d aplatissement le coe¢ cient2dØ ni tel que :
2 = 3 = 3
2
oø 4et 2sont les moments centrØs d ordre respectifs 4 et 2 dex.
Remarque 127 Le coe¢ cient2est sans dimension. Il est invariant par changement d origine et d Øchelle. La constante 3 est choisie de telle sorte que le coe¢ cient2soit nul pour les distributions normales.
Le coe¢ cient2est positif si la distribution est moins aplatie que la distribution normale et il est nØgatif dans le cas contraire.
Les courbes pour lesquelles2 = 0 sont dites mØsokurtiques, celles pour lesquelles2> 0 sont dites leptokurtiques et celles pour lesquelles2< 0 sont dites platicurtiques.
Du fait de l inØgalitØ422, le coe¢ cient d aplatissement est toujours supØrieur 2.
Chapitre 5 Distributions statistiques deux dimensions
Pour l Øtude de certains phØnom?nes complexes, il s av?re insu¢ sant de prendre en compte un seul caract?re. Alors il en faut considØrer deux caract?res ou plus. L analyse et la reprØsentation des tableaux statistiques obtenus deviennent Øvidemment plus complexes. La reprØsentation graphique, par exemple, n est possible que dans un espace trois dimensions au plus. En dØ nissant les distributions marginales et conditionnelles, on peut ramener la reprØsentation d une distribution plusieurs dimensions quelques reprØsentations unidimensionnelles. Dans la suite, on ne considØrera que les sØries statistiques deux dimensions.
5.1 PrØsentation gØnØrale d un tableau double entrØe
ConsidØrons une population de n individus. Chacun de ces derniers est identi Ø par deux caract?res A et B. Le caract?re A comporte k modalitØs A1;A2;:::;Ak et le caract?re B en comporte m , B1;B2;:::;Bm. L opØration prØliminaire consiste classer les n individus dans k m cases d un tableau oø gurent en ligne les modalitØs de A et en colonne les modalitØs de B. Dans chaque case (i;j);i = 1;2;:::;k et j = 1;2;:::;m, on inscrira le nombre nij des ØlØments du sous-ensemble de la population contenant les individus prØsentant simultanØment la modalitØ Ai du caract?re A et la modalitØ Bj du caract?re B.
Pour allØger les notations on indiquera par un point (.) la sommation e?ectuØe suivant l indice iou l indicej, i.e.
; i = 1;2;:::;k
:j ; j = 1;2;:::;m
Nous donnons ci-apr?s la forme gØnØrale d un tableau statistique double entrØe, appelØ aussi tableau de contingence :
A/B | B1 | B2 | ::: | Bj | ::: | Bm | Total |
A1 | n11 | n12 | n1j | n1m | n1: | ||
A2 | n21 | n22 | n2j | n2m | n2: | ||
::: | |||||||
Ai | ni1 | ni2 | nij | nim | ni: | ||
::: | |||||||
Ak | nk1 | nk2 | nkj | nkm | nk: | ||
Total | n:1 | n:2 | n:j | n:m | n:: = n |
Tableau statistique double entrØe
De nition 128 On appelle frØquence de l Øv?nement (Ai;Bj) la proportion des observations qui prØsentent simultanØment les modalitØsAi etBj. Elle est notØefij et est dØ nie telle que :
Remarque 129 Si on adopte les mŒmes conventions d Øcriture que pour les e?ectifs, en indiquant par un point les sommations e?ectuØes par rapport l indicei ou par rapport l indicej, alorsfi: est la somme des frØquences de la lignen i.
Proposition 130 Il est Øvident que d apr?s la dØ nition de la frØquencefi, on a :
et
DØmonstration :
et
Remarque 131 Comme pour les distributions un caract?re la somme des frØquences est Øgale l unitØ. En e?et ,
5.2 Distributions marginales
De nition 132 La sommation suivant les lignes ou les colonnes des e?ectifs ou des frØquences, dØ nit la distribution marginale du caract?reA ou celle deB respectivement.
Remarque 133 La distribution marginale est la distribution statistique de l un des caract?res indØpendamment de l autre. Elle est lue sur l une ou l autre des marges du tableau, d oø son nom. Par exemple, la distribution marginale associØe au caract?reA est :
n1:;n2:;:::;nk: ou bien f1:;f2:;:::;fk:
et la distribution marginale associØe au caract?reB est :
n:1;n:2;:::;n:m ou bien f:1;f:2;:::;f:m
Example 134 L Øtude d une population de 50 individus suivant le poids (caract?reB) et la taille (caract?reA), a donnØ les rØsultats suivants :
A/B | 60 | 70 | 80 | 90 | Marge | ||||||
160 | 2 | 5 | 4 | 1 | 12 | ||||||
170 | 2 | 8 | 9 | 4 | 23 | ||||||
180 | 4 | 6 | 5 | 15 | |||||||
Marge | 4 | 17 | 19 | 10 | 50 | ||||||
A/B | 60 | 70 | 80 | 90 | Marge | ||||||
160 | 0;04 | 0;10 | 0;08 | 0;02 | 0;24 | ||||||
170 | 0;04 | 0;16 | 0;18 | 0;08 | 0;46 | ||||||
180 | 0;00 | 0;08 | 0;12 | 0;10 | 0;30 | ||||||
Marge | 0;08 | 0;34 | 0;38 | 0;20 | 1;00 | ||||||
Les rØsultats peuvent Œtre rØsumØs dans un tableau statistique double entrØe en fonction des Ø?ectifs ou des frØquences relatives.
5.3 Distributions conditionnelles
De nition 135 ConsidØrons la sous population des individus prØsentant la modalitØBj. Sur cette sous-population la distribution du caract?reA est appelØe distribution conditionnelle deA sachantBj rØalisØ.
Remarque 136 ConsidØrons lesn:j individus prØsentant la modalitØBj. Parmi ceux-ci, il y a une proportion d individus qui prØsentent en mŒme temps la modalitØAi.
De nition 137 On dit que la frØquence conditionnelle de la modalitØAi liØe par la modalitØBi est :
j = 1;2;:::;m
Remarque 138 L ensemble des frØquences conditionnelles du caract?reA liØes la mŒme modalitØBj du caract?reB constitue la distribution conditionnelle deA sachantBj rØalisØ. C est une distribution un seul caract?re et il y a autant de distributions conditionnelles deA qu il y a de modalitØs deB, i.e. autant que de colonnes du tableau statistique.
De nition 139 On dØ nit de fa on analogue la distribution conditionnelle deB liØe par les modalitØsAi tel que :
i = 1;2;:::;k
Remarque 140 Les distributions conditionnelles conservent les mŒmes propriØtØs que les distributions statistiques normales, i.e.
Example 141 On reprend l exemple 55 et on dØtermine les distributions conditionnelles.
A/B | 60 | 70 | 80 | 90 |
160 | 0;50 | 0;30 | 0;211 | 0;10 |
170 | 0;50 | 0;47 | 0;474 | 0;40 |
180 | 0;00 | 0;23 | 0;315 | 0;50 |
Marge | 1;00 | 1;00 | 1;00 | 1;00 |
Distributions conditionnelles deA sachantBj;j = 1;2;3;4
B/A | 160 | 170 | 180 |
60 | 0;167 | 0;087 | 0;00 |
70 | 0;416 | 0;350 | 0;267 |
80 | 0;334 | 0;391 | 0;400 |
90 | 0;083 | 0;172 | 0;333 |
Marge | 1;00 | 1;00 | 1;00 |
Distributions conditionnelles deB sachantAi;i = 1;2;3;4
5.3.1 PropriØtØs des frØquences marginales et conditionnelles
Il est facile d Øtablir que :
fij = f (Bj/Ai)fi: = f (Ai/Bj)f:j = fj=ifi: = fi=jf:j
En e?et,
On retrouvera cette formule plus tard en calcul de probabilitØ sous le nom d axiome des probabilitØs conditionnelles.
Moyennes conditionnelles
Il nous est possible de dØ nir plus tard la notion de moyenne conditionnelle. Les moyennes conditionnelles sont les moyennes des distributions conditionnelles. On peut parler, par exemple, de la moyenne du caract?re B chez les individus prØsentant la modalitØ Ai, i = 1;2;:::;k du caract?re A ou bien de la moyenne du caract?re A prØsentant la modalitØ Bj, j = 1;2;:::;m du caract?re B.
5.4 ReprØsentations graphiques des distributions deux caract?res
Le mode de reprØsentation graphique d une distribution deux caract?res n est strictement possible que dans un espace trois dimensions. Chacun des caract?res est portØ sur une dimension et la troisi?me est a?ectØe aux e?ectifs ou aux frØquences.
5.4.1 Cas des caract?res qualitatifs
Il n est pas toujours possible de reprØsenter les deux caract?res de fa on absolument symØtrique. Cependant, on peut reprØsenter la famille des distributions conditionnelles A/Bj, j = 1;2;:::;m (ou bien B/Ai, i = 1;2;:::;k), de telle sorte que nij soit reprØsentØ par un rectangle de base n:j (ou ni:) et que la hauteur soit proportionnelle la frØquence conditionnelle fi=j (ou fj=i).
5.4.2 Cas des caract?res quantitatifs
Dans ce cas aussi on peut utiliser le mode de reprØsentation ØnoncØ plus haut. De plus, soient x et y les deux variables statistiques quantitatives discr?tes. Soit nij l e?ectif correspondant la modalitØ (xi;yj), on peut reprØsenter cet e?ectif par un cercle centrØ au point (xi;yj) et de surface proportionnelle nij.
De nition 142 La reprØsentation graphique d une distribution deux variables continues regroupØes par classes est appelØe stØrØogramme. C est un solide constituØ par un ensemble de parallØlØpip?des rectangles dont la base est formØe par les couples d intervalles de classe et dont les volumes sont proportionnels aux frØquencesfij ou aux e?ectifsnij.
Remarque 143 Le parallØlØpip?de relatif la classen i d amplitudeai dex, et la classen j d amplitudebi dey, a pour hauteur :
de telle sorte que le volume de ce parallØlØpip?de soit :
Ainsi le stØrØogramme appara t comme la gØnØralisation de l histogramme.
Example 144 Reprenons l exemple 55 et reprØsentons par un stØrØogramme la distribution du poids (caract?reB) et de la taille (caract?reA) des individus de la population.
ReprØsentation par stØrØogramme
5.5 Covariance entre deux variables statistiques
Dans le cas des variables statistiques deux dimensions, il est intØressant de pouvoir quanti er la variabilitØ de la population due l e?et conjuguØ des variables considØrØes simultanØment. Pour cela on introduit la notion de covariance.
5.5.1 Covariance
En gØnØral, la distribution des observations d une population suivant deux caract?res (x;y) sont disposØes dans un tableau de contingence, alors la covariance est dØ nie telle que :
De nition 145 Soit (x;y) un couple de variables statistiques pouvant prendre les valeurs (xi;yj),i = 1;2;:::;ketj = 1;2;:::;mavec les e?ectifs respectifs (nij),i = 1;2;:::;ketj = 1;2;:::;m. On appelle covariance des variables statistiquesx ety , notØeCov(x;y), la quantitØ dØ nie telle que :
Remarque 146 Pour le calcul pratique, on utilisera souvent la formule dØveloppØe de la covariance dØ nie telle que :
Dans certaines situations il arrive que que les observations d une population suivant deux caract?res (x;y) soient appariØes, i.e. les observations sont disponibles sous forme d une suite (xi;yi), i = 1;2;:::;n, alors dans cette situation la covariance est dØ nie telle que :
De nition 147 Soit (xi;yi),i = 1;2;:::;nune sØrie d observation d un couple de variables statistiques (x;y). On appelle covariance des variables statistiquesx ety , notØeCov(x;y), la quantitØ dØ nie telle que :
Remarque 148 Pour le calcul pratique, on utilisera souvent la formule dØveloppØe de la covariance dØ nie telle que :
5.5.2 Coe¢ cient de corrØlation
Il arrive souvent de vouloir comparer la variation d une variable statistique par rapport une autre dØ nie sur les mŒmes individus d une quelconque population. Mais ces variables ne s expriment pas souvent dans la mŒme unitØ. Pour cela on dØ nit le coe¢ cient de corrØlation qui est un coe¢ cient normalisØ sans dimension.
De nition 149 On appelle coe¢ cient de corrØlation de deux variables statistiquesx ety, et on le noteCorr(x;y) ou , la quantitØ dØ nie telle que :
Remarque 150 Le coe¢ cient de corrØlation est, une constante pr?s, le cosinus de l angle entre les vecteurs !xet !y.
PropriØtØ
Quelque soit le couple de variables statistiques (x;y) leur coe¢ cient de corrØlation = Corr (x;y) vØri e l inØgalitØ suivante :
1 = Corr (x;y) +1 (5.1)
Les ØgalitØs ont lieu si et seulement si il existe deux constantes a = 0 et b
telles que y = ax + b ou bien x = ay + b. 6
Example 151 Reprenons l exemple 55 et calculons la covariance et le coe¢ cient de corrØlation entre les caract?resAetB que l on noterasx ety respectivement.
Posons (Ai;Bj) = (xi;yj); i = 1;2;3 etj = 1;2;3;4. Alors :x = 170;6;y = 77;x = 7;32 ety = 8;77 Par ailleurs
D oø
Cov (x;y) = 19;8 et = Corr (x;y) = 0;3
5.5.3 Di?Ørents genres de corrØlation
CorrØlations positives
CorrØlation nulle
CorrØlations nØgatives
5.6 Ajustement linØaire ou droite des moindres carrØs
Soient x et y deux variables statistiques dØ nies sur la mŒme population. Les observations du couple (x;y) peuvent Œtre prØsentØes sous forme d une sØrie brute (xi;yi), i = 1;2;:::;n ou bien sous forme d un tableau de contingence. On sait (5:1) que si le coe¢ cient de corrØlation entre x et y est voisin
de +1 ou 1, il existe deux nombres rØels a = 0 et b tels que y = ax + b ou
bien x = ay + b. 6
De nition 152 Soientx ety deux variables statistiques dØ nies sur la mŒme population. L Øquationy = ax + b(rep.x = a0y + b0) est appelØe droite de rØgression ou ajustement linØaire dey enx (resp. dex eny).
Sachant que les constantes a et b existent, comment peut-on les dØterminer?
Les observations sur une population par rapport deux caract?res ou variables statistiques x et y nous fournissent une suite de couples (xi;yi), i = 1;2;:::;n. En gØnØral, en raison des erreurs de mesure, les points (xi;yi) ne sont pas alignØs, mais sont "presque" sur une mŒme droite. Il faut alors choisir a et b de sorte que la droite soit la meilleure possible. Pour cela, il faut choisir une mesure de l Øcart entre une droite y = ax + b et le nuage de points expØrimentaux (xi;yi). On choisit en gØnØral le carrØ de la di?Ørence entre le point thØorique et le point expØrimental, c est- -dire (yi (axi +b))2. L Øcart total est donc :
(5.2)
E?ectuer une rØgression linØaire, c est trouver la droite qui minimise l Øcart total, i.e. la somme des carrØs des di?Ørences. On parle alors de droite des moindres carrØs.
Proposition 153 Soientx ety deux variables statistiques dØ nies sur la mŒme population. La fonction numØrique dØ nie sur R2par l Øquation (5:2) admet un minimum au point (;) tel que :
DØmonstration : Le minimum de la fonction f(a;b) est obtenu au point (;) solution du syst?me d Øquations :
Nous allons considØrer deux situations.
A. Les observations sont prØsentØes sous forme d une sØrie statistique brute (i.e. elle n a pas ØtØ ordonnØe dans un tableau). On dit, en gØnØral, que c est une sØrie d observations couplØes.
Alors, et donc
Sachant que
et
et
On dØduit
Cov (x;y) + x:y a V ar (x) + x2 bx = 0 (5.3)
D autre part
Sachant que
et
On dØduit
y ax b = 0 (5.4)
B. Les observations sont prØsentØes dans un tableau de contingence.
Alors
Sachant que
et
et
On dØduit
Cov (x;y) + x:y a V ar (x) + x2 bx = 0 (5.5)
D autre part
Sachant que
et
On dØduit
y ax b = 0 (5.6)
La solution du syst?me d Øquations f(5:5);(5:6)g est le point (;) tel que :
= y x
f(5:5);(5:6)g sont les mŒmes. Donc, que l on utilise les donnØes brutes ou lesf g Remarque 154 Il est Øvident que les couples d Øquations (5:3);(5:4) et
donnØes disposØes dans un tableau de contingence, le minimum de la fonctionf(a;b) est le mŒme.
La quantitØ peut Œtre exprimØe telle que :
En e?et
On peut constater que la pente de la droite de rØgression est proportionnelle au ce¢ cient de corrØlation et est de mŒme signe. Le point de coordonnØes (x;y) appartient toujours la droite de rØgression.
Chapitre 6 Les sØries chronologiques
6.1 GØnØralitØs
De nition 155 On appelle sØrie chronologique ou temporelle une suiteYt,t = 1;2;3;:::, d observations chi?rØes et ordonnØes dans le temps d un mŒme phØnom?ne.
Example 156 Nombre mensuel de vente de voitures neuves. Nombre annuel de naissance en AlgØrie.
Remarque 157 Les dates d observations sont gØnØralement ordonnØes de mani?re rØguli?re dans le temps : on manipule des sØries journali?res, mensuelles, trimestrielles, annuelles. Plus gØnØralement, pour les sØries statistiques deux dimensions, lorsque l un des caract?res est le temps, la sØrie statistique est alors appelØe sØrie chronologique. Le deuxi?me caract?re est quelconque.
ReprØsentation graphique
Pour la reprØsentation graphique des sØries chronologiques un certain nombre de prØcautions doivent Œtre prises :
S il s agit d un stock de l e?ectif de la population une date dØterminØe, le point reprØsentatif se place exactement l aplomb de la date de rØfØrence.
S il s agit d un ux comme la production mensuelle d Ønergie Ølectrique par exemple, ou d une moyenne comme le prix moyen mensuel du kilogramme de pomme de terre par exemple, le point reprØsentatif sera alors placØ la verticale du milieu de la plage.
Le temps est toujours portØ en abscisse et le deuxi?me caract?re en ordonnØe.
On reprØsente les points (t;Yt), que l on relie par des segments de droites. On reprØsente l Øvolution de la grandeur considØrØe sur l ensemble de la pØriode observØe.
Example 158 ConsidØrons la sØrie trimestrielle du chi?re d a?aires en milliers de DA des ventes d un magasin de 1978 1982.
t | Yt |
1 | 2614 |
2 | 3010 |
3 | 2765 |
4 | 4856 |
5 | 3010 |
6 | 3397 |
7 | 3168 |
8 | 5624 |
9 | 3406 |
ReprØsentation graphique de Y(t)
6.2 Analyse empirique d une sØrie chronologique
6.2.1 DØcomposition d une sØrie chronologique
Le but de la dØcomposition d une sØrie chronologique est de distinguer dans l Øvolution de la sØrie, une tendance «gØnØrale» , des variations saisonni?res qui se rØp?tent chaque annØe, et des variations accidentelles imprØvisibles. L intØrŒt de ceci est d une part de mieux comprendre, de mieux dØcrire l Øvolution de la sØrie, et d autre part de prØvoir son Øvolution ( partir de la tendance et des variations saisonni?res).
La tendance ou trend
De nition 159 La tendance d une sØrie chronologique, notØeCt, est l Øvolution long terme de la sØrie ou l Øvolution fondamentale de la sØrie.
Example 160 L augmentation du chi?re d a?aire de 1978 2005.
Les variations saisonni?res ou saisonnalitØs
De nition 161 Les variations saisonni?res ou saisonnalitØs, notØsSt, sont des uctuations pØriodiques l intØrieur d une annØe, et qui se reproduisent de fa on plus ou moins permanente d une annØe sur l autre.
Example 162 Ces variations sont dues au rythme des saisons : climat, mati?res premi?res, congØs,
PropriØtØs
Les variations saisonni?res se caractØrisent par deux principes : Principe de rØpØtition l identique : Les variations saisonni?res sont pØriodiques de pØriode p (nombre de mois) :
St+p = St
Principe de conservation des aires : Par an, l in uence des variations saisonni?res est nulle. Cela sera traduit l aide de la moyenne des St.
Les variations accidentelles ou rØsiduelles
De nition 163 Les variations accidentelles ou rØsiduelles, notØes"t, sont des uctuations irrØguli?res et imprØvisibles. Elles sont supposØes en gØnØral de faible amplitude. C est la composante alØatoire d une sØrie chronologique.
Example 164 Les variations rØsiduelles proviennent de circonstances non prØvisibles : catastrophes naturelles, crise boursi?re, gr?ves
6.2.2 Les mod?les de composition des trois composantes
Le mod?le additif
De nition 165 Un mod?le additif suppose que les trois composantes : tendance, variations saisonni?res et variations accidentelles sont indØpendantes les unes des autres. La sØrieYt s Øcrit comme la somme de ces 3 composantes :
Yt = Ct + St + "t
Remarque 166 Graphiquement, l amplitude des variations est constante autour de la tendance. En e?et, si on joint les minima et les maxima de la sØrie chronologique on obtient deux droites parall?les la tendance.
Le mod?le multiplicatif
Il ya deux forme de mod?les multiplicatifs.
De nition 167 (1?re forme) Les variations saisonni?res sont supposØes dØpendre de la tendance. Alors, on consid?re queYt s Øcrit de la mani?re suivante :
Yt = Ct St + "t
Remarque 168 Graphiquement, l amplitude des variations (saisonni?res) varie. En e?et, en joignant les minima et les maxima de la sØrie chronologique on constate que les deux droites ne sont pas parall?les entre elles.
De nition 169 (2?me forme) On suppose que les variations saisonni?res et les variations accidentelles dØpendent de la tendance. Alors, on consid?re queYt s Øcrit de la mani?re suivante :
Yt = Ct St "t
Remarque 170 1) Dans le cas d une sØrie chronologiqueYt valeurs positives, le deuxi?me mod?le multiplicatif se ram?ne un mod?le additif en considØrant la sØrie des logarithmes deYt :
ln(Yt) = ln(Ct) + ln(St) + ln("t)
2) La seule di?Ørence entre les deux mod?les multiplicatifs rØside dans l estimation des"t, qui n a pas une grande importance pour l instant.
6.2.3 Choix du mod?le
MØthode de la bande
On utilise le graphe de la sØrie et la droite passant par les minima et celle passant par les maxima.
Si ces 2 droites sont peu pr?s parall?les : le mod?le est additif. Si ces 2 droites ne sont pas parall?les : le mod?le est multiplicatif.
MØthode du tableau de Buys et Ballot
On calcule, pour chacune des annØes, la moyenne et l Øcart type. On reprØsente les points d abscisse la moyenne et d ordonnØe l Øcart type de la mŒme annØe sur un plan. On trace la droite des moindres carrØs de ces points.
Si l Øcart type est indØpendant de la moyenne le mod?le est additif. La pente (a) de la droite des moindres carrØs est tr?s proche de 0.
Si l Øcart type est fonction de la moyenne le mod?le est multiplicatif. La pente (a) de la droite des moindres carrØs n est pas nulle.
En conclusion pour dØcomposer une sØrie chronologique on doit commencer par tracer son graphique, choisir un mod?le de composition (additif ou multiplicatif), estimer la tendance Ct, estimer les variations saisonni?res.
6.3 Les indices statistiques
Pour l Øtude de certains phØnom?nes Øconomiques et sociaux, on est souvent amenØ dØcrire ou comparer les variations de grandeurs simples telles que le prix du blØ, la production d acier ou le taux de fØconditØ d une certaine population, etc. Pour les comparaisons dans le temps et dans l espace de ces grandeurs, on introduit la notion d indice statistique ØlØmentaire. Ceux sont gØnØralement des rapports de ces grandeurs. Mais il est plus instructif de pouvoir suivre les Øvolutions de grandeurs plus complexes telles que le niveau gØnØral des prix, la production industrielle, le volume des importations, etc. Ces Øvolutions sont rØsumØes par l une ou l autre des caractØristiques de tendance centrale de la sØrie des indices ØlØmentaires correspondants. On parle dans ce cas d indices synthØtiques.
6.3.1 Les indices ØlØmentaires
Example 171 a) Le prix du kilogramme d un certain produit a ØtØ de 15DAen moyenne en 1980 et il est de 32DAen Octobre 1998. L indice ØlØmentaire du prix de ce produit en Octobre 1998, base 100 en 1980, est le rapport des deux prix exprimØ en pourcentage :
b) La consommation d ØlectricitØ a ØtØ de 16500 Millions de Kwh en 1988 et de 6200 Millions de Kwh en 1973. L indice ØlØmentaire de la consommation d ØlectricitØ en 1988, base 100 en 1973, est le rapport des consommations des deux annØes exprimØ en % :
Plus gØnØralement, considØrons la variation dans le temps d une grandeur simple X, prenant les valeurs X0;X1;:::;Xt;:::, aux dates (ou pØriodes) successives 0;1;2;:::;t;:::.
De nition 172 On appelle indice ØlØmentaire de la grandeurX la date (ou pØriode)t par rapport la date (ou pØriode) 0, le rapport :
Remarque 173 La date ou pØriode 0 est appelØe date de rØfØrence ou base de l indice. La date ou pØriodet est appelØe date courante. En gØnØral, ce rapport est exprimØ en % tel que :
On dit alors que l indice la datet est exprimØ base 100 la date de rØfØrence
0.
Les indices statistiques ØlØmentaires sont utilisØs surtout pour retracer l Øvolution des grandeurs simples dans le temps. Mais ils peuvent aussi servir des comparaisons dans l espace.
Example 174 La densitØ de la population algØrienne a ØtØ de 14;6 h=Km2en 1996, alors que pour la rØgion algØroise elle a ØtØ de 1540 h=Km2. L indice de densitØ de la rØgion algØroise, l ensemble de l AlgØrie Øtant choisi comme base, est :
L indice de densitØ du sud algØrien dont la densitØ de la population est de 0;5 h=Km2, par rapport celle du pays, est alors :
PropriØtØs
Les indices ØlØmentaires poss?dent deux propriØtØs fondamentales, la circularitØ et la rØversibilitØ.
La circularitØ On dit qu un indice statistique est circulaire si t, t on En e?et,
a : I 8 0
le quotient des indices0 It=0et It0=0. On obtient ainsi un changement de base0 Remarque 175 On peut comparer les grandeurs aux datest ett en prenant
(la date de rØfØrencet a ØtØ substituØe la date 0) . La propriØtØ de circularitØ peut Œtre gØnØralisØe une suite d indices, i.e.
It=0 = It=t 1 It 1=t 2 ::: I2=1 I1=0
RØversibilitØ On dit qu un indice statistique I est rØversible si 8 t, on a :
En e?et,
Remarque 176 L Øvolution d un phØnom?ne est souvent prØsentØe sous forme d une augmentation ou d une diminution en pourcentage l aide de la formule suivante :
Le pourcentage de variation ne poss?de pas les propriØtØs de circularitØ et de rØversibilitØ des indices, et est donc moins maniable. Les pourcentages de variation ne se rajoutent pas.
6.3.2 Les indices synthØtiques
Les grandeurs complexes sont fonction de quelques grandeurs simples. Ainsi le niveau gØnØral des prix est constituØ des prix des divers aliments et boissons, du logement, de l Øquipement mØnager, de l habillement, des services mØdicaux, des transports, des loisirs, etc. La construction d un indice synthØtique relatif la variation d une grandeur complexe consiste rØsumer une sØrie d indices ØlØmentaires. Position du probl?me
Soit X une grandeur complexe composØe des ØlØments X1;X2;:::;Xj;:::;Xh. La variable complexe X est, par exemple, le niveau gØnØral des prix, et X1;X2;:::;Xj;:::;Xh reprØsentent les prix des di?Ørents produits ou services o?erts au public . Les indices ØlØmentaires des constituants Xj, j = 1;2;:::;h,
j de X sont calculØs par la formule. Mais cette suite d indices n apporte aucune information sur l Øvolution du niveau gØnØral des prix. Il serait judicieux de les rØsumer ou de les synthØtiser par un seul indice qu on appellera indice synthØtique de la grandeur complexe X.
Les di?Ørentes formules d indices synthØtiques
Trois formules d indices synthØtiques sont utilisØes en pratique. Ceux sont les formules de Laspeyres, de Paasche et de Fisher.
Soit le poids ou l importance relative du constituants n j dans la grandeur complexe X la date 0, et par ajt son poids la date t. Si X reprØsente le niveau gØnØral des prix, ajt peut reprØsenter, par exemple, la proportion des dØpenses dans l habillement ou dans l achat des viandes, par rapport la dØpense totale des mØnages la date t. Ces importances relatives ou poids sont soumis la contrainte suivante :
Remarque 177 Les coe¢ cients sont appelØs coe¢ cients de pondØration.
Indice de Laspeyres
des indices ØlØmentaires pondØrØs par les coe¢ cientsL la date de rØfØDe nition 178 L indice de Laspeyres, notØ , est la moyenne arithmØtique rence :
Indice de Paasche
De nition 179 L indice de Paasche, notØ , est la moyenne harmonique
des indices ØlØmentaires pondØrØs par les coe¢ cientsP ajtla date courante :
Indice de Fisher simple des indices de Laspeyres et de Paasche :F De nition 180 L indice de Fisher, notØ , est la moyenne gØomØtrique
Ft=0 = pLt=0 Pt=0
6.3.3 Les di?Ørents types d indices statistiques
DØsignons par respectivement les prix et les quantitØs
(volumes) correspondant au constituant j entrant dans le calcul d indice.
Indice de valeur
De nition 181 La valeur, pour un constituantj, est le produit du prix par la quantitØ correspondante.
valeurs relatives la pØriode courante, la somme des valeurs relativesV la De nition 182 L indice de valeur, notØ , est le rapport de la somme des pØriode de base :
Indice des prix
L indice des prix comme l indice de quantitØ peut Œtre calculØ selon l une des formules de Laspeyres , de Paasche ou de Fisher .
De nition 183 L indice de Laspeyres des prix est donnØ par la formule suivante :
Remarque 184 Les coe¢ cients de pondØration sont constituØs par la part de la dØpense totale des familles consacrØe la consommation des di?Ørents constituants pendant la pØriode de base :
Dans le cas d un indice de prix de dØtail, les coe¢ cients de pondØration sont appelØs coe¢ cients budgØtaires.
L indice de Laspeyres des prix peut aussi Œtre dØ ni tel que :
De nition 185 L indice de Paasche des prix est donnØ par la formule suivante :
Remarque 186 Les coe¢ cients de pondØration sont constituØs par la part de la dØpense totale des familles consacrØe la consommation des di?Ørents constituants pendant la pØriode courante :
L indice de Paasche des prix peut aussi Œtre dØ ni tel que :
Indice de quantitØ ou de volume
De nition 187 L indice de Laspeyres de volume est dØ ni tel que :
De nition 188 L indice de Paasche de volume est dØ ni tel que :
PropriØtØs
Les indice de Laspeyres et de Paasche n ont pas les propriØtØs de circularitØ et de rØversibilitØ. L indice de Fisher n a pas la propriØtØ de circularitØ, mais il est rØversible :
Les trois types d indices sont ordonnØs de la fa on suivante :
Lt=0 Ft=0 Pt=0
Bibliographie
[1] Calot, G. (1969) Cours de statistique descriptive, Dunod.
[2] Delmas, B. (2009) Statistique descriptive pour l Øconomie et la gestion, Presses universitaires du Septentrion, 978-2-7574-0074-6
[3] Delmas, J. F. (2010) Introduction au calcul des probabilitØs et la statistique, ENSTA, 978-2-7225-0922-1
[4] Duthil, G. (1998) Initiation la statistique descriptive , Ellipse Marketing
[5] Grais, B. (2003) Statistique descriptive : Techniques statistiques , Dunod.
[6] Lejeune, M. (2010) Statistique : la thØorie et ses applications, Springer, 978-2-8178-0156-8
[7] Olivier, E. (2008) L essentiel de statistique descriptive, Gualino, 978-2297-01103-7
[8] Mazerolle, F. (2005) Statistique descriptive : sØries statistiques une et deux variables, sØries chronologiques, indices, Gualino, 2-84200-891-X
[9] Moore, D. and McCABE G. P. (2002) Introduction to the Practice of Statistics, 4?me Ødition, W.H. Freeman & Company.
[10] Morgenthaler, S. (2007) Introduction la statistique, Presses polytechniques et universitaires romandes, 978-2-88074-734-3
[11] Spiegel, M. et Stephens, L. Statistique : Cours et probl?mes, 3?me Ødition, SØrie Schaum/McGraw Hill
[12] Tassi, P. (2004) MØthodes statistiques, Economica, 2-7178-4859-2