Cours complet sur la statistique descriptive a une variable


Télécharger Cours complet sur la statistique descriptive a une variable

★★★★★★★★★★3.5 étoiles sur 5 basé sur 1 votes.
Votez ce document:

Télécharger aussi :


Cours complet sur la statistique descriptive à une variable

L’objectif est de présenter les notions essentielles de la statistique descriptive, c’est-à-dire à de montrer comment décrire de façon claire et concise l’information apportée par des observations nombreuses et variées sur un phénomène donné. Il s’agit de trier ces données, les décrire, les résumer sous forme de tableaux, de graphiques, et sous forme d’un petit nombre de paramètres-clés (moyenne, médiane par exemple).

1. Différents types de variables

On considère les individus d’une population donnée et une variable X décrivant ces individus.

1.1. Variables quantitatives

Ce sont des variables qui prennent des valeurs numériques. Elles sont de deux types.

Les variables discrètesne prennent leurs valeurs que dans un ensemble de valeurs disjointes (par exemple des nombres entiers) ; autrement dit, aucune valeur n’est prise dans l’intervalle séparant deux valeurs possibles consécutives. Par exemple, le nombre d’individus d’une espèce par hectare, le nombre de vertèbres d’une larve de poisson, ...

Les variables continues peuvent à priori prendre toutes les valeurs d’un intervalle de variation (par exemple 2; 5 ou ; ). C’est le cas de la plupart des mesures de longueurs, surfaces, volumes, masses, concentrations, températures, ...

On désignera parxi les valeurs observées sur un échantillon ; elles seront naturellement rangées dans l’ordre croissant.

1.2. Variables qualitatives.

Elles définissent une propriété non quantifiable. Par exemple, une couleur, un génotype, un phénotype, l’appartenance à une espèce ou à une variété, ... Au lieu des valeurs, on parlera des modalités d’une telle variable ; on les désignera encore parxi . Une variable nominale est une variable qualitative dont les modalités ne sont pas ordonnées ; par exemple la couleur des euxy (bleus, verts, noirs, ...)

Elles peuvent elles aussi être discrètes ou continues. Par xemple, les génotypes ou les espèces sont discrètes : elles n’admettent pas de modalité intermédiair. Par contre, pour les couleurs non spectrales, tout intermédiaire est concevable à l’intérieur d’une plage de variation (comme l’échelle de Forel adoptée pour les couleurs des eaux naturelles allant du brun au bleu en passant par le vert).

1.3. Variables semi-quantitative ou ordinale.

A défaut d’être mesurables, elles sont classables.

Ou bien les modalités d’une variable qualitative se succèdent dans un ordre naturel ; par exemple les stades de développement d’un organisme, taille d’un vêtement (XS, S, M, L, XL, XXL)

Ou bien les valeurs observées d’une variable quantitative sont classées par ordre croissant ou décroissant, et on néglige leur valeur précise pour ne retenir que leur rang dans ce classement. Ce rang est alors une variable discrète mais ne correspond pas à une mesure.

1.4. Le regroupement en classes.

Très souvent, la prise en compte de toute la précision d’une mesure (et donc de toute les valeurs observées) ne permet pas de donner une interprétation simple des résultats et conduit à des calculs inutiles. On peut souvent se contenter de regarder des classes de valeurs Ci , c’est-à-dire des intervalles d’amplitudes fixées ; des mesures tombant dans une même classe devenant alors indiscernables. C’est ce que l’on fait en particulier pour les variables quantitatives continues, les clases étant naturellement rangées dans l’ordre croissant. Par exemple, si on mesure la taille des individus d’un échantillon de la population française, il est inutile d’avoir le nombre exact d’individus mesurant chaqu e taille (160cm, 161cm, 162cm, ...), mais suffisant de savoir combien mesurent entre 160 et 165 cm, entre 165 et 170 cm, ... Mais on perd de l’information ...

2. Représentation dune variable

Dans une population, on considère un échantillon den individus sur lequel on observe une variable X. Si X est quantitative discrète, on parlera des valeurs xi de la variable X.

Si X est qualitative discrète, on parlera des modalitésxi de la variable X. Si X est quantitative continue, on parlera des classes Ci de la variable X.

2.1. Distributions des fréquences; diagramme circulaire ou en barres, diagramme en bâtons ou histogramme

Le nombre d’individus étant généralement grand, voire trèsgrand, une série brute est difficilement lisible et interprétable. Il est indispensable de la résumer. Pour ela,c on commence par un tri à plat , décompte des modalités ou valeurs obtenues, qui nous servira de base à la construction de tableaux et de graphiques.

On désigne parni l’ effectif (ou fréquence absolue) de chaque valeur ou modalitéxi ou de chaque classe

Ci , c’est-à-dire le nombre de fois où l’on a observé la valeur ou la modalité ou la classe dans l’échantillon. On a évidemment ni n.

On désigne parfi nni la fréquence(ou fréquence relative ou proportion) de chaque valeur ou modalité xi ou de chaque classe Ci , c’est-à-dire la proportion de fois où l’on a observé la valeur ou la modalité ou la classe dans l’échantillon. (Pourcentage  100   fi ).

      1         

On peut remarquer quefi  ni                     1          ni                                n    1.

      n                      n                                 n         

La distribution des effectifs et/ou fréquencesest en général donnée comme suit :

Valeur ou modalitéxi

Effectif ni

Fréquencefi

x1

n1

f1

x2

n2

f2

xp

np

fp

n

1

 

Classe Ci

Effectif ni

Fréquencefi

C1

n1

f1

C2

n2

f2

Cp

np

fp

n

1

Lorsque l’on veut comparer les résultats de plusieurs échantillons (éventuellement de tailles différentes), il est utile d’utiliser les fréquences. C’est ce que nous ferons en général.

La représentation graphique d’une telle distribution est de différents types :

-  diagramme circulaires (ou camembert) pour une variable qualitative : chaque modalité est représentée par un secteur circulaire dont l’angle (et donc la surface) est proportionnel à son effectif ou sa fréquence. Le rayon du cercle est arbitraire.

-  diagramme en barres pour une variable qualitative : chaque modalité est représentée par un rectangle de base constante et d’une hauteur proportionnelle à son eff ectif ou à sa fréquence.

-  diagramme en bâtons pour une variable quantitative discrète : à chaque valeur xi portée en abscisse on fait correspondre un bâton ayant pour hauteur la fréquence fi (portée en ordonnée) ; la somme des hauteurs étant égale à 1. Lepolygone des fréquencesest la ligne brisée obtenue en reliant les sommets des bâtons ; il sert à guider l’oeil afin d’avoir une vision globale du diagr amme.

-  histogramme pour une variable quantitative continue avec regroupement en classes Ci : à chaque classe

Ci d’amplitude ai on fait correspondre un rectangle de hauteur hi         fi             ; ainsi, l’aire des rectangles est proportionnelle à la fréquence ; la somme des aires étant égale à 1.                         

2.2. Courbe des fréquences cumulées.                         

Cas des valeurs ou modalitésxi .

A chaque xi , faisons correspondre la fréquenceFi des valeurs observées inférieures ou égales xài . On a alors Fi f1 fi et on dit que Fi est la fréquence cumuléecorrespondant à xi . Le diagramme des fréquences cumulées,construit à partir des points de coordonnées xi , Fi , est alors en escalier.

 Cas des classes Ci        i  1, x i  . (Remarquer que Ci est fermée à droite et ouverte à gauche.)

Dans ce cas, la fréquence cumuléeFi                                       f1                 fi correspond à la fréquence des valeurs observées

 inférieures ou égales àx i .

Le polygone des fréquences cumuléesest la ligne brisée obtenue en reliant les points de coordonnées

i , Fi  . On écrira alorsF    Fr X        x        fréquence des valeurs inférieures ou égale xà.

 Par interpolation, cette courbe permet ainsi de déterminer:

- pour une valeur x la fréquenceF des valeurs observées inférieures ou égale xà ;

 - pour une fréquenceF la valeur x telle que l’on observe des valeurs inférieures ou égales àx avec une fréquenceF (voir médiane et quantiles).

3. Paramètres de tendance centrale et paramètres de position

 Les paramètres statistiques ont pour but de résumer, à parti de quelques nombres clés, l’essentiel de l’information relative à l’observation d’une variable qua ntitative. Parmi eux, les paramètres de tendance centrale représentent une valeur numérique autour de laquelle les observations sont réparties (le mode, la médiane, la moyenne), et les paramètres de position (les fractiles).

 3.1. Le mode

 Le mode est la valeur ou la modalité ou la classe ayant la plus grande fréquence d’observation. Dans le dernier cas, on parle aussi de classe modale.

 3.2. La médiane

Si la série brute des valeurs observéesx1x2, . . . , xn est triée par ordre croissant :x 1 x 2 . . . x n , la médianeM est la valeur du milieu, telle qu’il y ait autant d’observati ons "au-dessous" que "au-dessus", c’est-à-dire que :

- si n est impair, soit n      2p     1, alors M      p  1  ;

- si n est pair, soit n      2p, alors toute valeur de l’intervalle médian x p ; x p  1                    répond à la question ;

afin de définirM de façon unique, on choisit souvent M x p x p 1 , soit le centre de l’intervalle médian. 2

Par exemple :

- dans la série 2, 3, 7, 9, 11, on prendraM   7 car 2 valeurs lui sont inférieures et 2 supérieures ; 

- dans la série 2, 3, 6, 7, on pourra prendreM 3 6 4, 5 (mais on pourrait prendre toute valeur 2 comprise entre 3 et 6).

 De manière générale, on définira médianelaM comme étant la valeur (abscisse) correspondant à la fréquence cumuléeF 0, 5. On l’obtiendra en général par lecture graphique (valeur approchée) sur la courbe des fréquences cumulées, ou par une formule d’interpolatio linéaire (valeur exacte).

 3.3. La moyenne arithmétique

Cas des valeurs xi avec les effectifs ni

On désigne parx         1n      ni xi la moyenne arithmétique des valeurs observées. En effet,    ni xi représente la somme des n valeurs observées.

 On peut remarquer que x                                     n                  fi xi .

Dans le cas d’une série de données "brute"x1x2, . . . , xn (certains xi pouvant être égaux), tous les effectifs

ni sont égaux à 1 et on retrouve x       1n

 Cas des classes Ci .

 On décide d’appliquer la même formule, dans laquellexi représente les centres des classesCi . On fait comme si on avait observéni fois le centre de la classe, ce qui revient à supposer que les v aleurs observées dans une classe se répartissent uniformément (ce qui n’est pas forcément le cas). 



3.4. Les quantiles

 On appelle quantiles (ou fractilesd’ ordre k les valeurs Q1Q2, . . . , Qk 1 qui divisent une série de données ordonnée enk parties d’effectifs égaux. Parmi les fractiles, on trouve :

- la médianeM, valeur dépassant 50% des valeurs observées ;

-  les quartiles Q1Q2 et Q3, valeurs dépassant respectivement 25%, 50% et 75% des valeurs observées (remarquer queQ2 M) ;

-  les décilesD1D2, …, D9, valeurs dépassant respectivement 10%, 20%, …, 90% des valeurs observées ;

-  les centiles …

Comme la médiane, les quantiles peuvent être obtenus graphiquement à l’aide de la courbe des fréquences cumulées, ou par une formule d’interpolation linéaire.

4. Paramètres de dispersion

Deux distributions peuvent, tout en ayant des caractéristiques de tendance centrale voisines, être très différentes. Ainsi la moyenne annuelle des températures dans une zone océanique peut être égale à la moyenne annuelle des températures dans une zone continentale, pourtant les distributions sont très différentes. Dans le premier cas les variations de température autour de la moyenne sont assez faibles, dans le second cas elles sont beaucoup plus importantes.

Il est donc nécessaire de mesurer la dispersion des valeurs autour des tendances centrales.

4.1. L étendue

L’ étendue(ou amplitude), notéeR (Range), d’une série statistique est la différence entre lavaleur maximum et la valeur minimum de la série. Facile à déterminer, l’étendue ne dépend que des 2 observations extrêmes qui sont parfois le fait de situations exceptionnelles. Il est donc difficile de considérer l’étendue comme une mesure stable de la dispersion.

4.2. L écart interquartile

Afin de diminuer l’influence des valeurs extrêmes on peut tenir compte de valeurs plus stables de la distribution.

Par exemple, l’intervalle interquartile Q1Q3 ou l’ écart interquartileEIQ Q3 Q1 mesure la dispersion des valeurs observées autour de la médiane.

4.3. Quel écart à la moyenne ?

On veut savoir si les valeurs observées s’écartent beaucoupde la moyenne.

On peut naturellement considérer lamoyenne des écarts à la moyenne, c’est-à-dire

On pourrait alors considérer lamoyenne des valeurs absolues des écarts à la moyenne, c’est-à-dire 1n ni |xi x|.

Ce paramètre serait tout à fait acceptable mais pour des raisons mathématiques (calculs de probabilités), on lui préfère lamoyenne des carrés des écarts à la moyenne, c’est-à-dire la variance.

4.4. La variance.                        1                                                                           

On désigne parvar xsx2                                            ni  xi       x             2 la variance des valeurs observées.

                                       n                                            Dans cette formule, comme pour la moyenne, xi représente les valeurs observées ou les centres des

classes Ci .    1             ni xi2                                                    

On peut démontrer quesx2                                                      x             2 (formule plus rapide pour les calculs).

                       n                                            Dans le cas d’une série de données "brute"x1x2, . . . , xn (certains xi pouvant être égaux), tous les effectifs

ni sont égaux à 1 et on retrouve sx2               1          xi2       x          2.

* n                                

l’ écart-type des valeurs observées.

On désigne parsx        sx2                                          var x   

On désigne par                        x          sx ;      x          sx                                l’ intervalle moyen. On dit qu’en moyenne, les valeurs observées se trouvent dans l’intervalle moyen.

 

5. Exemples de traitement statistique d observations sur un échantillon

5.1. Cas discret

Pour étudier la résistance de la truite d’élevage à une dose éterminéed de détergent, on compte le nombre de morts survenues chaque jour dans une expérience portant sur 190 individus. On obtient les résultats suivants.

comprise entre 5 et 7,5 jours.


5.2. Cas continu

Un échantillon de 50 poissons de la même espèce à fourni les poids suivants (en g) :

61

82

92

97

101

104

109

118

131

155

69

82

93

97

101

104

110

120

133

165

70

85

93

99

101

105

110

121

138

166

74

85

93

99

102

106

110

125

140

180

79

87

94

99

102

107

114

128

147

180

On peut considérer la situation suivante. Population : les poissons d’une espèce donnée. Variable X : le poids. Variable quantitative continue. Echantillon de n 50 poissons.

Presque toutes les valeurs n’étant observées qu’une fois, une étude analogue à celle de l’exemple 1 ne permettrait pas de résumer l’information de façon significative. On préfèrera donc regrouper les valeurs en classes de poids. On aurait pu découper l’intervalle de variation des valeurs 60; 190 en classes de même amplitude (10g par exemple) mais certaines classes (les premières et dernières classes) auraient eu des effectifs (et donc des fréquences) très faibles. C’est pourquoi on a choisi des classes d’amplitude plus grande en début et fin de distribution.

Classe Ci

Centre xi

Effectif ni

Fréq.fi

Ampl. ai

Haut. hi

Freq. Cum. Fi

ni xi

ni xi2

60;

80

70

5

0, 10

20

0, 005

0, 10

350

24500

80;

90

85

5

0, 10

10

0, 010

0, 20

425

36125

90; 100

95

10

0, 20

10

0, 020

0, 40

950

90250

100;

110

105

14

0, 28

10

0, 028

0, 68

1470

154350

110;

120

115

3

0, 06

10

0, 006

0, 74

345

39675

120;

130

125

3

0, 06

10

0, 006

0, 80

375

46875

130;

140

135

4

0, 08

10

0, 008

0, 88

540

72900

140;

180

160

6

0, 12

40

0, 003

1

960

153600

50

1

5415

618275

Classe modale :  100; 110  ; c’est la classe la plus fréquemment observée.

6. Exercices

Exercice 1.

On a interrogé des personnes au hasard et on a obtenu les résultats suivants

Personne n°

Nom

Prénom

Age

Salarié

Niveau étude

Départementde naissance

Sexe

1

PASCAL

Béatrice



22

Non

Primaire

80

F

2

NOIROT

Claudine

25

Oui

Universitaire

78

F

3

LAFFITE

Jean

30

Oui

Secondaire

93

M

4

LAFFON

Gilles

25

Non

Primaire

80

M

5

DAURIAC

André

30

Oui

Universitaire

32

M

6

FAURE

Céline

22

Non

Universitaire

64

F

7

BENAZET

Eric

24

Non

Secondaire

40

M

8

DUMAS

Elvia

29

Non

Secondaire

76

F

9

MARTINEZ

Alexis

25

Oui

Universitaire

80

M

10

DUPONT

Adrien

23

Non

Universitaire

75

M

11

CATHALA

Agnès

22

Non

Primaire

78

F

12

PEREZ

Eliane

24

Oui

Secondaire

13

F

13

MARTIN

Albert

25

Oui

Universitaire

33

M

14

SIMON

Gabriel

24

Oui

Primaire

76

M

15

ROQUES

Adrien

25

Non

Secondaire

45

M

16

DUMAS

Elvire

28

Oui

Secondaire

75

F

17

MARTIN

Alain

25

Oui

Secondaire

21

M

18

SANCHEZ

Henri

27

Oui

Primaire

11

M

19

PONS

Adeline

22

Non

Universitaire

34

F

20

DUPUY

Paul

27

Oui

Universitaire

73

M

  1. Combien y a-t-il d’individus ? de variables ?
  2. Pour chaque variable, préciser sa nature (autrement dit son type).
  3. Représenter les résultats sur le Niveau d’étude à l’aide d’un diagramme circulaire.
  4. Représenter les résultats sur le Niveau d’étude à l’aide d’un diagramme en barres.
  5. a) Représenter les résultats sur l’Age à l’aide d’un diagramme adapté.
  6. Déterminer le mode, la moyenne et la médiane de l’Age des individus étudiés.

Exercice 2.

Cinquante éprouvettes d’acier spécial sont soumises à des essais de résistance. Pour chacune, on note le nombre de chocs nécessaires pour obtenir la rupture. Les résultats obtenus sont les suivants :

2

2

3

5

2

1

4

2

3

5

3

2

3

3

4

1

2

4

2

2

4

2

3

2

3

3

2

2

4

2

1

4

2

3

2

2

3

1

3

3

2

3

2

2

3

4

3

2

3

2

  1. Préciser la population étudiée, la variable étudiée etnature,sa la taille de l’échantillon.
  2. Représenter ces résultats sous forme d’un tableau modalités/effectifs (tri à plat).
  3. Tracer sur le même graphique le diagramme et le polygone des fréquences de cette distribution. En déduire le mode et donner sa signification.
  4. Tracer le diagramme des fréquences cumulées (croissantes).
  5. Déterminer la moyenne et l’écart-type de cette série statistique.

Exercice 3.(D’après partiel de mars 2008)

Avant d’acheter le dernier modèle d’appareil photo numérique d’une grande marque, un internaute consulte un site web comparateur de prix. L’observation du prix de cet appareil photo chez différents sites marchands donne les résultats indiqués dans le tableau ci-essousd :

Prix (en €)

500; 550

550; 600

600; 650

650; 700

700; 800

800; 850

850; 950

Nombre de sites

8

8

16

8

8

12

12

  1. Préciser la population étudiée, la variable étudiée etnature,sa la taille de l’échantillon.
  2. Représenter graphiquement les résultats présentés dansle tableau.
  3. Calculer les fréquences cumulées de la distribution et tracer le polygone des fréquences cumulées.
  4. En déduire par lecture graphique, puis par une formule d’interpolation linéaire, la valeur de la médiane et des quartiles de la distribution. Interpréter les résultats obtenus.
  5. Calculer la moyenne et l’écart-type de la distribution. Préciser les données à partir desquelles ces valeurs ont été calculées.

Exercice 4.

Le croisement d’une souris noire et d’une souris blanche don ne des descendants de couleur noire ou blanche. On a effectué 30 croisements ayant donné chacun 50 escendants. Pour chacun des 30 croisements, le nombre de descendants noirs obtenu est donné dans le tableau suivant :

24

28

25

24

26

21

23

21

25

26

18

25

26

29

25

22

25

26

32

25

23

24

25

25

27

29

19

24

27

26

  1. Calculer la moyenne de cette série.
  2. Ranger ces données en classes d’intervalles de longueur 2, borne supérieure incl



1236