Problème à signaler:


Télécharger Cours generale sur la statistique : variables quantitatives continues



★★★★★★★★★★3.5 étoiles sur 5 basé sur 1 votes.
Votez ce document:

L1 Psycho                                                                                                 Statistiques descriptives

VARIABLESQUANTITATIVES CONTINUES

 

Exercice 1.1. La répartition des salariés français en 2004 selon la durée de trajet (en minute)

pour se rendre à leur travail est donné par le tableau suivant :

duree´

]0;5]

]5;10]

]10;15]

]15;20]

]20;25]

]25;30]

]30;40]

]40;50]

]50;70]

]70;120]

pourcentage

2,85

9,96

13,58

12,86

11,41

9,47

13,61

8,15

7,96

10,15

Source : DADS, 2004 (INSEE).

(La durée de trajet maximale a été arbitrairement choisie à 120 min pour les besoins de l’exercice.)

(a)   Déterminer la population et la variables étudiée (en précisant son type).

(b)  Représenter graphiquement la distribution des proportions.

(c)   Déterminer la classe modale de la variable.

(d)  Représenter graphiquement la proportion de salariés ayant un trajet compris entre 7 et 22 minutes. Calculer cette proportion.

(e)  Calculer, à l’aide de la fonction de répartition, la proportion de salariés mettant moins de 35 minutes pour aller à leur lieu de travail. Même question pour un temps de trajet compris entre 17 et 35 minutes.

(f)    Déterminer la moyenne et l’écart-type de la variable.

(g)   Déterminer la médiane, les quartiles ainsi que les premier et neuvièmes déciles.

(h)  Représenter graphiquement la fonction de répartition.

Corrigé de l’exercice 1.1.

(a)  Population : salariés Français en 2004.

Individu : un salarié Français en 2004.

Variable étudiée : « temps de trajet »; c’est une variable quantitative continue qui prend des modalités entre 0 et 200 minutes.

(b)  La variable étant continue, on va la représenter graphiquement à l’aide d’un histogramme. Pour cela on a besoin de déterminer les densités de proportion des classes et donc de calculer les amplitudes. Vu les questions suivantes (sur la fonction de répartition, la moyenne, la médiane), on met également dans le tableau les proportions cumulées ainsi que les centre des classes.

duree´

]0;5]

]5;10]

]10;15]

]15;20]

]20;25]

]25;30]

]30;40]

]40;50]

]50;70]

]70;120]

prop. (%)

2,85

9,96

13,58

12,86

11,41

9,47

13,61

8,15

7,96

10,15

amplitude

5

5

5

5

5

5

10

10

20

50

.(%)

0,57

1,992

2,716

2,572

2,282

1,894

1,361

0,815

0,398

0,203

.(%)

2,85

12,81

26,39

39,25

50,66

60,13

73,74

81,89

89,85

100

centre

2,5

7,5

12,5

17,5

22,5

27,5

35

45

60

95

On trace l’histogramme. Le choix de l’échelle sur l’axe des abscisses doit permettre d’aller de 0 à 200 et le choix sur l’axe des ordonnées d’aller de 0 à la plus grande densité de proportion, à savoir 2,719. Les rectangles de l’histogramme ont pour largeur l’amplitude de la classe et pour hauteur la densité de proportion :

densité

de proportion

(en %)

0

(c)  La classe modale est la classe qui a la plus grande densité de proportion, donc c’est ]10;15].

(d)  Sur l’histogramme précédent on a mis les salariés dont le temps de trajet est compris entre 7 et 22 minutes en grisé. Calculons la proportion correspondante (rappelons que l’aire d’un rectangle est égale à sa base multipliée par sa hauteur) :

P(7 ? X ? 22) = aire de la partie hachurée

= somme des aires des rectangles hachurés

= 3 × 1,992 + 5 × 2,716 + 5 × 2,572 + 2 × 2,282

= 5,976 + 13,580 + 12,860 + 4,564

= 36,98

Il y a environ 36,98 % de salariés français dont le temps de trajet est compris entre 7 et 22 minutes.

(e)  La classe contenant x = 35 est ]a;b] = ]30;40] donc a = 30 et b = 40 d’où F(a) = P(X ? 30) = 60,13 et F(b) = P(X ? 40) = 73,74. Appliquons la formule :

                                                                           h                           x ? ai

F(35) = F(x) = F(a) + (F(b) ? F(a)) ×

b ? a

 

= F(30) + (F(40) ? F(30)) ×

 

= 60,13 + (73,74 ? 60,13) ×

 

= 60,13 + 13,61 ×

= 60,13 + 6,805

= 66,935

Il y a environ 66,935 % de salariés français dont le temps de trajet est inférieur à 35 minutes.

Pour calculer P(17 ? X ? 35), on utilise la formule

P(17 ? X ? 35) = F(35) ? F(17).

On a déjà calculé F(35), donc il ne nous manque que F(17). La classe contenant x = 17 est ]a;b] = ]15;20] donc a = 15 et b = 20 d’où F(a) = P(X ? 15) = 26,39 et F(b) = P(X ? 20) = 39,25. Appliquons la formule :

                                                                           h                           x ? ai

F(17) = F(x) = F(a) + (F(b) ? F(a)) ×

b ? a

 

= F(15) + (F(20) ? F(15)) ×

 

= 26,39 + (39,25 ? 26,39) ×

= 26,39 + [12,86 × 0,4]

= 26,39 + 5,144

= 31,534

Il y a environ 31,534 % de salariés français dont le temps de trajet est inférieur à 17 minutes.

On a donc :

P(17 ? X ? 35) = F(35) ? F(17) = 66,935 ? 31,534 = 35,401.

Il y a environ 35,401 % de salariés français dont le temps de trajet est compris entre 17 et 35 minutes.

(f) Puisqu’on n’a pas les effectifs mais uniquement les proportions, on utilise la formule

k

µ = X pixi,

i=1

pi est la proportion de la i-ième classe (exprimée comme un nombre compris entre 0 et 1 et non comme un pourcentage) et xi le centre de la i-ième classe. Cela donne :

µ = 0,0285 × 2,5 + 0,0996 × 7,5 + 0,1358 × 12,5 + 0,1286 × 17,5 + 0,1141 × 22,5

+ 0,0947 × 27,5 + 0,1361 × 35 + 0,0815 × 45 + 0,0796 × 60 + 0,1015 × 95 = 32.7873

Le temps de trajet moyen des salariés français est de 32,7873 minutes.

L’écart-type est donné par la formule

                                     vt k                         

? = X pi × (xi2) ? µ2

i=1

= p(0,0285 × 2,52 + 0,0996 × 7,52 + 0,1358 × 12,52 + 0,1286 × 17,52

+ 0,1141 × 22,52 + 0,0947 × 27,52 + 0,1361 × 352 + 0,0815 × 452

+ 0,0796 × 602 + 0,1015 × 952) ? 32,78732

= p1730,12 ? 1075,0038

= p655,1162 = 25,60.

La dispersion du temps de trajet des salariés français autour de la moyenne est 25,60.

(g) Calcul de la médiane La proportion cumulée de 50 % correspond à la classe ]a;b] =

]20;25] donc la médiane est donnée par la formule

50 ? P(X ? a) médiane = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 20 + (25 ? 20) ×

 

= 20 + 5 ×

= 20 + [5 × 0,9422]

= 20 + 4,71 = 24,71.

Au moins la moité des temps de trajet est ? 24,71 minutes et au moins la moité des temps de trajet est ? 24,71 minutes.

Calcul du premier quartile La proportion cumulée de 25 % correspond à la classe ]a;b] = ]10;15] donc le premier quartile est donné par la formule

                                              25 ? P(X ? a)       

Q1 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 10 + (15 ? 10) ×

 

= 10 + 5 ×

= 10 + [5 × 0,8976]

= 10 + 4,49 = 14,49.

Au moins un quart des temps de trajet est ? 14,49 minutes et au moins trois quart des temps de trajet est ? 14,49 minutes.

Calcul du troisième quartile La proportion cumulée de 75 % correspond à la classe

]a;b] = ]40;50] donc le troisième quartile est donné par la formule

                                              75 ? P(X ? a)       

Q3 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 40 + (50 ? 40) ×

 

= 40 + 10 ×

= 40 + [10 × 0,1377]

= 40 + 1,38 = 41,38.

Au moins trois quart des temps de trajet est ? 41,38 minutes et au moins un quart des temps de trajet est ? 41,38 minutes.

Calcul du premier décile La proportion cumulée de 10 % correspond à la classe ]a;b] =

]5;10] donc le premier décile est donné par la formule

                                              10 ? P(X ? a)       

D1 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 5 + (10 ? 5) ×

 

= 5 + 5 ×

= 5 + [5 × 0,7179]

= 5 + 3,59

= 8,59.

Au moins 10 % des temps de trajet est ? 8,59 minutes et au moins 90 % des temps de trajet est ? 8,59 minutes.

Calcul du neuvième décile La proportion cumulée de 90 % correspond à la classe ]a;b] =

]70;120] donc le premier décile est donné par la formule

                                              90 ? P(X ? a)       

D9 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 70 + (120 ? 70) ×

 

= 70 + 50 ×

= 70 + [50 × 0,0148]

= 70 + 0,74 = 70,74.

Au moins 90 % des temps de trajet est ? 70,74 minutes et au moins 10 % des temps de trajet est ? 70,74 minutes.

(h) Pour représenter la fonction de répartition, on place, pour chacune des bornes des classes, la proportion cumulée (par exemple, le point 25 a pour ordonnée 50,66 %) puis on les relie par des segments de droites :

 

                       0       10      20      30     40      50      60      70      80     90     100    110    120        (en min)

Exercice 2.1. Le temps de trajet domicile-travail (en minutes) déclaré par les travailleurs américains a été récolté en 2000 par l’U.S. Census Bureau :

duree´

]0;5]

]5;10]

]10;15]

]15;20]

]20;25]

]25;30]

]30;35]

]35;45]

]45;60]

]60;90]

]90;150]

.(%)

3,37

14,4

29,4

45,22

59,71

65,5

78,69

84,6

92,01

97,22

100

Source :

(a)  Représenter la boîte à moustache.

(b)  Déterminer l’intervalle de variation à 75 %. (c) Déterminer l’intervalle de variation à 95 %.

Corrigé de l’exercice 2.1.

(a) Pour dessiner la boîte à moustache, on a besoin des trois quartiles : Q1, la médiane et Q3.

Calcul de la médiane. La proportion cumulée de 50 % correspond à la classe ]a;b] =

]20;25] donc la médiane est donnée par la formule

50 ? P(X ? a) médiane = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 20 + (25 ? 20) ×

 

= 20 + 5 ×

= 20 + [5 × 0,3299]

= 20 + 1,65 = 21,65.

Calcul du premier quartile. La proportion cumulée de 25 % correspond à la classe

]a;b] = ]10;15] donc le premier quartile est donnée par la formule

                                              25 ? P(X ? a)       

Q1 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 10 + (15 ? 10) ×

 

= 10 + 5 ×

= 10 + [5 × 0,7067]

= 10 + 3,53 = 13,53.

Calcul du troisième quartile. La proportion cumulée de 75 % correspond à la classe ]a;b] = ]30;35] donc le troisième quartile est donnée par la formule

                                              75 ? P(X ? a)       

Q3 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 30 + (35 ? 30) ×

 

= 30 + 5 ×

= 30 + [5 × 0,7202]

= 30 + 3,60 = 33,60.

Boîte à moustache Voici la boîte à moustache représentant l’intervalle interquartile pour la durée du trajet :

 

 

 

 

 

 

 

 

 

5

0                                                                                 1

00

0150

                                 13,53     21,65            33,60

(b) Rappelons que 75 % = 0,75. Pour déterminer l’intervalle de variation à 1 ? ? = 0,75, on calcule d’abord ? = 1 ? 0,75 = 0,25 puis ?/2 = 0,125 et 1 ? ?/2 = 0,875. L’intervalle de variation à 75 % est alors l’intervalle [q0,125 ;q0,875]. Il nous reste donc à calculer les quantiles d’ordre 0,125 et 0,875.

Calcul du quantile d’ordre 0,125. La proportion cumulée de 12,5 % correspond à la classe ]a;b] = ]5;10] donc le quantile d’ordre 0,125 est donnée par la formule

                                                   12,5 ? P(X ? a)     

q0,125 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 5 + (10 ? 5) ×

 

= 5 + 5 ×

= 5 + [5 × 0,8277]

= 5 + 4,14

= 9,14.

Calcul du quantile d’ordre 0,875. La proportion cumulée de 87,5 % correspond à la classe ]a;b] = ]45;60] donc le quantile d’ordre 0,875 est donnée par la formule

                                                   87,5 ? P(X ? a)     

q0,875 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 45 + (60 ? 45) ×

 

= 45 + 15 ×

= 45 + [15 × 0,3914]

= 45 + 5,87 = 50,87.

Conclusion L’intervalle de variation à 75 % est [9,14;50,87]; cet intervalle contient 75 % des données.

(c) Rappelons que 95 % = 0,95. Pour déterminer l’intervalle de variation à 1 ? ? = 0,95, on calcule d’abord ? = 1 ? 0,95 = 0,05 puis ?/2 = 0,025 et 1 ? ?/2 = 0,975. L’intervalle de variation à 95 % est alors l’intervalle [q0,025 ;q0,975]. Il nous reste donc à calculer les quantiles d’ordre 0,025 et 0,975.

Calcul du quantile d’ordre 0,025. La proportion cumulée de 2,5 % correspond à la classe

]a;b] = ]0;5] donc le quantile d’ordre 0,025 est donnée par la formule

                                                   2,5 ? P(X ? a)      

q0,025 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 0 + (5 ? 0) ×

 

= 0 + 5 ×

= 0 + [5 × 0,7418]

= 0 + 3,71

= 3,71.

Calcul du quantile d’ordre 0,975. La proportion cumulée de 97,5 % correspond à la classe ]a;b] = ]90;150] donc le quantile d’ordre 0,975 est donnée par la formule

                                                   97,5 ? P(X ? a)     

q0,975 = a + (b ? a) ×

P(X ? b) ? P(X ? a)

 

= 90 + (150 ? 90) ×

 

= 90 + 60 ×

= 90 + [60 × 0,1007]

= 90 + 6,04 = 96,04.

Conclusion L’intervalle de variation à 95 % est [3,71;96,04]; cet intervalle contient 95 % des données.

Exercice 3.1. La température moyenne à Paris entre 1961 et 1990 est de 11,71 °C avec un écart-type de 5,47 tandis que dans la ville de Trappes, elle est de 10,30 °C avec un écarttype de 5,35. Sachant que [°F] = [°C] ×+ 32, convertir les données précédentes en degrés

Fahrenheit.

Corrigé de l’exercice 3.1. La température moyenne à Paris est de 11,71 ×+ 32 = 53,08 °F et celle à Trappes est de 10,30 ×+ 32 = 50,54 °F.

Pour déterminer les écart-types, on ne prend pas en compte le + 32 lors de la conversion. L’écart-type à Paris est donc de 5,47 ×= 9,85 °F et celui à Trappes de 5,35 ×= 9,63 °F.



546