Problème à signaler:


Télécharger Cours a propos des statistique a une variable



★★★★★★★★★★3.5 étoiles sur 5 basé sur 1 votes.
Votez ce document:

Télécharger aussi :

Cours a propos des statistique a une variable




Cours a propos des statistique a une variable

Rappel :

La statistique est une branche des mathématiques qui a pour but, dans un premier temps, de rassembler une série de données et de les présenter (statistique descriptive). Dans un deuxième temps, ces données sont interprétées afin d’en tirer des conclusions et d'effectuer des prévisions éventuelles (statistique inférentielle). L’interprétation et l’utilisation de données statistiques se retrouve dans de très nombreux domaines dont notamment, les sciences humaines, les sciences économiques, les médias, la gestion des entreprises, la recherche médicale, ... Ce n'est pas pour rien qu'un cours de statistique est présent en première année de la plupart des graduats et des universités.

Au départ, on se base généralement sur les résultats d’une enquête. La variable (ou le caractère) étudiée dans l’enquête peut être de différents types :

-          données ou variables non chronologiques : Dans ce cas, la variable (ou le caractère étudié lors de l’enquête) peut être discrète ou continue ainsi que qualitative ou quantitative. Ce sont des données non chronologiques, c’est-à-dire des données dont on n'étudie pas l'évolution en fonction du temps. (Exemples : taille, poids, vote, … d'un ensemble de personnes à un moment donné)  

-          données ou variables chronologiques : On analyse l'évolution des valeurs de la variable en fonction dutemps. (Exemples: chiffre d'affaire d'une société au cours des années, population de Schaerbeek de 1831 à 1970)

Les 6 étapes

Étape n° 1 :

          • Choix de la population ou de l'échantillon.

Étape n° 2 :

          • Choix de la (ou des) variable(s) statistique(s).

 On précise :

          La nomenclature dans le cas d’une variable qualitative,

          Les intervalles dans le cas d’une variable quantitative continue,

          Les diverses modalités pour les variables quantitatives discrètes.

Étape n° 3 :

          • Collecte des données.

Exemple n° 1 :

Pour étudier le dimorphisme sexuel des gélinottes huppées on a mesuré (en mm) la longueur de la rectrice centrale (plume de la queue). Voici les mesures trouvées.

153

165

160

150

159

151

163

160

158

149

154

153

163

140

158

150

158

155

163

159

157

162

160

152

164

158

153

162

166

162

165

157

174

158

171

162

155

156

159

162

152

158

164

164

162

158

156

171

164

158

 

Exemple n° 2 :

Voici les épaisseurs des cheveux d'un groupe d'étudiants  (mesures effectuées à l’aide d'un palmer)

Nom

Epaisseur des cheveux en 100 ème de millimètre

Céline

6

Fanny

5

Estelle

4

Catherine

3

Sylvia

3

Valérie

4

Muriel

6

Isabelle

6

Jean-christophe

6

Sophie

4

Delphine

7

Frédérique

5

Emmanuelle

7

Sandra

5

Laurence

7



Hélène

6

Charlotte

5

Jean-Louis

6

Exemple n° 3 :

On s'est intéressé à la taille, au groupe sanguin, à la pointure d'un groupe d'étudiants.

Étape n° 4 :

          • Organisation des données.

On construira des tableaux regroupant les modalités et l'effectif de chaque modalité.

Dans le cas des variables quantitatives, on fera figurer : la fréquence, la fréquence ou l'effectif cumulés.

Taille

Effectif

Effectif cumulé

Fréquence

Fréquence cumulée

[155 ; 160[

1

1

0,03

0,03

[160 ; 165[

3

4

0,10

0,10

[165 ; 170[

8

12

0,26

0,26

[170 ; 175[

8

20

0,26

0,42

[175 ; 180[

3

23

0,10

0,25

[180 ; 185[

7

30

0,23

0,64

[185 ; 190[

1

31

0,03

0,08

Effectif

Effectif cumulé

Fréquence

Fréquence cumulée

36

1

1

3,2%

3,2%

37

2

3

6,5%

9,7%

38

8

11

25,8%

35,5%

39

3

14

9,7%

45,2%

40

2

16

6,5%

51,6%

41

4

20

12,9%

64,5%

42

5

25

16,1%

80,6%

43

1

26

3,2%

83,9%

44

4

30

12,9%

96,8%

45

1

31

3,2%

100,0%

Effectif

Effectif cumulé

Fréquence

Fréquence cumulée

A

14

14

0,45

0,45

B

4

18

0,13

0,58

AB

2

20

0,06

0,65

O

11

31

0,35

1,00

Remarque :



Lorsque l’on regroupe les données en classes, la formule ci-dessous permet de déterminer le nombre (k) de classes en fonction du nombre (n) d’unités statistique.

(On arrondira à l’entier le plus proche)

Calcul des Fréquences

• On appelle fréquence (d’une série quantitative discrète), la proportion d’individus pour lesquels la valeur du caractère est égale à x.

Calcul des Fréquences cumulées

• On appelle fréquence cumulée croissante (d’une série quantitative discrète), la proportion d’individus pour lesquels la valeur du caractère est inférieure à x.

x

155

160

165

170

175

180

200

Nombre de personnes dont la taille est inférieure à x cm

0

4

13

21

35

46

50

Fréquences cumulées

0

8/100

26/100

42/100

70/100

92/100

1

• On appelle fréquence cumulée croissante (d’une série quantitative continue), la proportion d’individus pour lesquels la valeur du caractère est inférieure à x.

Taille en cm

[155;160[

[160;165[

[165;170[

[170;175[

[175;180[

[180;200[

Effectif cumulé

4

13

21

35

46

50

Fréquence cumulée

0,08

0,26

0,42

0,70

0,92

1

• On appelle fréquence cumulée décroissante (d’une série continue),la proportion d’individus pour lesquels la valeur du caractère est supérieure ou égale à x.

L'ensemble des couples (xi , fi)  ou (xi , ni)  constitue la FONCTION DE DISTRIBUTION de la variable X

La représentation graphique est appelée HISTOGRAMME.

Elle est constituée de rectangles contigus dont les aires sont proportionnelles aux effectifs (cumulés ou non)

-          dans le cas d'un caractère discret,  la valeur du caractère placé au milieu du segment est a associer au segment entier.

-          dans le cas d'un caractère continu, le milieu du rectangle correspond au centre de la classe, tandis que les extrémités du segment sont les limites des classes. Quand on joint, les milieux des bases supérieures des rectangles de l'histogramme, nous obtenons le POLYGONE DES FREQUENCES.

 

Étape n° 5 :

• Représentation des données

Étape n° 6 :

• Analyse des séries statistiques.

On cherchera différents "coefficients ou paramètres"

Ceux-ci sont classés en trois familles :

-          Les paramètres de position

-          Les paramètres de dispersion

-          Les paramètres de forme

On pourrait dire qu'un paramètre de position est une "valeur" de la variable, tandis qu'un paramètre de dispersion est la différence de deux valeurs.

Les paramètres de forme indiquent, l'aplatissement polygone des fréquences par rapport à la "courbe en cloche" de Gauss, et sa "dissymétrie » par rapport à cette même courbe.

Paramètres de Position

a. Le mode

Le Mode (ou la dominante) est la valeur de la variable qui correspond au plus grand effectif (ou à la plus grande fréquence). Cela peut être un intervalle.

Il existe aussi des séries à plusieurs Modes.

Une étu­de sta­tis­ti­que por­tant sur le nom­bre d'al­lu­met­tes conte­nues dans 1000 boî­tes à la sor­tie d'une uni­té de pro­duc­tion a conduit aux ré­sul­tats sui­vants :

Exemple n° 1 : Variable discrète

Nombre d’allumettes par boîte

34

35

36

37

38

39

40

41

42

43

44

45

Effectifs

30

47

63

93

115

132

132

105

105

77



60

41

Les modes sont          : 39 et 40

La médiane est           : 40

La moyenne est          : 39,68

Exemple n° 2 : Variable discrète : longueur de 150 noix

Longueur en mm

31

33

35

37

39

41

43

45

47

49

Effectifs

1

0

7

9

30

35

37

23

7

1

 

Exemple n° 3 : Variable continue

La pesée de 100 nouveau-nés dans une maternité a conduit aux résultats suivants :

Poids en kg

[2,0 ; 2,4[

[2,4 ; 2,8[

[2,8 ; 3,2[

[3,2 ; 3,6 [

[3,6 ; 4,0 ]

Effectifs

12

20

40

20

8

Le mode est la classe : [2,8 ; 3,2[ ou si l’on préfère le centre de la classe : 3

La médiane correspond au poids du cinquantième nouveau-né.

Deux solutions :

            - On choisit le centre de la classe [2,8; 3,2[ à savoir (2,8+3,2)/2=3

            - Une interpolation linéaire permet de préciser la médiane.

(72-32)/(3,2-2,8)=(50-32)/(M-2,8) d’où M=2,98 (kg)

b. La mé­dia­ne

La médiane d’une série statistique quantitative est la valeur de la variable qui partage la série en deux parties de même effectif: l’une d’elles ne comprend que les unités dont le caractère étudié est inférieur ou égal à la médiane, l’autre les unités dont le caractère est supérieur ou égal à la médiane.

Lorsque la variable est continue en prend le centre des classes pour trouver la médiane

Un élè­ve a ob­te­nu, au cours de l'an­née, les no­tes sui­van­tes en Fran­çais :

1 er cas : la série quantitative discrète est composée d’un nombre impair d’éléments :

12

10

14

7

12

15

8

11

12

8

14

                                                           ß

7

7

8

10

11

12

12

12

14

14

15

On trie les données par ordre croisant  la médiane est la valeur du 6ème  élément soit 12

2ème cas :

La série quantitative discrète est composée d’un nombre pair d’éléments :

12

10

14

7

12

11

15

8

11

12

8

14

                                                                 ß

7

7

8

10

11

11

12

12

12

14

14

15

Dans ce cas, on calcule la moyenne arithmétique des deux observations « centrales » la médiane est : (11+12)/2 = 11,5



(Comme il y 12 éléments statistiques, on fait la moyenne entre la valeur du 6ème  et du 7ème)

3 ème cas : La série est quantitative continue

( Les observations sont groupées en classes)

          1. Déterminer la "classe médiane" - celle qui contient la  n/2 ème  observation

          2. Calculer la médiane par la formule suivante :

Exemple 1 : 

Revenus en francs

Effectifs

Effectifs cumulés

[500;550[

3

3

[550;600[

12

15

[600;650[

17

32

[650;700[

8

40

[700;750[

6

46

[750;800[

4

50

Comme il y a 50 unités statistiques, on cherche la classe de la 25 ème observation.

 à [600;650[

En supposant que les observations sont réparties uniformément dans chaque classe, la médiane sera

 Exemple 2 :

La pesée de 100 nouveau-nés dans une maternité a conduit aux résultats suivants :

Poids en kg

[2,0 ; 2,4[

[2,4 ; 2,8[

[2,8 ; 3,2[

[3,2 ; 3,6 [

[3,6 ; 4,0 ]

Effectifs

12

20

40

20

8

La médiane correspond au poids du cinquantième nouveau-né.

Deux solutions :

            - On choisit le centre de la classe [2,8; 3,2[ à savoir (2,8+3,2)/2=3

ou

- L’on effectue une interpolation linéaire.

(72-32)/(3,2-2,8) = (50-32)/(M-2,8) d’où M=2,98 (kg)

c. La Moyenne

er  cas :

La variable est discrète, le nombre d’individus de la population est N

La moyenne arithmétique  d’une série statistique quantitative discrète   est la somme des valeurs de la série divisée par leur nombre N.

 2è me  cas :

Dans le cas d’une variable discrète, lorsque les valeurs sont regroupées par modalités, chacune d’elles ayant un effectif, on obtient la moyenne  en calculant le quotient : 

3ème  cas :

Dans le cas d’une variable continue, on utilise des classes de même amplitude, on choisira la valeur centrale de chaque intervalle et l’on se retrouvera dans le cas discret.

Remarque :

d. Les Quartiles

Chacun des sous-ensembles obtenus à l’aide de la médiane peut lui-même donner naissance à deux sous-ensembles de même effectif en utilisant le même procédé que celui utilisé pour trouver la médiane. On dispose alors de 3 valeurs Q1, Q2 (égale à la médiane) et Q3, appelés quartiles qui permettent d’obtenir quatre sous-ensembles de même effectif à partir de la population totale.

Paramètres de Dispersion

e. L’Empan (Etendue ou Range)

C’est la différence entre la valeur la plus grande et la valeur la plus petite.

Si les observations sont regroupées en classes, l’empan est égal à la différence entre les centres des deux classes extrêmes.

f. L'écart interquartile

La différence Q3-Q1 est appelée écart interquartiles.

g. L’écart arithmétique moyen

 Remarque :

Exemple :

Considérons la série statistique relative à la répartition des salaires du personnel d’une entreprise :

Salaires en kF

]->,6[

[6,7[

[7,8[

[8,9[

[9,10[

[10,11[

[11,->[

Effectifs

17

32

51

57

45

34

14

En utilisant comme valeurs de la variable, les centres des classes on obtient

                        • la valeur moyenne de la série: m= 8456 F .et l’écart moyen e= 12928 F.

h. La Variance

i. Dans le cas d’une population

On démontre en appliquant des identités remarquables que la variance est aussi égale à la moyenne des carrés des valeurs diminuée du carré de la valeur moyenne.

On obtient la formule de KOENIG :

Cette formule se prête mieux aux calculs que les précédentes

• Pour estimer la variance de la population à partir d’un échantillon : on utilisera les formules

Remarque :  ou 

Remarque :

 i. L’écart type



On appelle Ecart type, la racine carrée de la Variance :

 Elle s’exprime dans la même unité que celle utilisée pour les valeurs xi

j. L'indice de dispersion (ou coefficient de variation)

Il est égal au rapport de l'écart type par la moyenne de la distribution : 

Paramètres de forme

k. Le coefficient de Yule

Le coefficient de Yule  sert à mesurer l’asymétrie d’une distribution de fréquences.

Il est égal à :   (M est la médiane)

Remarques :

Si ce nombre est nul               : la distribution est symétrique.

Si ce nombre est positif          : la distribution est étirée vers la droite.

Si ce nombre est négatif         : la distribution est étirée vers la gauche.

l. Le coefficient B1 de Pearson

K. Pearson introduisit un coefficient d’asymétrie (B1) basé sur le calcul des moments centrés

m. Le coefficient B2 de Pearson

Remarque :

Si B2 est égal à 3 la distribution est mésodermique (loi Normale

Si B2 - 3 >0 la distribution est leptokurtique (moins plate que la loi Normale)

Si B2 - 3 <0 la distribution est platykurtique (plus plate que la loi Normale)



271