Cours complet de statistique descriptive pas a pas
Cours complet de statistique descriptive pas a pas
Chapitre 1 Variables, données statistiques, tableaux, effectifs
Définitions fondamentales
1.1.1 La science statistique
– Méthode scientifique du traitement des données quantitatives.
– Etymologiquement : science de l’état.
– La statistique s’applique à la plupart des disciplines : agronomie, biologie,
démographie, économie, sociologie, linguistique, psychologie, . . .
1.1.2 Mesure et variable
– On s’intéresse à des unités statistiques ou unités d’observation : par exemple des individus, des entreprises, des ménages. En sciences humaines, on s’intéresse dans la plupart des cas à un nombre fini d’unités.
– Sur ces unités, on mesure un caractère ou une variable, le chiffre d’affaires de l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie socioprofessionnelle d’une personne. On suppose que la variable prend toujours une seule valeur sur chaque unité. Les variables sont désignées par simplicité par une lettre (X, Y, Z).
– Les valeurs possibles de la variable, sont appelées modalités.
– L’ensemble des valeurs possibles ou des modalités est appel´ le domaine de la variable.
Typologie des variables
– Variable qualitative : La variable est dite qualitative quand les modalités sont des catégories.
– Variable qualitative nominale : La variable est dite qualitative nominale quand les modalités ne peuvent pas être ordonnées.
– Variable qualitative ordinale : La variable est dite qualitative ordinale quand les modalités peuvent être ordonnées. Le fait de pouvoir ou non ordonner les modalités est parfois discutable. Par exemple : dans les catégories socioprofessionnelles, on admet d’ordonner les modalités : ‘ouvriers’, ‘employés’, ‘cadres’. Si on ajoute les modalités ‘sans profession’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable.
– Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont numériques.
– Variable quantitative discrète : Une variable est dite discrète, si l’ensemble des valeurs possibles est dénombrable.
– Variable quantitative continue : Une variable est dite continue, si l’ensemble des valeurs possibles est continu.
Remarque 1.1 Ces définitions sont à relativiser, l’âge est théoriquement une variable quantitative continue, mais en pratique, l’âge est mesuré dans le meilleur des cas au jour près. Toute mesure est limitée en précision !
Exemple 1.1 Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F). Le domaine de la variable est {M, F }.
Exemple 1.2 Les modalités de la variable nombre d’enfants par famille sont 0,1,2,3,4,5,. . .C’est une variable quantitative discrète.
Série statistique
On appelle série statistique la suite des valeurs prises par une variable X sur les unités d’observation.
Le nombre d’unités d’observation est noté n. Les valeurs de la variable X sont notées
x1, . . . , xi, . . . , xn.
Exemple 1.3 On s’intéresse à la variable ‘étatcivil’ notée X et à la série statistique des valeurs prises par X sur 20 personnes. La codification est
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.
1.2. VARIABLE QUALITATIVE NOMINALE 11
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :
M M D C C M C C C M
C M V M V D C C C M
Ici, n = 20,
x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.
Variable qualitative nominale
Effectifs, fréquences et tableau statistique
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas être ordonnées. On note J le nombre de valeurs distinctes ou modalités. Les valeurs distinctes sont notées x1, . . . , xj, . . . , xJ . On appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette modalité (ou valeur distincte) apparaˆıt. On note nj l’effectif de la modalité xj. La fréquence d’une modalité est l’effectif divisé par le nombre d’unités d’observation.
fj = nnj , j = 1, . . . , J.
Exemple 1.4 Avec la série de l’exemple précédent, on obtient le tableau sta
tistique :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1
En langage R
>X=c('Marie(e)','Marie(e)','Divorce(e)','Celibataire','Celibataire','Marie(e)','Cel 'Celibataire','Celibataire','Marie(e)','Celibataire','Marie(e)','Veuf(ve)','Ma 'Veuf(ve)','Divorce(e)','Celibataire','Celibataire','Celibataire','Marie(e)')
T1=table(X)
V1=c(T1)
data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
Celibataire 9 0.45
Divorce(e) 2 0.10
Marie(e) 7 0.35
Veuf(ve) 2 0.10
Diagramme en secteurs et diagramme en barres
Le tableau statistique d’une variable qualitative nominale peut être représent´ par deux types de graphique. Les effectifs sont représentés par un diagramme en barres et les fréquences par un diagramme en secteurs (ou camembert ou piechart en anglais) (voir Figures 1.1 et 1.2).
…
En langage R
> pie(T1,radius=1.0)
1.3. VARIABLE QUALITATIVE ORDINALE 13
…
Figure 1.2 – Diagramme en barres des effectifs
En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))
Variable qualitative ordinale
Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce qu’on écrit
x1 ≺ x2 ≺ • • • ≺ xj−1 ≺ xj ≺ • • • ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 précède x2.
Si la variable est ordinale, on peut calculer les effectifs cumulés :
∑j Nj = nk, j = 1, . . . , J.
k=1
On a N1 = n1 et NJ = n. On peut également calculer les fréquences cumulées
Fj = Nnj = ∑j fk, j = 1, . . . , J.
k=1
Exemple 1.5 On interroge 50 personnes sur leur dernier diplˆome obtenu (variable Y ). La codification a et´ faite selon le Tableau 1.1. On a obtenu la série statistique présentée dans le tableau 1.2. Finalement, on obtient le tableau statistique complet présent´ dans le Tableau 1.3.
En langage R
YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2))) Eff EffCum Freq FreqCum
Sd 4 4 0.08 0.08
1.3. VARIABLE QUALITATIVE ORDINALE 15
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
Diagramme en secteurs
Les fréquences d’une variable qualitative ordinale sont représentées au moyen d’un diagramme en secteurs (voir Figure 1.3).
…
En langage R
> pie(T2,radius=1)
Diagramme en barres des effectifs
Les effectifs d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en barres (voir Figure 1.4).
…
Diagramme en barres des effectifs cumulés
Les effectifs cumulés d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en barres (voir Figure 1.5).
…
1.4. VARIABLE QUANTITATIVE DISCRETE
En langage R
T3=cumsum(T2)
barplot(T3)
Variable quantitative discrète
Le tableau statistique
Une variable discrète a un domaine dénombrable.
Exemple 1.6 Un quartier est composé de 50 ménages, et la variable Z représente le nombre de personnes par ménage. Les valeurs de la variable sont
1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8
Comme pour les variables qualitatives ordinales, on peut calculer les effectifs,
`
les effectifs cumulés, les fréquences, les fréquences cumulées. A nouveau, on peut construire le tableau statistique :
xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
…
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
Diagramme en bâtonnets des effectifs
Quand la variable est discrète, les effectifs sont représentés par des bâtonnets (voir Figure 1.6).
…
En langage R
> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)
1.5. VARIABLE QUANTITATIVE CONTINUE 19
Fonction de répartition
Les fréquences cumulées sont représentées au moyen de la fonction de répartition. Cette fonction, présentée en Figure 1.7,est définie de R dans [0, 1] et vaut :
…
En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)
Variable quantitative continue
Le tableau statistique
Une variable quantitative continue peut prendre une infinité de valeurs possibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique, une mesure est limitée en précision. La taille peut être mesurée en centimètres, voire en millimètres. On peut alors traiter les variables continues comme des variables discrètes. Cependant, pour faire des représentations graphiques et construire le tableau statistique, il faut procéder à des regroupements en classes. Le tableau regroup´ en classe est souvent appel´ distribution groupée. Si [c−j; c+j[ designe la classe j, on note, de manière générale :
– c−j la borne inférieure de la classe j,
– c+j la borne supérieure de la classe j,
– cj = (c+j + c−j)/2 le centre de la classe j,
– aj = c+j − c−j l’amplitude de la classe j,
– nj l’effectif de la classe j,
– Nj l’effectif cumulé de la classe j,
– fj la fréquence de la classe j,
– Fj la fréquence cumulée de la classe j.
La répartition en classes des données nécessite de définir a priori le nombre de classes J et donc l’amplitude de chaque classe. En règle générale, on choisit au moins cinq classes de même amplitude. Cependant, il existent des formules qui nous permettent d’établir le nombre de classes et l’intervalle de classe (l’amplitude) pour une série statistique de n observations.
– La règle de Sturge : J = 1 + (3.3 log10(n)).
√
– La règle de Yule : J = 2.5 4 n.
L’intervalle de classe est obtenue ensuite de la manière suivante : longueur de l’intervalle = (xmax − xmin)/J, o`u xmax (resp. xmin) désigne la plus grande (resp. la plus petite) valeur observée.
Remarque 1.2 Il faut arrondir le nombre de classe J a` l’entier le plus proche. Par commodité, on peut aussi arrondir la valeur obtenue de l’intervalle de classe.
A partir de la plus petite valeur observée, on obtient les bornes de classes en additionnant successivement l’intervalle de classe (l’amplitude).
Exemple 1.7 On mesure la taille en centimetres de 50 élèves d’une classe :
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
1.5. VARIABLE QUANTITATIVE CONTINUE 21
On a les classes de tailles définies préablement comme il suit :
[151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[
On construit le tableau statistique.
[cj−, cj+] nj Nj fj Fj
[151, 5; 155, 5[ 10 10 0.20 0.20
[155, 5; 159, 5[ 12 22 0.24 0.44
[159, 5; 163, 5[ 11 33 0.22 0.66
[163, 5; 167, 5[ 7 40 0.14 0.80
[167, 5; 171, 5[ 10 50 0.20 1.00
50 1.00
En langage R
S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156, + 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, + 162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, + 170,171,171,171,171)
T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
T5c=c(T5)
data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c))) Eff EffCum Freq FreqCum
(151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00
Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par des rectangles contigus dont la surface (et non la hauteur) représente l’effectif (resp. la fréquence). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la classe j est donc donnée par :
…
– On appelle hj la densit´ d’effectif.
CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de chaque rectangle est égale à l’effectif de la classe j : aj × hj = nj.
Pour un histogramme des fréquences on a
dj = fj aj
– On appelle dj la densit´ de fréquence.
– L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle est égale à la fréquence de la classe j : aj × dj = fj.
Figure 1.8 représente l’histogramme des fréquences de l’exemple précedent :
…
Figure 1.8 – Histogramme des fréquences
En langage R
hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE, xlab="",ylab="",main="",xaxt = "n")
axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
Si les deux dernières classes sont agrégées, comme dans la Figure 1.9, la surface du dernier rectangle est égale à la surface des deux derniers rectangles de l’histogramme de la Figure 1.8.
En langage R
hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5), xlab="",ylab="",main="",xaxt = "n")
axis(1, c(151.5,155.5,159.5,163.5,171.5))
1.5. VARIABLE QUANTITATIVE CONTINUE 23
…
Figure 1.9 – Histogramme des fréquences avec les deux dernières classes agrégées
Remarque 1.3 Dans le cas de classes de même amplitude certains auteurs et logiciels représentent l’histogramme avec les effectifs (resp. les fréquences) reportés en ordonnée, l’aire de chaque rectangle étant proportionnelle à l’effectif (resp. la fréquence) de la classe.
La fonction de répartition
La fonction de répartition F (x) est une fonction de R dans [0, 1], qui est
définie par
…
24CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
Figure 1.10 – Fonction de répartition d’une distribution groupée
0.0 0.2 0.4 0.6 0.8 1.0
151.5 155.5 159.5 163.5 167.5 171.5
1.5. VARIABLE QUANTITATIVE CONTINUE 25
En langage R
y=c(0,0,cumsum(T5c/sum(T5c)),1)
x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
plot(x,y,type="b",xlab="",ylab="",xaxt = "n")
axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
26CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
Chapitre 2
Statistique descriptive univariée
Paramètres de position
Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus elev´ ; il est noté xM .
Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le suivant :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1
le mode est C : célibataire.
Remarque 2.1
– Le mode peut être calculé pour tous les types de variable, quantitative et qualitative.
– Le mode n’est pas nécessairement unique.
– Quand une variable continue est découpée en classes, on peut définir une classe modale (classe correspondant à l’effectif le plus elevé).
La moyenne
La moyenne ne peut être définie que sur une variable quantitative.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x¯ :
…
Remarque 2.2 La moyenne n’est pas nécessairement une valeur possible.
En langage R
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n xb xb=mean(E) xb
2.1. PARAMETRES DE POSITION
∑
Remarques sur le signe de sommation
Définition 2.1
∑n
xi = x1 + x2 + • • • + xn.
i=1
1. En statistique les xi sont souvent les valeurs observées.
n n
∑i xi = ∑
2. L’indice est muet : xj.
=1 j=1 ∑i xi.
3. Quand il n’y a pas de confusion possible, on peut écrire
Exemple 2.2
∑4
xi = x1 + x2 + x3 + x4.
i=1
∑5
xi2 = x32 + x42 + x52.
i=3
∑3
i = 1 + 2 + 3 = 6.
i=1
On peut utiliser plusieurs sommations emboˆıtées, mais il faut bien distinguer les indices :
3 2
∑i ∑ x11 + x12
xij = (i = 1)
=1 j=1
+ x21 + x22 (i = 2)
+ x31 + x32 (i = 3)
5. On peut exclure une valeur de l’indice.
∑5
xi = x1 + x2 + x4 + x5.
i=1 i=3̸
Propriét´ 2.1
1. Somme d’une constante
n
a = a + a + • • • + a = na (a constante).
| {z }
=1 n fois
∑i
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
Exemple
5
∑i
3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.
=1
2. Mise en évidence
n n
∑i axi ∑ xi
= a (a constante).
=1 i=1
Exemple
3
∑i 2 × i = 2(1 + 2 + 3) = 2 × 6 = 12.
=1
3. Somme des n premiers entiers
n
∑i n(n + 1)
i = 1 + 2 + 3 + • • • + n = .
2
=1
4. Distribution
n n n
∑ ∑i ∑
(xi + yi) = xi + yi.
i=1 =1 i=1
5. Distribution
n n n
∑ ∑i ∑
(xi − yi) = xi − yi.
i=1 =1 i=1
1 n
∑i
Exemple (avec x¯ = n =1 xi)
n n n 1 n
∑ ∑i ∑ ∑
(xi − x¯) = xi − x¯ = n xi − nx¯ = nx¯ − nx¯ = 0.
i=1 n
=1 i=1 i=1
6. Somme de carrés
n n n n n
∑ ∑ ∑ ∑ ∑i
(xi − yi)2 = (xi2 − 2xiyi + yi2) = xi2 − 2 xiyi + yi2.
i=1 i=1 i=1 i=1 =1
C’est une application de la formule
(a − b)2 = a2 − 2ab + b2.
2.1. PARAMETRES DE POSITION
Moyenne géométrique
Si xi ≥ 0, on appelle moyenne géométrique la quantité
G = ( n xi)1=n = (x1 × x2 × • • • × xn)1=n .i∏ =1
On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne arithmétique des logarithmes des valeurs observées
n 1=n n n
1 1
G = exp log G = exp log ( xi) = exp log xi = exp log xi.
n i=1 n
=1 =1
i∏ ∏ ∑i
La moyenne géométrique s’utilise, par exemple, quand on veut calculer la moyenne de taux d’intérêt.
Exemple 2.3 Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10, 15, et 10%. Que vaton obtenir après 4 ans si je place 100 francs ?
– Après 1 an on a, 100 × 1.05 = 105 Fr.
– Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr.
– Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr.
– Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr. Si on calcule la moyenne arithmétique des taux on obtient
x¯ = 1.05 + 1.10 + 1.15 + 1.10 = 1.10. 4
Si on calcule la moyenne géométrique des taux, on obtient
G = (1.05 × 1.10 × 1.15 × 1.10)1=4 = 1.099431377.
Le bon taux moyen est bien G et non x¯, car si on applique 4 fois le taux moyen G aux 100 francs, on obtient
Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr.
Moyenne harmonique
Si xi ≥ 0, on appelle moyenne harmonique la quantité
H = n .
∑ n i=1 1/xi
Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.
Exemple 2.4 Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a eté sa vitesse moyenne ?
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
– Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h, sa vitesse moyenne est donc
400
Moy = 20.8333 = 19.2 km/h.
– Si on calcule la moyenne arithmétique des vitesses, on obtient
x¯ = 10 + 30 + 40 + 20 = 25 km/h. 4
– Si on calcule la moyenne harmonique des vitesses, on obtient
4
H = 101 + 301 + 401 + 201 = 19.2 km/h.
La moyenne harmonique est donc la manière appropriée de calculer la vitesse moyenne.
Remarque 2.3 Il est possible de montrer que la moyenne harmonique est toujours inférieure ou égale à la moyenne géométrique qui est toujours inférieure ou égale à la moyenne arithmétique
≤ G ≤ x¯.
Moyenne pondérée
Dans certains cas, on n’accorde pas le même poids à toutes les observations. Par exemple, si on calcule la moyenne des notes pour un programme d’étude, on peut pondérer les notes de l’étudiant par le nombre de crédits ou par le nombre d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associés à chaque observation, alors la moyenne pondérée par wi est définie par :
∑n
x¯w = ∑i=1n wixi . i=1 wi
Exemple 2.5 Supposons que les notes soient pondérées par le nombre de crédits, et que les notes de l’étudiant soient les suivantes :2.1. PARAMETRES DE POSITION
Note 5 4 3 6 5
Crédits 6 3 4 3 4
La moyenne pondérée des notes par les crédits est alors
x¯w = 6 × 5 + 3 × 4 + 4 × 3 + 3 × 6 + 4 × 5 = 30 + 12 + 12 + 18 + 20 = 92 = 4.6.
20 20
6 + 3 + 4 + 3 + 4
La médiane
La médiane, notée x1=2, est une valeur centrale de la série statistique obtenue de la manière suivante :
– On trie la série statistique par ordre croissant des valeurs observées. Avec la série observée :
3 2 1 0 0 1 2,
on obtient :
0 0 1 1 2 2 3.
– La médiane x1=2 est la valeur qui se trouve au milieu de la série ordonnée :
0 0 1 1 2 2 3.
↑
On note alors x1=2 = 1.
Nous allons examiner une manière simple de calculer la médiane. Deux cas doivent être distingués.
– Si n est impair, il n’y a pas de problème (ici avec n = 7), alors x1=2 = 1 :
0 0 1 1 2 2 3.
↑
La Figure 2.1 montre la fonction de répartition de la série. La médiane peut être définie comme l’inverse de la fonction de répartition pour la valeur 1/2 :
x1=2 = F −1(0.5).
En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3) median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(1,0.5,1,0.50,length=0.14,col="blue") arrows(1,0.50,1,0,length=0.14,col="blue")
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
Figure 2.1 – Médiane quand n est impair
…
−1 0 1 2 3 4
– Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)
0 0 1 1 2 2 3 4
↑ ↑
La médiane est alors la moyenne de ces deux valeurs :
x1=2 = 1 + 2 = 1.5. 2
La Figure 2.2 montre la fonction de répartition de la série de taille paire. La médiane peut toujours être définie comme l’inverse de la fonction de répartition pour la valeur 1/2 :
x1=2 = F −1(0.5).
Cependant, la fonction de répartition est discontinue par ‘palier’. L’inverse de la répartition correspond exactement à un ‘palier’.
Figure 2.2 – Médiane quand n est pair
0.00 0.50 1.00
−1 0 1 2 3 4 5
En langage R
2.1. PARAMETRES DE POSITION
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4) median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(1,0.5,1,0.50,length=0.14,col="blue") arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")
En général on note
x(1), . . . , x(i), . . . , x(n)
la série ordonnée par ordre croissant. On appelle cette série ordonnée la statistique d’ordre. Cette notation, très usuelle en statistique, permet de définir la médiane de manière très synthétique.
– Si n est impair
x1=2 = x( n+12 )
– Si n est pair 1 {x( n2 ) + x( n2 +1)} .
x1=2 =
Remarque 2.4 La médiane peut être calculée sur des variables quantitatives et sur des variables qualitatives ordinales.
Quantiles
La notion de quantile d’ordre p (o`u 0 < p < 1) généralise la médiane. Formellement un quantile est donné par l’inverse de la fonction de répartition :
xp = F −1(p).
Si la fonction de répartition était continue et strictement croissante, la définition du quantile serait sans équivoque. La fonction de répartition est cependant discontinue et “par palier”. Quand la fonction de répartition est par palier, il existe au moins 9 manières différentes de définir les quantiles selon que l’on fasse ou non une interpolation de la fonction de répartition. Nous présentons une de ces méthodes, mais il ne faut pas s’étonner de voir les valeurs des quantiles différer légèrement d’un logiciel statistique à l’autre.
– Si np est un nombre entier, alors
xp = 1 {x(np) + x(np+1) } .
2
– Si np n’est pas un nombre entier, alors
xp = x(⌈np⌉),
o`u ⌈np⌉ représente le plus petit nombre entier supérieur ou égal à np.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
Remarque 2.5
– La médiane est le quantile d’ordre p = 1/2.
– On utilise souvent
x1=4 le premier quartile,
x3=4 le troisième quartile,
x1=10 le premier décile ,
x1=5 le premier quintile,
x4=5 le quatrième quintile,
x9=10 le neuvième décile,
x0:05 le cinquième percentile ,
x0:95 le nonantecinquième percentile.
– Si F (x) est la fonction de répartition, alors F (xp) ≥ p.
Exemple 2.6 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34 contenant 12 observations (n = 12).
– Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on a
x1=4 = x(3) + x(4) = 15 + 16 = 15.5.
2
2
– La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a
x1=2 = 1 {x(6) + x(7) } = (19 + 22)/2 = 20.5.
2
– Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre entier, on a
x3=4 = x(9) + x(10) = 25 + 27 = 26.
En langage R
x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)
Exemple 2.7 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 contenant 10 observations (n = 10).
– Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre entier, on a
x1=4 = x(⌈2:5⌉) = x(3) = 15.
2.2. PARAMETRES DE DISPERSION
– La médiane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a
1 {x(5) + x(6) } = (18 + 19)/2 = 18.5.
x1=2 =
2
– Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre entier, on a
x3=4 = x(⌈7:5⌉) = x(8) = 24.
En langage R
x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)
Paramètres de dispersion
L’étendue
L’étendue est simplement la différence entre la plus grande et la plus petite valeur observée.
= x(n) − x(1).
La distance interquartile
La distance interquartile est la différence entre le troisième et le premier quartile :
IQ = x3=4 − x1=4.
La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le nombre d’observations :
s2x = n1 ∑n(xi − x¯)2.
i=1
Théorème 2.1 La variance peut aussi s’écrire
1 n
∑i sx2 = n xi2 − x¯2. (2.1)=1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
Démonstration
1 n 1 n
∑ ∑i
sx2 = n i=1 (xi − x¯)2 = n (xi2 − 2xix¯ + x¯2)
=1
1 ∑n x2 − 2 1 ∑n xix¯ + 1 ∑n x¯2 = 1 ∑n x2 − 2¯x 1 ∑n xi + x¯2 n i n n n i n
i=1 i=1 i=1 i=1 i=1
1 ∑n x2 − 2¯xx¯ + x¯2 = 1 ∑n x2 − x¯2. n i n i
i=1 i=1
La variance peut également être définie à partir des effectifs et des valeurs distinctes :
s2x = n1 ∑J nj(xj − x¯)2.
j=1
La variance peut aussi s’écrire
s2x = n1 ∑J njx2j − x¯2.
j=1
Quand on veut estimer une variance d’une variable X à partir d’un échantillon (une partie de la population sélectionnée au hasard) de taille n, on utilise la variance “corrigée” divisée par n − 1.
Sx2 = 1 ∑i (xi − x¯)2 = sx2 n .
n − 1 n − 1 =1
La plupart des logiciels statistiques calculent Sx2 et non s2x.
L’écarttype
L’écarttype est la racine carrée de la variance :
√sx = s2x.
Quand on veut estimer l’écarttype d’une variable X partir d’un échantillon de taille n, utilise la variance “corrigée” pour définir l’écart type
√
√ n Sx = Sx2 = sx n − 1 .
La plupart des logiciels statistiques calculent Sx et non sx.
Exemple 2.8 Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a
x¯ = 2 + 3 + 4 + 4 + 5 + 6 + 7 + 9 = 5, 8
2.2. PARAMETRES DE DISPERSION
1 n
∑i sx2 = n (xi − x¯)2 =1
18 [(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2]
18 [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
36=8 = 4.5.
On peut également utiliser la formule (2.1) de la variance, ce qui nécessite moins de calcul (surtout quand la moyenne n’est pas un nombre entier).
…
L’écart moyen absolu
L’écart moyen absolu est la somme des valeurs absolues des écarts à la moyenne divisée par le nombre d’observations :
…
L’écart médian absolu
L’écart médian absolu est la somme des valeurs absolues des écarts à la médiane divisée par le nombre d’observations :
emed = n1 ∑n xi − x1=2 .
i=1
Moments
Définition 2.2 On appelle moment à l’origine d’ordre r ∈ N le paramètre
m′r = n1 ∑n xri.
i=1
Définition 2.3 On appelle moment centr´ d’ordre r ∈ N le paramètre
mr = n1 ∑n(xi − x¯)r.
i=1
Les moments généralisent la plupart des paramètres. On a en particulier
– m′1 = x,¯
– m1 = 0,
– m′2 = n1 ∑ x2i = s2x + x¯2,
i
– m2 = s2x.
Nous verrons plus loin que des moments d’ordres supérieurs (r=3,4) sont utilisés pour mesurer la symétrie et l’aplatissement.
2.4. PARAMETRES DE FORME
Paramètres de forme
Coefficient d’asymétrie de Fisher (skewness)
Le moment centr´ d’ordre trois est défini par
m3 = n1 ∑n(xi − x¯)3.
i=1
Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se mesure au moyen du coefficient d’asymétrie de Fisher
m3 g1 = s3x ,
o`u s3x est le cube de l’écarttype.
Coefficient d’asymétrie de Yule
Le coefficient d’asymétrie de Yule est basé sur les positions des 3 quartiles (1er quartile, médiane et troisième quartile), et est normalisé par la distance interquartile :
AY = x3=4 + x1=4 − 2x1=2 . x3=4 − x1=4
Coefficient d’asymétrie de Pearson
Le coefficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et du mode, et est standardisé par l’écarttype :
AP = x¯ − xM . sx
Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est symétrique, négatifs si la distribution est allongée à gauche (left asymmetry), et positifs si la distribution est allongée à droite (right asymmetry) comme montré dans la Figure 2.3.
Figure 2.3 – Asymétrie d’une distribution
Remarque 2.6 Certaines variables sont toujours très asymétriques à droite, comme les revenus, les tailles des entreprises, ou des communes. Une méthode simple pour rendre une variable symétrique consiste alors à prendre le logarithme de cette variable.
Paramètre d’aplatissement (kurtosis)
L’aplatissement est mesur´ par le coefficient d’aplatissement de Pearson
m4 β2 = s4x ,
ou le coefficient d’aplatissement de Fisher
m4
g2 = β2 − 3 = s4x − 3,
o`u m4 est le moment centr´ d’ordre 4, et s4x est le carré de la variance.
– Une courbe mésokurtique si g2 ≈ 0.
– Une courbe leptokurtique si g2 > 0. Elle est plus pointue et possède des
queues plus longues.
– Une courbe platykurtique si g2 < 0. Elle est plus arrondie et possède des
queues plus courtes.
Dans la Figure 2.4, on présente un exemple de deux distributions de même moyenne et de même variance. La distribution plus pointue est leptokurtique, l’autre est mésokurtique. La distribution leptokurtique a une queue plus épaisse.
…
Figure 2.4 – Distributions mésokurtique et leptokurtique
Changement d’origine et d’unité
Définition 2.4 On appelle changement d’origine l’opération consistant à ajouter (ou soustraire) la même quantité a ∈ R à toutes les observations
yi = a + xi, i = 1, . . . , n
2.6. CHANGEMENT D'ORIGINE ET D'UNITE
Définition 2.5 On appelle changement d’unité l’opération consistant à multiplier (ou diviser) par la même quantité b ∈ R toutes les observations
yi = bxi, i = 1, . . . , n.
Définition 2.6 On appelle changement d’origine et d’unité l’opération consistant à multiplier toutes les observations par la même quantité b ∈ R puis à ajouter la même quantité a ∈ R a` toutes les observations :
yi = a + bxi, i = 1, . . . , n.
Théorème 2.2 Si on effectue un changement d’origine et d’unité sur une variable X, alors sa moyenne est affectée du même changement d’origine et d’unité.
Démonstration Si yi = a + bxi, alors
1 n 1 n
∑i ∑
y¯ = n (a + bxi) = a + b n
=1 xi = a + bx¯.
i=1
Théorème 2.3 Si on effectue un changement d’origine et d’unité sur une variable X, alors sa variance est affectée par le carré du changement d’unité et pas par le changement d’origine.
Démonstration Si yi = a + bxi, alors
21 n 21 n 22 1 n 22 2
∑i ∑ ∑
sy = n (yi − y¯) = n (a + bxi − a − bx¯) = b n (xi − x¯) = b sx.
=1 i=1 i=1
Remarque 2.7
Les paramètres de position sont tous affectés par un changement d’origine et d’unité.
Les paramètres de dispersion sont tous affectés par un changement d’unité mais pas par un changement d’origine.
Les paramètres de forme et d’aplatissement ne sont affectés ni par un changement d’unité ni par un changement d’origine.
Moyennes et variances dans des groupes
Supposons que les n observations soient réparties dans deux groupes GA et GB. Les nA premières observations sont dans le groupe GA et les nB dernières observations sont dans le groupe GB, avec la relation
nA + nB = n.
On suppose que la série statistique contient d’abord les unités de GA puis les unités de GB :
x1 , x2, . . . , xnA−1 , xnA , xnA+1, xnA+2 , . . . , xn−1 , xn .
| {z } | {z }
observations de GA observations de GB
On définit les moyennes des deux groupes : nA
1 n
∑i
– la moyenne du premier groupe x¯A = nA =1 xi,
∑
1
– la moyenne du deuxième groupe x¯B = xi.
nB
i=nA+1
La moyenne générale est une moyenne pondérée par la taille des groupes des moyennes des deux groupes. En effet
1 nA n 1
( xi)
x¯ = xi + = (nAx¯A + nBx¯B) .
n n
i=1 i=nA+1
∑ ∑
On peut également définir les variances des deux groupes :
1 nA n
∑i
– la variance du premier groupe sA2 = nA =1 (xi − x¯A)2,
∑
1
– la variance du deuxième groupe sB2 (xi − x¯B)2.
=
nB
i=nA+1
Théorème 2.4 (de Huygens) La variance totale, définie par
1 n
∑i
sx2 = n (xi − x¯)2,
=1
se décompose de la manière suivante :
s2 = nAsA2 + nBsB2 + nA(¯xA − x¯)2 + nB(¯xB − x¯)2 .
x n n
| {z } | {z }
variance
variance intragroupes intergroupes
Démonstration
1 n 1 nA n
sx2 = ∑ (xi − x¯)2 = [∑(xi − x¯)2 + ∑ (xi − x¯)2 ] (2.2)
n n
i=1 i=1 i=nA+1
2.8. DIAGRAMME EN TIGES ET FEUILLES 45
On note que
∑nA
(xi − x¯)2
i=1
nA
= ∑(xi − x¯A + x¯A − x¯)2
i=1
nA nA nA
∑ ∑ ∑i (xi − x¯A)(¯xA − x¯)
= (xi − x¯A)2 + (¯xA − x¯)2 + 2
i=1 i=1 | =1 {z }
=0
= nAsA2 + nA(¯xA − x¯)2.
On a évidemment la même relation dans le groupe GB :
∑n
(xi − x¯)2 = nBs2B + nB(¯xB − x¯)2.
i=nA+1
En revenant à l’expression (2.2), on obtient
nA n
1 ∑ ∑
sx2 = [ (xi − x¯)2 + (xi − x¯)2]
n
i=1 i=nA+1
n1 [nAs2A + nA(¯xA − x¯)2 + nBs2B + nB(¯xB − x¯)2]
nAs2A + nBs2B + nA(¯xA − x¯)2 + nB(¯xB − x¯)2 . n n
2
Diagramme en tiges et feuilles
Le diagramme en tiges et feuilles ou Stem and leaf diagram est une manière rapide de présenter une variable quantitative. Par exemple, si l’on a la série statistique ordonnée suivante :
15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26,
26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44,
la tige du diagramme sera les dizaines et les feuilles seront les unités. On obtient le graphique suivant.
The decimal point is 1 digit(s) to the right of the |
1 | 55678
2 | 012333455667889
3 | 0024569
4 | 034
Ce diagramme permet d’avoir une vue synthétique de la distribution. Evidemment, les tiges peuvent être définies par les centaines, ou des millers, selon l’ordre de grandeur de la variable etudiée.
En langage R
#
# Diagramme en tige et feuilles
#
X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26,
27,28,28,29,30,30,32,34,35,36,39,40,43,44)
stem(X,0.5)
La boˆıte à moustaches
La boˆıte à moustaches, ou diagramme en boˆıte, ou encore boxplot en anglais, est un diagramme simple qui permet de représenter la distribution d’une variable. Ce diagramme est composé de :
– Un rectangle qui s’étend du premier au troisième quartile. Le rectangle est divisé par une ligne correspondant à la médiane.
– Ce rectangle est complét´ par deux segments de droites.
– Pour les dessiner, on calcule d’abord les bornes
b− = x1=4 − 1.5IQ et b+ = x3=4 + 1.5IQ,
o`u IQ est la distance interquartile.
– On identifie ensuite la plus petite et la plus grande observation comprise entre ces bornes. Ces observations sont appelées “valeurs adjacentes”.
– On trace les segments de droites reliant ces observations au rectangle.
– Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont représentées par des points et sont appelées “valeurs extrêmes”.
Exemple 2.9 On utilise une base de données de communes suisses de 2003 fournie par l’Office fédéral de la statistique (OFS) contenant un ensemble de variables concernant la population et l’aménagement du territoire. L’objectif est d’avoir un aper¸cu des superficies des communes du canton de Neuchâtel. On s’intéresse donc à la variable HApoly donnant la superficie en hectares des 62 communes neuchâteloises. La boˆıte à moustaches est présentée en Figure 2.5. L’examen du graphique indique directement une dissymétrie de la distribution, au sens o`u il y a beaucoup de petites communes et peu de grandes communes. Le graphique montre aussi que deux communes peuvent être considérées communes des points extrêmes, car elles ont plus de 3000 hectares. Il s’agit de la Brévine (4182ha) et de la ChauxdeFonds (5566ha).
En langage R
^ 47
2.9. LA BOITE A MOUSTACHES
0 1000 2000 3000 4000 5000
Figure 2.5 – Boˆıtes à moustaches pour la variable superficie en hectares (HApoly) des communes du canton de Neuchâtel
# Etape 1: installation du package sampling
# dans lequel se trouve la base de donnees des communes belges
# choisir "sampling" dans la liste utils:::menuInstallPkgs()
Etape 2: charge le package sampling
choisir "sampling" dans la liste
local({pkg < select.list(sort(.packages(all.available = TRUE))) + if(nchar(pkg)) library(pkg, character.only=TRUE)})
Utilisation des donnees data(swissmunicipalities) attach(swissmunicipalities)
boxplot de la selection des communes neuch^ateloises
le numero du canton est 24 boxplot(HApoly[CT==24],horizontal=TRUE)
% selection des communes neuch^ateloises de plus de 3000 HA data.frame(Nom=Nom[HApoly>3000 & CT==24],Superficie=HApoly[HApoly>3000 & CT==24])
Exemple 2.10 On utilise une base de données belges fournie par l’Institut National (belge) de Statistique contenant des informations sur la population et les revenus des personnes physiques dans les communes. On s’intéresse à la variable “revenu moyen en euros par habitant en 2004” pour chaque commune (variable averageincome) et l’on aimerait comparer les 9 provinces belges : Anvers, Brabant, Flandre occidentale, Flandre orientale, Hainaut, Liège, Limboug, Luxembourg, Namur. La Figure 2.6 contient les boˆıtes à moustaches de chaque province. Les communes ont et´ triées selon les provinces belges. De ce graphique, on peut directement voir que la province du Brabant contient à la fois la commune la plus riche (Lasne) et la plus pauvre (SaintJossetenNoode). On voit également une dispersion plus importante dans la province du Brabant.
En langage R
40000
35000
30000
25000
20000
Anv. Brab. Fl.occ. Fl.or. Hainaut Liège Limb. Lux. Namur
Figure 2.6 – Boˆıtes à moustaches du “revenu moyen des habitants” des communes selon les provinces belges
Utilisation des donnees data(belgianmunicipalities) attach(belgianmunicipalities)
Construction d'une liste avec les noms des provinces b=list(
"Anv."=averageincome[Province==1],
"Brab."=averageincome[Province==2],
"Fl.occ."=averageincome[Province==3],
"Fl.or."=averageincome[Province==4],
"Hainaut"=averageincome[Province==5], "Liege"=averageincome[Province==6], "Limb."=averageincome[Province==7], "Lux."=averageincome[Province==8], "Namur"=averageincome[Province==9]
)
boxplot(b)
2.9. LA BOITE A MOUSTACHES
Exercices
Exercice 2.1 On pèse les 50 élèves d’une classe et nous obtenons les résultats résumés dans le tableau suivant :
43 43 43 47 48
48 48 48 49 49
49 50 50 51 51
52 53 53 53 54
54 56 56 56 57
59 59 59 62 62
63 63 65 65 67
67 68 70 70 70
72 72 73 77 77
81 83 86 92 93
De quel type est la variable poids ?
Construisez le tableau statistique en adoptant les classes suivantes : [40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100]
Construisez l’histogramme des effectifs ainsi que la fonction de répartition.
Solution
1. La variable poids est de type quantitative continue.
2.
[cj−, cj+] nj
Nj fj Fj
[40; 45] 3 3 0.06 0.06
]45; 50] 10 13 0.20 0.26
]50; 55] 8 21 0.16 0.42
]55; 60] 7 28 0.14 0.56
]60; 65] 6 34 0.12 0.68
]65; 70] 6 40 0.12 0.80
]70; 80] 5 45 0.10 0.90
]80; 100] 5 50 0.10 1.00
Exercice 2.2 Calculez tous les paramètres (de position, de dispersion et de forme) à partir du tableau de l’exemple 1.7 sans prendre en compte les classes.
Table des matières
1 Variables, données statistiques, tableaux, effectifs 9
1.1 Définitions fondamentales . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1 La science statistique . . . . . . . . . . . . . . . . . . . . 9
1.1.2 Mesure et variable . . . . . . . . . . . . . . . . . . . . . . 9
1.1.3 Typologie des variables . . . . . . . . . . . . . . . . . . . 9
1.1.4 Série statistique . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Variable qualitative nominale . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Effectifs, fréquences et tableau statistique . . . . . . . . . 11
1.2.2 Diagramme en secteurs et diagramme en barres . . . . . . 12
1.3 Variable qualitative ordinale . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Le tableau statistique . . . . . . . . . . . . . . . . . . . . 13
1.3.2 Diagramme en secteurs . . . . . . . . . . . . . . . . . . . 15
1.3.3 Diagramme en barres des effectifs . . . . . . . . . . . . . . 15
1.3.4 Diagramme en barres des effectifs cumulés . . . . . . . . . 16
1.4 Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Le tableau statistique . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Diagramme en bâtonnets des effectifs . . . . . . . . . . . 18
1.4.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . 19
1.5 Variable quantitative continue . . . . . . . . . . . . . . . . . . . . 19
1.5.1 Le tableau statistique . . . . . . . . . . . . . . . . . . . . 19
1.5.2 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.3 La fonction de répartition . . . . . . . . . . . . . . . . . . 23
2 Statistique descriptive univariée 27
2.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.2 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.3 Remarques sur le signe de sommation ∑ . . . . . . . . . 29
2.1.4 Moyenne géométrique . . . . . . . . . . . . . . . . . . . . 31
2.1.5 Moyenne harmonique . . . . . . . . . . . . . . . . . . . . 31
2.1.6 Moyenne pondérée . . . . . . . . . . . . . . . . . . . . . . 32
2.1.7 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.8 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . 37
2.2.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.2 La distance interquartile . . . . . . . . . . . . . . . . . . . 37
2.2.3 La variance . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.4 L’écarttype . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.5 L’écart moyen absolu . . . . . . . . . . . . . . . . . . . . . 40
2.2.6 L’écart médian absolu . . . . . . . . . . . . . . . . . . . . 40
2.3 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4 Paramètres de forme . . . . . . . . . . . . . . . . . . . . . . . . . 41