Livre de statistique descriptive et inferentielle avec excel

Livre de statistique descriptive et inférentielle avec excel
1. INTRODUCTION
Aujourd'hui, grâce à la facilité d'utilisation de l'informatique, à sa démocratisation, au développement d'Internet, nous sommes confrontés à un impressionnant volume d'information quantifiée, chiffrée. Cela couvre pratiquement tous les domaines : social, politique, biologie, santé, sécurité... On remarque la multiplicité d'enquêtes entreprises dans le but d'approcher au mieux la réalité. Internet permet notamment de réaliser des enquêtes à grande échelle. On dispose maintenant de grandes bases de données. Ensuite apparaît l'exploitation de cette information et là intervient la statistique appliquée, objet de notre ouvrage. La première étape consiste à classer les données, les décrire, "les faire parler". C'est l'objet de la statistique descriptive. Les données sont résumées à l'aide de paramètres, synthétisées au moyen de tableaux et de graphiques. Dans cette étape, on se limite à l'espace de ses données.
On peut décrire une population. Indépendamment, on peut décrire un échantillon. Mais on ne fait aucune relation "échantillon, population". L'étude peut n'être que descriptive, soit parce que c'est la seule possible, soit par choix personnel (pour diverses raisons, on considère qu'elle est suffisante). Ce type d'études est d'ailleurs très fréquent ; il suffit de penser aux nombreux résultats d'enquêtes publiées dans les médias. Fréquemment, il est nécessaire de replacer ses données dans un environnement "population, échantillon" : c'est la statistique inférentielle. Soit on connaît bien la population dans un "bon état" et le prélèvement périodique d'un échantillon permet de vérifier précisément le "bon état" de la population, soit on ne connaît pas une population et on l'approche à partir d'échantillons.
C'est ici qu'intervient la prise de conscience de l'existence de risques, parfois difficiles à évaluer. Cet ouvrage, plus destiné aux utilisateurs professionnels qu'aux chercheurs, vise à fournir les principaux outils de la statistique descriptive et surtout de la statistique inférentielle. Après que l'utilisateur ait bien défini son objectif, il s'agit de lui indiquer comment aborder son problème, comment fiabiliser ses résultats, et quels risques sont attachés à ses conclusions. L'objectif est de fournir les premiers outils indispensables, souples et malléables. Notre ambition est d'apprendre à l'utilisateur à "apprivoiser les données". Par exemple, les variables se prêtent à divers recodages, donc diverses "déformations". De prime abord, cette diversité peut inquiéter, car spontanément, chacun aspire à une réponse binaire certaine : oui ou non. La realité est cependant beaucoup plus complexe, la diversité des "déformations" est une richesse.
Les divers recodages possibles fournissent un outil souple permettant de s'adapter plus facilement à l'originalité de son cas, un outil favorisant les initiatives. L'utilisateur "apprivoise" ses données. L'outil de calcul proposé est Excel, logiciel présent un peu partout, particulièrement convivial, et, de plus, pourvu de nombreuses fonctions statistiques et mathématiques. Il permet de tester en direct la stabilité des résultats : on peut modifier ou écarter une ou plusieurs valeurs, et visualiser instantanément les conséquences. C'est aussi un outil de simulation particulièrement intéressant. Excel permet de "piloter" ses données, d'adapter ses calculs, ses feuilles à ses besoins. C'est dans un esprit de communication "vivante" avec ses propres données que nous faisons le choix de privilégier l'utilisation des fonctions Excel plutôt que celle de l'utilitaire d'analyse (complément statistique des macros complémentaires).
Ce choix favorise l'initiative et la création appropriée à son propre type de problème ainsi que la réutilisation des procédures de calcul. Il permet également de profiter pleinement de la convivialité de ces fonctions. Il est vrai que l'utilitaire d'analyse fournit rapidement de nombreux résultats numériques ce qui peut être précieux dans certains cas. Cependant, ses résultats sont figés. De plus, quelques maladresses de traduction entraînent parfois des erreurs d'interprétation. Nous décrirons néanmoins les résultats fournis par l'utilitaire mais nous les présenterons de façon presque systématique comme une "dernière méthode". A l'inverse, aucune macro n'est présente dans cet ouvrage. Nous considérons que l'intérêt n'est pas de créer un logiciel de statistique, le marché en offre déjà suffisamment.
Nous invitons les lecteurs peu familiers des calculs scientifiques avec Excel à consulter l'annexe qui recense les principales fonctionnalités utilisées dans cet ouvrage. Nous indiquons par exemple le système de références adopté et la différence entre références absolues et références relatives. Nous rappelons comment on utilise la poignée de recopie, les fonctions et leurs boîtes de dialogue et comment on introduit une fonction matricielle. Nous donnons également quelques notions sur les tableaux croisés dynamiques. En ce qui concerne les tests statistiques, pour guider les praticiens vers le test le plus approprié au problème qui leur est soumis, nous proposons un tableau récapitulatif des tests associés aux exemples étudiés dans cet ouvrage.
Principalement destiné aux utilisateurs, l'ouvrage est conçu pour faciliter la pratique statistique. Chaque technique statistique est introduite à partir d'un exemple. Ensuite, sont exposés l'outil théorique et la démarche statistique. Ces concepts sont suivis des calculs réalisés au moyen d'Excel. Généralement, plusieurs résolutions sont proposées : une première solution de type "manuel", destinée à comprendre l'outil, suivie de solutions plus rapides. Ce choix, à visée pédagogique, permet à l'utilisateur de maîtriser la méthode statistique sousjacente. Les exemples sont divers : études techniques, problèmes commerciaux, études d'images et d'évaluation, etc... La plupart des exemples et études de cas sont inspires d'études réelles proposées par divers organismes (Chambres d'Agriculture, laboratoires d'analyse physicochimiques, INRA, laboratoires d'analyses sensorielles, banques, sociétés agro-alimentaires, PME, etc...).
Pour des raisons évidentes de confidentialité, l'intégralité des données, les données précises, les noms des sociétés, des produits,... n'ont pu être indiqués. Cet ouvrage est destiné aux professionnels (ingénieurs et techniciens en agriculture et agro-alimentaire, responsables marketing et études de marché, ...), aux étudiants en agriculture et agronomie (écoles d'Ingénieurs et BTS), aux étudiants en Commerce (Écoles Supérieures et BTS) et aussi à mes collègues professeurs de statistique et autres matières.
Deuxième Partie STATISTIQUE INFERENTIELLE
4. BASES THÉORIQUES RAPPELS DE PROBABILITÉ LOI DE PROBABILITÉ AVEC EXCEL
L'objet de ce chapitre est de rappeler les principaux éléments de la théorie des probabilités utiles pour la compréhension ou l'approfondissement de la partie statistique inférentielle contenue dans cet ouvrage. Nous écarterons les fondements et bases classiques généralement bien connues des utilisateurs de même que des éléments plus spécialisés peu utiles dans la lecture de ce document. Dans ce qui suit, les variables aléatoires seront notées X, Y, Z, T, U et selon les besoins indicées.
4.1. RAPPELS DE PROBABILITÉ
4.1.1. Variables aléatoires
4.1.1.1. Paramètres statistiques classiques
Espérance mathématique
• Variable aléatoire discrète finie
X(n)={x,,x;,...,x,,} ; p,=P(X=x,) Vi e{l,2,..,n}
E(X)=^p,x,
Notons que cette définition se généralise au cas d'une variable discrète infinie.
• Variable aléatoire continue
E(X) = J xf(x)dx (f(x), densité de probabilité de X)
Variance
Var X=E^(x-E(X)) 2
1=c^ (autre notation de Var X)n
Var X = ^ p, ( x, - E( X ) ) (dans le cas où X est discrète)
Var X=E(X2)-[E(X)] 2 (formule de Kœnig)
Covariance
Cov(X,Y)-E[(X-E(x)) (Y-E(Y))] (espérance du produit des écarts à l'espérance.
Cov(X,Y)=E(XY)-[E(X) E(Y)] (formule de Kœnig)
Corrélation: r(X,Y)= cw^^ CTy CTy
4.1.1.2. Espérance et variance de fonctions fondamentales de variables aléatoires
• T = a X + b (a et b, paramètres réels)
- E(T) =aE(X)+b
- VarT -a2
VarX
• Z=X1+X2+...+X n
- E(Z) - E(X,) + E(Xz) + ... + E(Xn)
- Si, de plus. Xi, X2, ..., Xn sont indépendantes :
VarZ=VarX,+VarX2+...+VarXn
- Xi, Xz, ..., Xn indépendantes
ai, â2, . . , an paramètres réels
VarX,,
Dans le cas particulier où Var Xi = Var X2 = Var X,+X,+.
" Var X, on a ,+X 'l VarX
4.1.2. Lois de probabilité classiques
4.1.2.1. Loi de Bernoulli (ou loi de l'indicatrice), de paramètre p
On considère une épreuve aléatoire E (ou événement) à l'issue de laquelle deux résultats sont possibles : succès ou échec (respectivement codés 1 ^ 1 et 1 = 0) avec les probabilités respectives p et q = 1 - p. 1 est dite variable aléatoire de Bernoulli de paramètre p.
1 P(I-i) 0 q 1 P l-^B(p)
E(I)=p Varl=pq
4.1.2.2. Loi binomiale
On considère une suite de n épreuves indépendantes. A chaque épreuve, deux résultats sont possibles : E (succès) avec la probabilité p ou E (échec) avec la probabilité q = 1 - p.
La variable aléatoire X nombre de réalisations de E au cours des n épreuves
indépendantes est dite variable aléatoire binomiale de paramètres n et p avec n e N , p e [ 0,1 ]
Remarque : X = V I, où I; sont des indicatrices indépendantes.
- X->B(n,p)
- P(X=k)=C^ p1
- q"^
- E(X)=n p Var(X)=npq
4.1.2.3. Loi de Poisson
Soit X une variable aléatoire discrète infinie : X(f2)= {0,1,2,... }=N .
La loi de Poisson de paramètre m est une loi théorique définie par P(X = k) = (loi de Poisson de paramètre m)
- E(X) = Var X - m
Remarque : en pratique, cette loi est fréquemment utilisée dans le même contexte que celui de la loi binomiale, mais pour des événements rares.
4.1.2.4. Loi Normale ou loi de Laplace-Gauss
Soit X une variable aléatoire à valeurs dans R.
On considère les paramètres m e R et o e R+
. La loi Normale notée N(m,o) est une loi continue définie dans R par sa densité de probabilité :
X->N(m,o)
E(X) = m
VarX=o2
1 -'(?i - M ) 2 f(x)=—,=e 2 ° =y
oV27t
4.1.2.5. Loi Normale centrée réduite.
Soit X une variable aléatoire à valeurs dans R.
La loi Normale centrée réduite est une loi continue définie par sa densité de probabilité
g(x)=- X-»N(0,1)
IÎK ' ~ E(X)=0
VarX=l
Remarque ; le changement de variables x ' = ——— et y ' = CT y permet de o
transformer la loi N (m,o) en loi centrée réduite N ( 0 , 1 ) de densité de probabilité 1 -^ .în
4.1.2.6. Loi du X (ou Khi-deux)
Figure 4.1 Densité de probabilité de la loi du Khi-deux.
Y suit une loi de X2 à v degrés de liberté (ddl) notée Xv lorsque
Y = X,2
+ Xa2
+ +Xv où les X, sont des variables aléatoires N(0,1) indépendantes.
E(Y) = v et Var Y = 2 v.
4.1.2.7. Loi de Student
T suit une loi de Student à v degrés de liberté (ddl) notée Tv lorsque
T=- X +X +..-+X:,
où les X, sont des variables aléatoires N(0,1 ) indépendantes.
E(T)=0 et Va^T=—\—v-2
> Remarque : T = ——=— |X(V)
1———————————————————————6-t-T 0,08 ,
• 0^)6 ^ *0.04 »•*** 0.02
3-2- 1 C • • \'^ î 1 2 3
Figure 4.2 Densité de probabilité de la loi de Student.
Lorsque v -> oo (en pratique, v >30), T^ » N(0,1).
4.1.2.8. Loi de Fisher-Snedecor
F suit une loi de Fisher-Snedecor à (vi, V2) ddl lorsque
…
où les Xiet les Yi sont des variables aléatoires N(0,1) indépendantes.
2v^2 (v,+v;-2)
v,(v,-2)2 (v,-4)
Remarque : F = l(vl:1 / 2(V2) rapport de 2 /2 indépendants, chacun divisé par son ddl.
Vl V2
4.1.3. Convergences
4.1.3.1. Inégalité de Bienaymé-Tchebychev
P[|X-E(X)|>s]<^- (o=VVarX)
P[|X-E(X)|>to]<4- teR
P[[X-E(X)|<e]>l-^ 0
P[|X-E(X)|<to]>l--^-
4.1.3.2. Théorème central limite
Soient n variables aléatoires indépendantes de même espérance mathématique m et de même variance o2
. La variable aléatoire, moyenne arithmétique des n variables aléatoires Xi,
Xî, ..., Xn soit X = —'——2————"- est asymptotiquement normale ; autrement dit, quand n n
est grand, X suit approximativement une loi Normale V(m,——). En pratique, l'approximation ^n est fréquemment réalisée dès que n > 30.
4.1.4. Principales utilisations statistiques des lois du x2 et de Student
4.1.4.1. Présentation du contexte général 1
On considère :
- une variable aléatoire X ; X(Q) = R E(X) = mo ; Var X = oo2
- n variables aléatoires Xi indépendantes distribuées comme X :
E(Xi)=mo ;VarX;=oo2
Vi e {1,2,..,n}
- les fonctions de variables aléatoires :
i n 1 n _ ÇFF "
X=-Y'X et S^——Y^X-X)^—— avec SCE=Y(X-X)2
ntÏ n-1^ "-1 i~î
> Remarque : nous verrons ultérieurement, dans la partie Statistique inférentielle, que ce contexte est courant en statistique.
• Population : X est la grandeur quantitative étudiée, mo sa moyenne et Go sa variance.
• Echantillon aléatoire et simple
- taille n
- X, variable aléatoire moyenne d'échantillonnage
- S2
= On , variable aléatoire variance estimée.
En introduisant "-mo + mo", un simple calcul permet d'exprimer SCE sous une autre forme :
SCE^X.-^^X.-m^-n^-x)2
4.1.4.2. Présentation du contexte général 2
Le contexte général 2 est identique au contexte 1 sauf qu'ici X suit une loi
normale N(mo , oo )
On établit les résultats suivants.
L = '——-•-— = —— suit une loi de /2 à (n-1) ddl. Oo "o
T = —- niï
- suit une loi de Student à (n-1) ddl 0 Vn
La démonstration est relativement simple : à partir des expressions développées de X et S2
et compte tenu de la normalité des variables aléatoires X;, on fait apparaître les lois de fJ ~ et de T (cf. les définitions de ces lois au paragraphe 4.1.2).
Remarques
- quand n est grand ( n > 30 ), ——2
- »N(0,1 )J ^
- selon le contexte, on s'affranchira des notations : au lieu d'étudier X, ce peut être D, différence de 2 mesures, au lieu de X, ce peut être D, différence de 2 moyennes observées dans 2 échantillons, etc.
- lorsque le ddl du numérateur d'une variable de Fisher-Snedecor est égale à 1
(v, = 1 ), F = T2 (le « F » de Fisher-Snedecor est égal au carré d'une variable de « Student »).
4.2. LOIS DE PROBABILITÉ AVEC EXCEL
Nous indiquons ici comment on peut manipuler les lois de probabilité fondamentales pour la statistique inférentielle au moyen d'Excel.
Concernant les boîtes de dialogue proposées par le logiciel, il convient tout d'abord de noter quelques points.
Dans les zones intitulées "x", il faut saisir la valeur de l'axe des abscisses de la distribution étudiée.
Dans les zones intitulées "uni / bilatéral", on saisit "1" pour indiquer le caractère unilatéral et "2" pour le caractère bilatéral.
Précisons également un point relatif à la fonction de repartition F (ou fonction cumulative) d'une variable aléatoire X. Selon les publications, on trouve deux conventions différentes :
F(x)-P(X$x) et F(x)=P(X<x)
Cette nuance est importante lorsque X est une variable aléatoire discrète (dans cet ouvrage, nous utiliserons la loi de Poisson). Au niveau d'Excel, la convention adoptée est F(x)=P(X<x ) .
Remarque : la notation classique F de la fonction de répartition est bien entendu sans rapport avec le "F" de Fisher-Snedecor.
4.2.1. Loi de Poisson Pm
4.2.1.1. Probabilité d'obtention d'une valeur m'1
exp(-m) P(X=x)=- où m est le paramètre de Poisson égal à l'espérance mathématique.
Par exemple, pour m = 40, lorsque l'on veut déterminer P(X=30), il faut appeler la fonction LOI.POISSON(30;40;FAUX). L'argument "Cumulative" doit en effet être renseigné
"FAUX" puisqu'on calcule une probabilité simple et non cumulative. Le résultat est 0,018.
4.2.1.2. Fonction de repartition
Par exemple, pour calculer P(X^30), il suffit de saisir "VRAI" comme argument "Cumulative" de la fonction et on trouve 0,062.
4.2.2. Loi normale ou gaussienne N(m,o)
4.2.2.1. Fonction de répartition (ou probabilité cumulée)
Prenons l'exemple X -> N(m, o) avec m = 1,7 et o = 0,15 soit X -> N(1,7 , 0,15)
Pour calculer F(l, 8) = P(X < 1,8), on appelle la fonction LOI.NORMALE et l'on renseigne la boîte de dialogue.
- X : valeur limite jusqu'à laquelle on veut cumuler la probabilité
- Espérance : valeur de l'espérance mathématique de la loi gaussienne considérée
- Ecart-type : valeur de l'écart-type de la loi gaussienne considérée
- Cumulative : comme précédemment.