Cours complet en statistique appliquée
Chapitre 1 Introduction
A RELIRE
Les outils statistiques sont inventés dans un contexte historique qu’ils impactent en retour. Si dans leur cadre moderne de branche des mathématiques, la recherche en statistiques jouit d’une forte autonomie, elle est aussi guidée et marquée par ses applications et ses conséquences sociales. Théorie et applications sont donc intimement liées dans le champ des statistiques.
A La statistique pré-moderne
1 La préhistoire de la statistique
Dès la période égyptienne, on note la présence de nombreux recensements de populations. À partir du xiiie siècle se développe l’estimation des risques maritimes à Venise. Ces premiers balbutiements de la théorie du risque donnent naissance aux premières assurances, dont l’activité se fonde sur des théories probabilistes. Le mot « statistique » n’est cependant véritablement consacré qu’au xviie siècle en Allemagne, où il désigne la science de l’État (Staat en allemand) : c’est alors un outil pour l’armée et les impôts. Par la suite, l’essor de la statistique a permis de nombreuses découvertes et a trouvé de multiples applications. Par exemple, l’outil statistique permet de déterminer qu’il y a plus de bébés garçons que de bébés filles (107 pour 100), il permet d’estimer le prix d’une rente viagère… Au xviiie siècle apparaît la première méthodologie d’inférence, à travers l’estimation d’une population par « coefficient multiplicateur » (on multiplie le nombre de naissance annuelle par 27,5 pour obtenir la population à partir des registres paroissiaux).
2 Formalisation et probabilités
La statistique se formalise à l’aune de la théorie des probabilités. Dès 1713, Bernoulli formule la loi des grands nombres. C’est aussi à cette époque que l’on formalise la loi normale, à travers le problème des moindres carrés de Gauss et le théorème central limite de Laplace. Bayes et Laplace développent ensuite respectivement la statistique dite bayésienne et la statistique dite inférentielle : on parle alors de « probabilité inverse ». De nos jours, la statistique bayésienne trouve notamment une application dans les boîtes mail, à travers la gestion des filtres antispam.
B Anthropométrie
1 Des sciences naturelles…
C’est l’astronomie qui constitue le point de départ du développement des statistiques en sciences. En effet, lors d’observations astronomiques différentes, on observe qu’un astre n’apparaît pas au même point. Alors, l’étoile bouge-t-elle ? Une telle hypothèse semble farfelue. La seule hypothèse crédible est donc d’admettre qu’il existe des erreurs de mesure. Dès lors, prendre la position moyenne permet, en vertu de la loi des grands nombres, d’estimer au mieux la véritable position de l’étoile. Et, si les données observées sont « normales », on observe alors empiriquement qu’elles se répartissent selon une loi de Gauss (courbes en cloche ci-contre).
2 … à une physique sociale
Quatelet (1796-1874) développe un observatoire de la population et cherche à appliquer les techniques statistiques de l’astronomie en démographie et en physique sociale. Pour Quatelet, « un être nouveau mais bien réel lui aussi, l’homme moyen, existe en amont des individus tous différents les uns des autres. Il constitue la cause constante de la distribution des tailles observées », écrit Alain Desrosières. Quatelet défend fermement ce concept d’homme moyen, esquissant déjà de l’idée d’un patrimoine génétique commun. Galton (1822-1911), fondateur de la statistique mathématique à travers des outils comme la régression, la médiane et les quartiles, va lui plus loin avec sa pensée eugéniste. Du quantifiable, Galton dévie ainsi vers un usage héréditaire appliqué au contrôle des naissances et à l’analyse factorielle comme réification du QI. Galton a en outre fondé la première revue de statistiques, Biometrika. La pensée statistique de Galton a essaimé : coefficients de corrélation, écart-type, ajustement du χ2 (Pearson, père), vraisemblance, plan d’expérience (Fisher), tests et intervalles de confiance (Pearson, fils) deviennent rapidement des outils statistiques utilisées couramment en physique sociale.
3 Les exemples controversés de la « race » et du quotient intellectuel (QI)
Prenons ainsi l’exemple de la « race » comme variable. L’expérience STAR (Tennessee) de 1995 visait à déterminer quelle classe parmi une classe normale, une petite classe et une classe aidée réussissait le mieux. Anticipant sur les résultats, certains parents auraient pu fausser l’expérience en choisissant de placer leur enfant dans une classe spécifique, ruinant la part d’aléatoire dans l’expérience. Il fallait donc s’assurer de la bonne répartition des élèves au sein des trois groupes. Aux États-Unis, le critère « neutre » pour assurer la bonne répartition fut… la race des élèves (chose qui aurait été bien évidemment impossible en France, la loi interdisant les statistiques ethniques). La répartition des élèves au sein des classes est celle de la table 1.1.
…
La question qui se pose alors est la suivante : les races existent-elles vraiment ? Selon la décision no 2007-557 DC du Conseil constitutionnel du 15 novembre 2007, « si les traitements nécessaires à la conduite d’études sur la mesure de la diversité des origines des personnes, de la discrimination et de l’intégration peuvent porter sur des données objectives, ils ne sauraient, sans méconnaître le principe énoncé par l’article 1 er de la Constitution, reposer sur l’origine ethnique ou la race ». La question n’est donc pas tranchée. L’expérience de la table 1.2 prétend avoir démontré la supériorité de l’homme blanc. Au delà du fait que le volume crânien ne détermine pas l’intelligence, des erreurs de mesures ont été commises par Morton et ses assistants, ce qui a poussé Gould à retravailler ses résultats dans la table 1.3, en utilisant des grenailles de plomb, moins déformables que les grains de poivre :
Race Volume moyen (cm3)
Caucasien (blanc) 1 426
Mongol (asiatique) 1 360
Américain (indien) 1 344
Malaise (océanien) 1 327
Éthiopien (noir) 1 278
…
Tout aussi controversés que les statistiques ethniques, les tests de quotient intellectuel (QI) présentent eux aussi des biais. Ainsi, dans une population donnée, le QI moyen doit s’élever à 100. Or les tests de QI par pays sont de nos jours mal conçus, car ils ne sont pas adaptés aux populations du pays. Les tests de Richard Lynn (voir figure 1.2) sont dès lors biaisés. Peut-on alors mesurer la race et le QI par pays avec des intentions pures ? Telles sont les questions éthiques que soulèvent les problèmes statistiques.
C Les statistiques, quantifier pour objectiver ?
Les données ne sont in fine que des constructions sociales ; elles ne vont jamais d’elles-mêmes. En particulier, elles peuvent être produites par l’État ou un autre pouvoir à des fins de gouvernement ou de gestion. La statistique n’est donc jamais neutre. Les données statistiques peuvent également être récoltées et travaillées par des chercheurs, pour éclairer un questionnement. Dans les deux cas, une intention est à l’origine d’une construction.
1 La statistique publique et la statistique industrielle
Alain Desrosières a étudié la typologie de la statistique publique, qu’on traduit dans la table 1.4.
…
Au xxe siècle se développe la statistique industrielle. Dès les années 1900 à 1940, Fisher s’intéresse aux rendements agricoles. Par la suite, Student alias William Gosset, brasseur chez Guinness, étudie des phénomènes statistiques en disposant de peu de données. Entre les années 1940 et 1970, Shewart, Deming et Weibull permettent le développement de l’industrie militaire puis de l’industrie civile. Les applications pratiques des résultats établis par ces derniers pontes de la statistique vont peut être converger avec le nouveau management public. En effet, la statistique publique version néolibérale (Eurostat en Europe) et la statistique industrielle vont sans doute être utilisées conjointement dans le cadre du management des établissements publics.
2 Deux visions des statistiques
Il existe deux visions des statistiques. Tout d’abord, avec la vision réaliste, on « postule qu’il existe pour chaque individu des ”variables” de valeur unique réelles, indépendantes de tout jugement et des modalités de questionnement » (tome II, chapitre 6, page 138). C’est le postulat adopté par Quatelet lorsqu’on mesure le tour de poitrine d’un conscrit. En revanche, l’approche statistique peut également être conventionnelle : « la trace de l’acte initial de codage reste visible et importance, soit dans une perspective de dénonciation, soit parce que l’agrégat est directement articulé sur une forme d’action collective. Dans ce cas, l’intention de l’agrégation et de l’addition reste présente dans l’usage de la statistique présentée » (tome I, chapitre 9, page 161). On peut donc faire dire différentes choses aux statistiques en fonction des conventions adoptées, mais il ne s’agit pas de faire dire aux statistiques n’importe quoi non plus ! La statistique procède certes d’une construction, mais le fait par exemple, pour un étudiant, d’être boursier ou non, est une convention claire et distincte. Réalisme et conventionnalisme ne s’opposent cependant pas totalement. Ces deux visions s’opposent au trucage, à travers le rôle des indicateurs. Ainsi, en statistiques, « la ”réalité” n’est pas rejetée comme métaphysique, comme elle l’est par Pearson, mais elle n’est pas non plus directement mesurable comme l’est le réel des sciences de la nature »(tome II, chapitre 11, page 191). Ces indicateurs peuvent donc fixer des critères réels à l’aune desquels effectuer un travail statistique. Ainsi, le seuil de pauvreté est déterminé par rapport à la distribution des niveaux de vie de l’ensemble de la population. Par exemple, la France, à travers les travaux de l’INSEE, privilégie ainsi un seuil de pauvreté à 60 % de la médiane des niveaux de vie, mais publie des taux de pauvreté selon d’autres seuils (40 %, 50 % ou 70 %). Cependant, la multiplication des indicateurs pose parfois un risque de réification, comme en témoigne l’exemple du QI.
Le risque de réification n’est pas l’unique danger auquel sont soumises les variables statistiques. En effet, dans leur deux approches, celles-ci sont aussi exposées aux risques de la double conscience, c’est-à-dire un glissement sémantique dû à un changement de rôle social ou d’interlocuteur. Ainsi, Cahue et Carcillo dans la Revue économique de 2007 répondent à la question « Que peut-on attendre de l’interdiction de licencier pour améliorer la compétitivité des entreprises ? » Dans la partie empirique, le chômage est considéré comme recherche d’emploi tandis que, dans la partie théorique, le chômage est pris comme temps de loisirs : un même mot désigne alors deux réalités bien différentes.
3 Quantification instituante : auto-réalisation et performativité
Les statistiques, par leur travail même, produisent des effets. Ces effets peuvent être de deux genres. Le premier, c’est l’auto-réalisation. Ainsi, « les classements reproduisent et renforcent la stratification qu’ils prétendent mesurer » (Espeland et Sauder, 2007). Dès lors, comme le constate Valérie Pécresse en 2013, « le classement de Shanghaï [est] certes critiquable, mais […] on ne peut s’en abstraire et nous devons donc gagner des places ». Le second effet des statistiques peut être performatif. Ainsi, les classements internationaux comme celui de Shanghaï produisent une séparation entre « universités mondiales » et établissements locaux.
…
E Probabilités : définitions 1
Variables aléatoires réelles
Définition 1 (Variable aléatoire) Une variable aléatoire réelle X est une façon d’assigner un nombre réel à chaque élément ω de l’univers Ω. Formellement, c’est une fonction X de Ω dans R qui, à chaque ω ∈ Ω associe une valeur X (ω) ∈ R.
X : Ω −→ R
ω 7→ X (ω) = x
On note X l’image de Ω par X, c’est-à-dire l’ensemble des valeurs atteintes (c’est donc une partie de R).
Exemple Les exemples canoniques sont le dé ou la pièce, pour lesquels Ω est l’ensemble des conditions physiques qui décrivent le lancer et déterminent le résultat. Elles sont inaccessibles, et donc toute l’idée des probabilités est de s’intéresser à ce qu’on peut quand même dire sur le résultat sans savoir ce qui se passe dans Ω. X est [|1; 6|] pour le dé, {Pile, Face} ou {0; 1} pour la pièce.
Définition 2 (Mesure de probabilité) La mesure de probabilité PX associée à la variable aléatoire est X associe à chaque partie de R (en fait pas nécessairement toute, mais toutes celles qui sont utiles) un réel entre 0 et 1 :
PX : P(R) −→ [0; 1]
B 7→ PX(B) = P(X ∈ B) = P({ω ∈ Ω, X(ω) ∈ B}) = P(X − (B)) où X
− est une forme de fonction inverse.
2 Fonction de répartition
Définition 3 (Fonction de répartition) La fonction de répartition d’une variable aléatoire X est l’application F de X dans [0, 1] définie par : FX(x) = Pr(X ≤ x)
La fonction de répartition FX(x) d’une variable aléatoire X représente la probabilité que X soit inférieure ou égale à x. Définition 4 (Variable aléatoire discrète, variable aléatoire continue) Une variable aléatoire X est continue si sa fonction de répartition FX(x) est continue. Elle sera discrète si FX(x) est une fonction en escalier.
Proposition 1
• FX est croissante.
• Pr(a < X ≤ b) = FX(b) − FX(a).
• FX est continue à droite.
• FX a une limite à gauche. Elle est continue à gauche dans le cas des variable aléatoire continues.
…
2 Distributions marginales
Dans un couple de variables aléatoires, la distribution marginale d’une des variables est la distribution de cette dernière, quelles que soient les valeurs prises par l’autre. On l’obtient en sommant les probabilités au travers de toutes la valeurs possibles de l’autre membre du couple, ou en intégrant la densité jointe par rapport aux valeurs de l’autre membre du couple.
Définition 16 (Distribution marginale, cas discret) Soit X, Y un couple de variables aléatoires discrètes. Les distributions marginales de X et Y sont donnée par : Pr X (x) = ∑ K k=1 Pr X,Y (x, yk) et Pr Y (y) = ∑ K k=1 Pr X,Y (xk, y)
Définition 17 (Distribution marginale, cas continu) Soit X, Y un couple de variables aléatoires continues. Les distributions marginales de X et Y sont donnée par : fX(x) = ∫ +∞ −∞ fX,Y (x, y) dy et fY (y) = ∫ +∞ −∞ fX,Y (x, y) dx
3 Distributions conditionnelles
Dans un couple de variables aléatoires X, Y , la distribution conditionnelle de l’une sachant la valeur de l’autre correspond à la distribution de l’une des variables aléatoires pour une réalisation donnée de l’autre.
Table des matières
1 Introduction 9
A La statistique pré-moderne . . . . . . ..... . 9
1 La préhistoire de la statistique ..... 9
2 Formalisation et probabilités ..... . 9
B Anthropométrie ....... . . . . . 10
1 Des sciences naturelles… ..... . . . . 10
2 … à une physique sociale ..... . . . . 10
3 Les exemples controversés de la « race » et du quotient intellectuel (QI) ....... . . . 11
C Les statistiques, quantifier pour objectiver ? ... . . . . . 13
1 La statistique publique et la statistique industrielle . . . . . . 13
2 Deux visions des statistiques ..... . . 13
3 Quantification instituante : auto-réalisation et performativité 14
D Notations ......... 15
E Probabilités : définitions ....... 16
1 Variables aléatoires réelles ..... . . . 16
2 Fonction de répartition ..... . . . . . 16
3 Fonction de densité ......17
4 Quantile ....... . . . . . 18
F Moments ......... 18
1 Espérance ....... . . . . 18
2 Moments simples, moments centrés ... . . . . . . 18
G Couple de variables aléatoires ..... . . . . . 20
1 Distribution jointe ......20
2 Distributions marginales ..... . . . . 20
3 Distributions conditionnelles ..... . . 21
4 Indépendance ....... . . 21
5 Covariance, corrélation ..... . . . . . 21
H Probabilités : théorèmes ....... 22
1 Modes de convergences ..... . . . . . 22
2 Lois des grands nombres et théorème central limite . . . . . . 23
3 Extensions ....... . . . 24
4 Lois associées à la loi Gaussienne ....25
2 Estimation par substitution 27
A Estimation de l’espérance ......29
B Estimation de la variance ......33
3 Intervalles de confiance et tests 37
A Intervalles de confiance ....... . 37
1 Définition ....... . . . . 37
2 Espérance d’un échantillon gaussien, variance connue . . . . . 38
3 Espérance d’un échantillon gaussien, variance inconnue . . . . 40
4 Espérance d’un échantillon non gaussien ... . . . 41
5 Taille d’échantillon et précision ..... 42
B Premiers tests ....... . . . . . . 43
1 Définitions ....... . . . 43
2 Test bilatéral pour l’espérance d’une gaussienne ..46
2.1 Cas où la variance est connue ... . . . . 47
2.2 Cas où la variance est inconnue ... . . . 48
2.3 Cas où la loi est inconnue ... . . . . . . 48
3 Test bilatéral de la variance d’une loi normale ... 49
4 Tests de comparaison de deux espérances ... . . . 50
4.1 Cas où les variances sont connues ... . . 50
4.2 Cas où les variances sont inconnues, mais supposées égales (test de Student) ....50
5 Tests de comparaisons de deux variances (test de Fisher) . . . 51
4 Contraste du χ 2 55
A Test d’adéquation du χ2....... 55
1 Adéquation à une loi ..... . . . . . . 55
2 Adéquation à une famille de lois ..... 58
3 Test d’indépendance du χ2..... . . . 60
5 Statistique mathématique 65
A Cadre formel ....... . . . . . . 65
1 Vraisemblance ....... . 65
2 Statistique exhaustive ..... . . . . . 68
B Ordres sur les estimateurs ......69
1 Comparaison d’estimateurs : biais et variance ... 69
2 Estimateur efficace : l’inégalité de Fréchet, Darmois, Cramer,
Rao ........70
3 Modèles de forme exponentielle ..... 76
6 Maximum de vraisemblance 79
A Maximum de vraisemblance unidimensionnel ... . . . . . 79
1 Définitions ....... . . . 79
2 Propriétés à distance finie ..... . . . 81
3 Propriétés asymptotiques ..... . . . 82
B Maximum de vraisemblance multidimensionnel ... . . . . 82
1 Cadre multidimensionnel ..... . . . . 82
2 Borne de Cramer-Rao ..... . . . . . 83
3 Maximum de vraisemblance multidimensionnelle ..83
C Rapport de vraisemblance ......84
1 Intervalles de confiance ..... . . . . . 84
2 La méthode de Neyman et Pearson ... . . . . . . 84
3 Test de la moyenne d’une loi normale ... . . . . . 85