Cours d’introduction a la statistique informatique

Cours d’introduction à la statistique informatique
Introduction
Statistique(∗) : le mot n’a pas trois siècles mais la pratique en est multi-millénaire. Tout a commencé par des études démographiques, il y a 5000 ans déjà chez les Sumé-riens(†).
Les Chinois, les Egyptiens et plus près de nous les Romains recensaient les per-sonnes et les biens. On se souvient que Marie donna naissance à Jésus dans une étable de Bethlehem lors du voyage qu’elle entreprit avec Joseph vers la Judée pour qu’il s’y fasse recenser. C’était il y a 2000 ans environ.
Les Carolingiens voulaient connaître leur patrimoine et les Capétiens l’état du royaume. Nul ne doit échapper à l’impôt et tous les récidivistes, ceux qui par deux fois volent un pain, doivent Þnir aux galères : tolérance zéro. Alors, tout au long des siècles on compte, on classe, on dresse des registres, on ouvre un "bureau de la statistique républi-caine". On connaît les richesses du pays. Il devient impossible d’échapper à la conscription, napoléonienne d’abord, républicaine ensuite.
Intimement liées, les statistiques et la taxonomie se développent pour le plus grand proÞt des sciences naturelles : c’est à partir des mêmes observations et des mêmes classiÞcations, que l’évolutionisme de Darwin et le transformisme de Lamarck s’opposent ; ce sont les statistiques sur ses petits pois qui conduisent Mendel aux lois de l’hérédité.
Cette frénésie de mensuration et de classiÞcation n’épargne pas l’homme. On ap-prend à distinguer les brachycéphales des dolichocéphales, on mesure l’angle facial, la taille des oreilles et bien d’autres choses. Mais un jour tout dérape : on en tire des conclusions. L’outil scientiÞque, devenu outil de répression avec l’anthropométrie‡ de Bertillon, devient un outil d’exclusion§ et d’extermination.
Tout en se développant, les statistiques évoluent. Initialement descriptives, elles atteignent au 18eme` siècle un haut degré de sophistication dans ce domaine, principalement sous l’impulsion de l’école allemande. Dans le même temps le calcul des probabilités se développe : Jacques Bernoulli(¶) démontre la loi des grands nombres, Thomas Bayes introduit les probabilités des causes.
Dès lors les statistiques deviennent un outil qui permet de prédire avant même de comprendre. C’est de cette époque que l’on peut dater la naissance des statistiques mathématiques et des techniques de sondage, encore que des méthodes de collecte, de
∗Du latin moderne (statisticus = relatif à l’état ), le terme passe à l’Allemand avec son acception moderne (Statistik ), puis au Français vers la Þn du 18eme` siècle.
†Nous serions heureux que la lecture de cette introduction donne l’envie d’ouvrir une encyclopédie, un dictionnaire ou d’aller sur la toile. Mais que l’on se rassure ! Nous ne prendrons pas le risque d’écrire un polycopié qui, du premier au dernier mot, devrait se lire un dictionnaire à la main.
‡Appliquée à l’homme, la biométrie devient anthropométrie.
§Les statistiques sont aujourd’hui encore un puissant outil de répression et d’exclusion couramment utilisé par les administrations. Attention aux dérapages !
¶Jacques Bernoulli (1654-1705) est l’oncle de Daniel Bernoulli (1700-1782) qui énonça le théorème d’hydraulique qui porte son nom.
Introduction traitement et d’extrapolation des données soient apparues en Angleterre dès la seconde moitié du 17eme` siècle.
Une fois de plus la démographie est à l’honneur. Initiés par l’astronome Edmond Halley (1656-1742), les travaux sur les probabilités de la durée de vie humaine sont appro-fondis en Hollande et en France. Les résultats en sont utilisés dès le début du 19eme` siècle pour calculer le montant des rentes et des viagers.
Au 19eme` siècle et au début du 20eme` siècle, les statistiques et le calcul des pro-babilités acquièrent les moyens de leur efficacité présente.
Les travaux de Laplace∗ et ceux de Gauss∗ permettent d’établir la loi normale. Une théorie des erreurs peut alors être construite en toute généralité, grâce au théorème central limite† dont les premières versions découlent des travaux de Moivre∗ et de Laplace.
Bienaymé∗ et Tchebychev∗ démontrent la célèbre inégalité qui porte leurs noms, tandis que les travaux de Francis Galton (1822-1911) et Karl Pearson‡ (1857-1936), cofon-dateurs de la revue Biometrika, conduisent aux notions de corrélation et de régression ainsi qu’aux tests d’hypothèses.
A ces travaux sont encore associés les noms de Egon Pearson (le Þls de Karl), Ronald Fischer∗ , William Gosset∗ et George Snedecor∗ qui furent, avec bien d’autres, les artisans du remarquable développement des statistiques.
La véritable révolution se produit cependant au coeur du 20eme` siècle. C’est alors que se généralisent les techniques de sondage et d’échantillonnage et que probabilités et statistiques entrent massivement, de façon opérationnelle dans des domaines les plus variés. On assiste au développement de nombreuses méthodes, qui s’adaptent de façon spéciÞque à des activités précises et diverses ; parmi celles-ci, les méthodes d’ajustement en physique qui généralisent la méthode des moindre carrés due initialement à Gauss et à Legendre∗ et deviennent ”analyse factorielle” pour le marketing, la publicité ou la sociologie. Les études statistiques et les tests de toutes natures permettent d’attribuer des causes aux phénomènes incompris et d’apprécier la validité des hypothèses posées, concernant aussi bien l’anthropologie que l’industrie, la médecine que la politique. Elles fournissent une aide à la décision et deviennent recherche opérationnelle pour la gestion des Þles d’attente, le commerce ou les transports.
Mentionnons tout particulièrement l’extraordinaire développement de la physique statistique et des méthodes d’analyse du signal tout au long du siècle dernier.
Complétées par la puissance des ordinateurs, les statistiques apparaissent au-jourd’hui comme un outil magniÞque. Mais derrière les progrès enregistrés pointent des dangers qui requièrent la vigilance de chacun. Nous avons appris à nous méÞer de la bio-métrie dans un contexte que nous souhaitons révolu. L’enfer est pavé de bonnes intentions dit-on ; maintenons donc notre méÞance des outils statistiques, des Þchiers pléthoriques et des moyens de les ”croiser”, des cartes à puces, des passeports infalsiÞables, de la numé-risation de l’oeil et de la voix, car nulle loi ”informatique et liberté” ne saurait protéger, à elle seule, le citoyen de cette prison sans murs qui se construit jours après jour et qui, pour enfermer ceux qui doivent l’être, enferme aussi chacun de nous.
∗Pierre-Simon de Laplace : 1749-1827. - Carl Friedrich Gauss : 1777-1855. -Abraham de Moivre :1667-1754. - Irénée-Jules Bienaymé : 1796-1878. - Pafnuti Lvovich Tchebychev : 1821-1894. - Ronald Aylmer Fischer 1890-1962 (Sir Ronald). — William Gosset (dit Student ) 1876-1937.
- Georges Waddel Snedecor : 1881-1974. - Adrien-Marie Legendre : 1752-1833.
† Théorème dont les hypothèses furent élargies par Lyapounov et Lindeberg au début du 20ème siècle.
‡K. Pearson est en outre le fondateur d’un laboratoire de biométrie et d’un laboratoire d’eugénique.
Introduction Les statistiques constituent un outil universellement utilisé dans le domaine scien-tiÞque, mais aussi dans des domaines aussi variés que la production industrielle, la po-litique ou le marketing. La démonstration de l’existence d’un phénomène ou d’une loi physique, la mesure d’une grandeur quelconque, l’évaluation des risques aussi bien que l’essentiel des informations qui nous parviennent sont de nature statistique. Quelles que soient vos activités professionnelles futures, vous serez confrontés à cette réalité de façon passive ou critique (voire active) selon votre formation. Ce constat justiÞe un enseigne-ment spéciÞque, dans le cadre d’une formation générale scientiÞque approfondie.
Les motivations pédagogiques de l’unité d’enseignement LP 341 de l’Université Pierre et Marie Curie sont ainsi formulées, tandis que le programme est le suivant
- Statistiques descriptives
- Théorie des probabilités, variables aléatoires
- Principales lois : binomiale, Poisson, Gaussienne, chi2, Student
- Loi des grands nombres et théorème de la limite centrale
- Statistique inférentielle : estimation statistique, intervalle de conÞance
- Description de données, analyse chi2 de la description, analyse chi2 de l’indé-pendance, régression linéaire
Ainsi exprimés, les motifs qui président à l’enseignement des statistiques sont clairs. Cependant, pour en préciser le contexte et achever cette introduction, nous attirons l’attention sur un contresens à éviter.
Avec les statistiques nous disposons d’un outil puissant ; mais ce n’est qu’un outil qui permet de qualiÞer les réponses à certaines questions jugées pertinentes. En aucun cas cet outil ne peut apprécier la pertinence d’une question : si ce sont les séries chronologiques des cours de la bourse que l’on présente dans les banques de préférence aux séries chronologiques des licenciements ce n’est pas dû à la nature des statistiques mais à la seule question posée du plus grand proÞt possible, jugé comme essentiel.
Même si les bonnes questions sont posées, il reste encore quelques écueils à éviter. L’expérience montre que l’observateur est le plus souvent partisan : "nous allons faire une étude pour montrer que..." ; combien de fois n’avons nous entendu une telle entrée en matière(†). Pour éviter que l’observateur ne soit acteur, il faut prendre deux précautions essentielles :
- Il faut s’assurer d’une collecte "honnête" des données. Si on étudie une population à travers un échantillon, il faut s’assurer que l’échantillon est représentatif et qu’il a été choisi suivant les règles qui permettent l’usage des méthodes scientiÞques employées. Dans un sondage d’opinion, il convient de ne pas inßuencer la réponse par la façon de poser la question. Dans tous les cas il faut se retenir d’éliminer les observations dérangeantes ; etc.
- Le protocole qui conduit à l’interprétation des données doit être "honnêtement" déÞni a priori, antérieurement à tout résultat.
Si ces conditions n’étaient pas toutes deux remplies, alors, avec Benjamin Dis-raelik, nous devrions convenir qu’après le mensonge et le Þeffé mensonge, ce sont effecti-vement les statistiques qui constituent le suprême degré du mensonge.
†Il faut poser le doute en postulat ce qui conduit à utiliser l’expression "pour vériÞer si..." et non "pour montrer que...".
kHomme d’état anglais (1804-1881).
Introduction
Chapitre 1 LES STATISTIQUES À UNE DIMENSION
1.1 Introduction
Chaque discipline dispose de son propre vocabulaire. Les mots qui y sont employés recouvrent des concepts et désignent des préoccupations spéciÞques. Une promenade lexi-cographique nous permettra donc d’introduire les statistiques.
L’objet des statistiques est la description et l’étude des populations nombreuses. Il faut toutefois comprendre que population ne désigne pas nécessairement une population d’êtres humains ni même d’êtres vivants mais tout simplement un ensemble d’objets que l’on appelle individus. Ces mots sont là parce que ”statistiques” et ”démographie” se sont développées de concert. Ainsi, un ensemble d’automobiles constitue une population dont les individus sont des automobiles.
La population que l’on étudie doit être déÞnie avec précision. Une population est déÞnie en extension, on dit aussi ”de façon extensive” ou "in extenso", lorsqu’on donne la liste complète des individus qui la composent : par exemple l’ensemble des abonnés au téléphone qui Þgurent dans le bottin de la Creuse de 1992.
Lorsque la population est déÞnie par une propriété qui permet d’en reconnaître les individus, on dit qu’elle est déÞnie en compréhension : par exemple l’ensemble des chiens non tatoués, errant sur la commune de Bergerac.
Il est vain d’espérer décrire un individu, quel qu’il soit, de façon exhaustive. On sélectionne en général un caractère dont on soupçonne la pertinence pour l’étude en cours.
Un gaz est considéré comme une population de molécules dont nous supposons que seule l’énergie cinétique de translation nous intéresse ; les autres formes d’énergie ainsi que la nature et le nombre d’atomes qui constituent les molécules nous indiffèrent. L’énergie cinétique de translation constitue le caractère étudié.
Pour décrire ce caractère on dispose d’un descripteur qui peut prendre plusieurs valeurs. A chaque individu, i, on fait donc correspondre la valeur Xi, de son descripteur. On dit que la correspondance i 7→ Xi déÞnit une variable X (dans un autre contexte cette correspondance est appelée ”une fonction”).
La variable peut être numérique, c’est le cas de l’énergie cinétique de translation dans l’exemple précédent ; mais ce n’est pas toujours le cas.
Considérons la population de ceux qui répondirent ”non” au référendum du 29 mai 2005, en France. Nous cherchons à en décrire le niveau de revenu. A ce stade, les valeurs du descripteur sont numériques, mais pour simpliÞer nous introduisons 4 catégories, A, B, C et D caractérisées par le revenu R correspondant :
A : R ≤ S, B : S < R ≤ 3S, C : 3S < R ≤ 6S, D : 6S < R
où S est le salaire minimal interprofessionnel de croissance (SMIC). Les valeurs possibles X = A, B, C ou D de la variable ne sont pas des valeurs numériques mais elles peuvent être classées par ordre croissant de revenu. On dit que X est une variable ordinale (qui peut être ordonnée).
Toujours dans le même but de décrire la population de ceux qui votèrent ”non”, nous nous intéressons à leur ”catégorie sociale” déÞni par leur catégorie socioprofession-nelle (CSP). La CSP constitue le caractère étudié, nous utilisons comme descripteurs la classiÞcation de l’INSEE∗ qui peut prendre les valeurs suivantes : A = agriculteurs exploi-tants, B = artisans, C = commerçants, D = chefs d’entreprise, E = cadres et professions intellectuelles supérieures, F = professions intermédiaires, G = employés, H = ouvriers, I = chômeurs n’ayant jamais travaillé. Il n’est pas possible d’ordonner ces valeurs, de les classer l’une par rapport à l’autre. On dit dans ce cas que la variable est non numérique. Cela n’interdit pas cependant d’utiliser un numéro de code pour distinguer les diverses classes et par conséquent de représenter une variable non numérique par un nombre.
Considérons maintenant une population constituée d’individus auxquels sont as-sociées deux variables, X et Y. La population est, par exemple, l’ensemble des ménages formés de couples. Les revenus respectifs de chacun des membres du couple sont X et Y. On utilise les 4 classes, A, B, C et D ci-dessus pour décrire les revenus.
A chaque individu (chaque ménage), on associe les valeurs X et Y. On observe les couples de résultats suivants, correspondant à quatre populations étudiées P1, P2, P3 et P4 :
P1 : (A, A) , (A, A) , (B, C) , (B, C) , (B, C) , (C, C) , (C, C) , (D, A) , (D, A) , (D, A) P2 : (A, B) , (A, B) , (B, A) , (B, A) , (B, A) , (B, C) , (B, C) , (C, D)
P3 : (A, A) , (A, D) , (B, C) , (C, C) , (C, C) , (C, D) , (D, C) , (D, C) , (D, D) , (D, D) P4 : (A, B) , (A, C) , (A, C) , (B, B) , (B, C) , (B, C) , (D, B) , (D, C) , (D, C)
Les quatre populations considérées sont formées respectivement de 10, 8, 10 et 9 individus. On dit que leur cardinal est respectivement 10, 8, 10 et 9.
Chacune de ces populations déÞnit une relation entre X et Y.
• P1 : Dans cette population, dès que la valeur de X est connue, la valeur de Y s’en déduit :
X = | A | B | C | D |
↓ | ↓ | ↓ | ↓ | |
Y = | A | C | C | A |
La variable Y apparaît comme une fonction de X.
• P2 : Dans cette population, dès que la valeur de Y est connue, la valeur de
X s’en déduit : | ||||
X = | B | A | B | C |
↑ | ↑ | ↑ | ↑ | |
Y = | A | B | C | D |
La variable X apparaît comme une fonction de Y.
Dans les populations P1 et P2 la liaison entre X et Y est appelée liaison fonc-tionnelle.
• P3 : Nous mettons en évidence la relation entre X et Y au moyen d’un tableau à double entrée :
∗Institut National de la Statistique et des Etudes Economiques.
…
Le tableau précédent représente le graphe de la relation entre X et Y. A l’évidence, sauf cas particuliers, la connaissance de X ne détermine pas celle de Y, pas plus que la connaissance de Y ne détermine celle de X : la relation entre X et Y n’est pas une relation fonctionnelle. On dit que c’est une relation stochastique† ou une relation aléatoire.
- P4 : La population P4 déÞnit la relation représentée par le graphe ci-dessous
…
Cette population est remarquable car la valeur de X étant Þxée, la distribution des valeurs de Y est 1/3 pour B et 2/3 pour C. Elle est indépendante de la valeur de X, que ce soit A, B ou D. On démontre alors que la valeur de Y étant Þxée, la distribution des valeurs de X ne dépend pas de la valeur de Y. On vériÞe ici que la distribution des valeurs de X est 1/3 pour A, B, C ou D. Dans une telle situation remarquable, on dit que les variables sont stochastiquement indépendantes. De façon pratique cela signiÞe que la connaissance de X ne nous donne aucune indication sur les valeurs possibles de Y.
Remarquons que ce n’est pas le cas dans la population P3. Dans cette population, sans que ce ne soit une règle absolue, il apparaît que les hautes valeurs de X (c’est-à-dire X = C ou D) sont associées de préférence aux hautes valeurs de Y. On dit que les deux variables sont corrélées.
Les populations étudiées sont souvent si nombreuses qu’il est pratiquement im-possible d’en observer chaque individu. Dans ces conditions, on extrait de cette population un sous-ensemble (on en tire un échantillon). C’est l’échantillon que l’on observe aÞn de déduire de ces observations les propriétés de la population complète. On conçoit que la façon de choisir l’échantillon est très importante. Votre étude ne sera pas Þable si vous prétendez étudier les Français et que vous n’interrogez que des Auvergnats sous prétexte que vous habitez Clermont-Ferrand. De même, prétendre décrire toutes les étoiles alors que vos observations portent sur celles qui sont visibles à l’oeil nu, constitue une hypothèse hardie qui mérite d’être explicitée en préface de votre travail.
L’échantillon peut être établi de façon à représenter la population en respectant certains critères (critères sociologiques lorsqu’il s’agit de sondage d’opinion). Pour contrô-ler la qualité de la production d’automobiles, par exemple, on prélève quelques automobiles sorties de l’usine à divers moments de la semaine. Le nombre d’automobiles prélevées le lundi après-midi sera proportionnel à la production de cette demi-journée. On construit ainsi un modèle. Ce modèle permet d’obtenir un échantillon de la population à étudier. Il reste à tester la représentativité de cet échantillon, c’est-à-dire la pertinence des cri-tères retenus pour le constituer. Dans le domaine du marketing, un tel échantillon est un "panel".
†Prononcer "stokastique".
Une autre manière de procéder, consiste à choisir les individus de l’échantillon en déÞnissant une procédure d’extraction de la population. Chaque individu est numéroté et les numéros sont tirés "au hasard". Nous reviendrons sur la déÞnition de "tirage au hasard", pour le moment admettons que nous savons ce que c’est (pour en avoir une idée "spectaculaire", il suffit de regarder le tirage du loto à la télévision).
On distingue deux sortes de tirages : le tirage exhaustif et le tirage avec remise.
Dans le tirage exhaustif(∗), une fois qu’un individu a été choisi, il est exclu du tirage suivant. Si le cardinal de la population est N, il est donc impossible d’obtenir par tirage exhaustif un échantillon de cardinal supérieur à N.
Dans le tirage non exhaustif (tirage avec remise), une fois qu’un individu est choisi, il est "remis" dans la population et pourra donc être choisi une seconde fois. L’échantillon peut comprendre plus de N individus, rien n’en limite le cardinal.
Compte tenu de la nature des tirages au hasard effectués dans la pratique, les deux façons de procéder sont équivalentes pour les populations nombreuses lorsque le cardinal de l’échantillon est très inférieur à celui de la population. Dans ce cas, en effet, il est rare que l’on observe des répétitions dans le cas d’un tirage avec remise.
Par la suite, sauf mention contraire, les tirages que nous évoquerons seront tou-jours des tirages au hasard non exhaustifs, même si nous ne le précisons pas. Cette condition nous assure en effet que deux tirages successifs sont indépendants, c’est-à-dire que le résultat du second tirage ne dépend pas du résultat obtenu au premier tirage. Ces conditions apportent de grandes simpliÞcations dans les calculs.
Les déÞnitions introduites et les mots employés permettent de cerner les préoc-cupations du statisticien. Il faut maintenant étudier les outils qu’il s’est construit pour décrire ces populations nombreuses dont il fut question plus haut.
Nous considérons tout d’abord les variables discrètes dont les valeurs possibles sont en nombre Þni ou dénombrable : variables numériques, variables ordinales ou variables non-numériques.
1.2 Représentations graphiques des variables discrètes
1.2.1 Séries statistiques
Considérons une population d’élèves dont nous mesurons la taille, X. Les mesures sont regroupées en classes de 5 cm en 5 cm ; à chaque classe est attribué sa valeur centrale. Ainsi, deux élèves dont les tailles sont 1, 47 m et 1, 43 m seront regroupés dans la même classe(†) : il leur sera attribuée la même taille, 1, 45 m ; l’erreur n’excède pas 2, 5 cm.
Les observations sont les suivantes :
1, 40 m | 1, 50 m | 1, 50 m | 1, 60 m | 1, 40 m | 1, 50 m | 1, 55 m | 1, 55 m | 1, 45 m |
1, 50 m | 1, 55 m | 1, 50 m | 1, 45 m | 1, 50 m | 1, 45 m | 1, 45 m | 1, 55 m | 1, 50 m |
1, 50 m | 1, 55 m |
Cette "suite" d’observations constitue une série statistique‡. Pour y voir plus clair, on classe les observations par ordre croissant et à chacune des valeurs de X observées, on associe le nombre d’observations correspondantes, n.
∗Ce procédé épuise la population qui diminue progressivement au proÞt de l’échantillon (en Anglais : to exhaust = épuiser)
†Remarquons que ce regroupement en classe est automatique avec les variables continues dès lors que l’on s’impose de décrire les résultats avec un nombre Þni de chiffres signiÞcatifs.
‡De même, la description des diverses populations de P1 à P4 étaient donné page 2 sous forme de séries statistiques, qui cependant n’étaient pas des séries numériques.
…
cinq classes représentées sont 2, 4, 8, 5, et 1. Le nombre total d’observations, N, est le cardinal de la population observée ; ici N = 2 + 4 + 8 + 5 + 1 = 20.
La proportion des observations qui entrent dans la classe Xi est ni/N = Pi : c’est la fréquence relative. Remarquons la relation, toujours satisfaite
P Pk = 1k
Dès lors que les observations ont été regroupées en classes, les notions précédentes ont un sens, que la variable soit numérique ou non. Par contre, le concept d’effectifs cumulés que nous déÞnissons maintenant ne concerne que les variables numériques ou, à la rigueur, les variables ordinales.
Donnons-nous la valeur numérique x et posons la question suivante : "Combien y a-t-il d’observations pour lesquelles X ≤ x ?” La réponse à cette question est un nombre que l’on note F (x) : c’est l’effectif cumulé jusqu’à la valeur x (incluse).
On peut déÞnir également les fréquences relatives cumulées f(x) = F (x)/N.
Figure 1-1.
La Þgure 1-1 donne les valeurs des effectifs cumulés et des fréquences relatives cumulées en fonction de x.
1.2.2 Diagrammes en bâtonnets et secteurs sphériques
A la Þn du XVIIIeme` siècle et au tout début du XIXeme` apparurent, en Angleterre, les premiers diagrammes en bâtonnets (ou diagrammes en bâtons) et les diagrammes en secteurs. Depuis, sociologues, économistes, policiers, médecins, biologistes, physiciens et plus généralement statisticiens de toutes sortes ne se lassent point de les utiliser à tous propos. Ces outils sont très commodes, aussi allons-nous les présenter maintenant.
Considérons une variable numérique discrète susceptible de prendre les valeurs Xk. Nous portons sur un axe les valeurs de Xk. Compte-tenu de la précision Þnie des mesures, les valeurs que l’on observe d’une variable numérique continue sont toujours dis-crètes. Par conséquent, nous ne distinguons pas, ici, les variables continues et les variables discrètes.
A l’abscisse Xk, on dessine un bâtonnet dont la taille représente l’effectif, nk, de la classe X = Xk
On obtient la représentation en bâtonnets de la statistique.
En modiÞant l’échelle des ordonnées, le même diagramme représente les fré-quences relatives. La Þgure 1-2 donne la représentation en bâtonnets de la statistique précédente.
Figure 1-2.

Une telle représentation est encore acceptable lorsque la variable est ordinale, par contre lorsque la variable est non-numérique, l’usage d’un axe introduit sournoisement une relation d’ordre qui n’existe pas entre les valeurs de la variable (et là commence un "Þeffé mensonge" !). Il est préférable de donner une représentation en secteurs (sous réserve bien sûr que les schémas restent lisibles).
Les résultats d’une élection sont les suivants :
Clovis | Clothilde | Blancs ou nuls | Total | |
nombre de voix | 200 | 500 | 100 | 800 |
proportion | 0,250 = 25% | 0,625 = 62,5% | 0,125 = 12,5% | 1 = 100% |
On représentera la statistique de la façon suivante, donnée sur la Þgure 1-3.
Figure 1-3
L’aire de chacun des secteurs circulaires est proportionnelle à la fréquence relative observée. Il en est de même de l’angle au centre de chaque secteur.
Remarquons que le même diagramme représente aussi les fréquences absolues, sous réserve que la proportion indiquée dans chacun des secteurs soient remplacée par l’effectif du secteur.
1.2.3 La fonction de répartition
Considérons les fréquences relatives cumulées, f(x), de la variable numérique discrète X, telles que nous les avons déÞnies ci-dessus. Nous représentons sur la Þgure 1-4 le graphe de la fonction x →7 f(x) correspondant aux données du tableau 2, précédent.
Figure 1-4 : f(x) est la fonction de répartition.
Considérons la valeur x = 1, 52 m par exemple. Combien vaut f(x) ? Combien y a-t-il d’individus pour lesquels X ≤ 1, 52 m? La réponse est "8 + 4 + 2 = 14” (cf. tableau 2). La valeur de f(x) est donc 14/20=0,7.
f(x) est la fonction de répartition : c’est la fréquence relative du sous ensemble dont chaque individu satisfait la relation X ≤ x. On rencontre aussi dans la littérature une autre déÞnition où X ≤ x est remplacé par X < x. Cette distinction est sans importance pratique, sauf aux points de discontinuité.
La fonction f est une fonction en escalier, non négative ; en construisant son graphe point par point, il nous vient les remarques suivantes.
- La Þgure 1-4 représente aussi le graphe des effectifs absolus cumulés, sous réserve de modiÞer l’échelle des ordonnées.
- Pour chaque valeur observée, Xk, la fonction f est discontinue. La discontinuité en x = Xi est égale à la fréquence relative de la classe X = Xi :
∆if = f(Xi+) − f(Xi−) = ni
- f(Xi−) ≤ f(Xi) = f(Xi+). La fonction f est donc monotone, jamais décroissante.
- Remarquons que tous les individus satisfont la relation X < +∞. On en déduit
la relation xlim | [f(x)] = 1. De même, X > −∞ implique x | lim [f(x)] = 0. |
→∞ | →−∞ |
Dans de nombreux cas, les valeurs de Xk les plus voisines sont "très proches" et les discontinuités "très petites". La fonction de répartition peut alors être remplacée par une fonction continue qui décrit convenablement la statistique (Þgure 1-5).
Figure 1-5
L’étendue de variation de X est notée ∆x. Considérons deux valeurs voisines de X, les valeurs Xk et Xk+1; on considère que ces valeurs sont "très proches" si |Xk+1 − Xk | << ∆x. C’est le cas par exemple des revenus mensuels des Français estimés au centime près. Pour Þxer les idées, supposons que l’étendue est ∆x = 2000=C. La relation 0,01C=<<2000C= est satisfaite ; on peut donc considérer les valeurs voisines de Xk comme très proches.
Si nous déÞnissons l’étendue comme la différence entre le revenu le plus élevé et le revenu le plus faible, il est clair que celle-ci est très supérieure à 2000C= la relation |Xk+1 − Xk | = 0, 01=C << ∆x est donc satisfaite a fortiori. Si nous avons estimé ici, l’étendue à 2000C= c’est parce qu’en 2005, moins de 20% de la population a un revenu supérieur à cette somme. On peut donc "oublier" 20% de la population pour s’intéresser au plus grand nombre. Pour être plus précis, nous introduirons ultérieurement un paramètre bien déÞni et bien adapté à la mesure de ∆x : l’écart quadratique moyen.
Considérons maintenant la discontinuité maximale de f(x), notée ∆f. Supposer que ∆f est "très petit", c’est admettre la relation ∆f << 1. Dans l’exemple que nous considérons, cela signiÞe que la proportion d’individus dont le revenu est dans la classe Xk est très petite devant l’unité. Les classes de revenus étant déÞnies au centime près, cette propriété est bien vériÞée.
Dans ces conditions, on peut considérer que la variable est continue et que la fonction de répartition est elle aussi continue (voir page 104).
1.3 Représentation graphique des variables continues
1.3.1 Fonction de répartition et densité de répartition
Considérons la variable continue X ∈ (−∞, ∞) ‡. Nous notons f(x) la fonction de répartition et, pour Þxer les idées, nous supposons qu’elle est continue et dérivable.
Rappelons que f(x) est la proportion d’individus pour lesquels X ≤ x. Cette déÞnition a certaines conséquences.
- f(x) est positive ; elle n’est jamais décroissante.
- Lorsque x tend vers ±∞, les limites de f(x) sont les suivantes :
lim f(x) = 0 | et | lim f(x) = 1 | (1.1) |
x→−∞ | x→∞ |
Table des matières
Introduction vii
1 Les statistiques ‡ une dimension 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Représentations graphiques des variables discrètes . . . . . . . . . . . . . 4
1.2.1 Séries statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Diagrammes en b‚tonnets et secteurs sphériques . . . . . . . . . . 5
1.2.3 La fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Représentation graphique des variables continues . . . . . . . . . . . . . . 8
1.3.1 Fonction de répartition et densité de répartition . . . . . . . . . . 8
1.3.2 Diagramme en b‚tonnets, histogrammes et classes . . . . . . . . . 9
1.4 Pot-pourri de remarques et critiques diverses . . . . . . . . . . . . . . . . 12
1.5 Position et dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . 17
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Les nuages de points 21
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Ajustement ‡ un modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Description d’un nuage de points . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.1 Position d’un nuage de points . . . . . . . . . . . . . . . . . . . . . 26
2.4.2 Orientation d’un nuage de points . . . . . . . . . . . . . . . . . . . 27
2.4.3 Inertie portée par une droite . . . . . . . . . . . . . . . . . . . . . 29
2.4.4 Variables principales . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.1 Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . 31
2.5.2 Matrice de covariance . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.3 Variables indépendantes . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Annexe 1 : distance d’un point ‡ une droite . . . . . . . . . . . . . . . . . . . . 35
Annexe 2 : inertie et statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3 Statistiques et probabilités 39
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Opérations sur les événements . . . . . . . . . . . . . . . . . . . . 43
3.2.3 Probabilités composées et probabilités totales . . . . . . . . . . . . 44
iv TABLE DES MATI»RES
3.3 Probabilités et statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1 Le double langage . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.2 Variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . 47
3.3.3 Couples de variables aléatoires continues . . . . . . . . . . . . . . . 48
3.3.4 Variables indépendantes . . . . . . . . . . . . . . . . . . . . . . . 50
3.4 Présentation axiomatique et théorème de Bayes . . . . . . . . . . . . . . . 51
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 Les lois des probabilités 55
4.1 La loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 L’inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . . . . . 56
4.2.1 L’inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . 56
4.2.2 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.4 Formulation générale de la loi des grands nombres . . . . . . . . . 62
4.3 La loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.1 Présentation de la loi . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.2 Exemples de variables poissonniennes . . . . . . . . . . . . . . . . 65
4.3.3 Nature poissonnienne des désintégrations radioactives . . . . . . . 66
4.3.4 Approximation poissonnienne de la loi binomiale . . . . . . . . . . 68
4.4 Un sujet de réflexion en guise de conclusion . . . . . . . . . . . . . . . . . 69
5 La loi normale de Gauss 71
5.1 Présentation de la loi normale . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.1 Approximation normale de la loi binomiale . . . . . . . . . . . . . 72
5.2.2 Retour sur la loi des grands nombres . . . . . . . . . . . . . . . . . 74
5.2.3 Théorème centrale limite . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 Incertitudes et erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3.1 Incertitude standard, intervalle de confiance . . . . . . . . . . . . . 78
5.3.2 Estimation d’une espérance mathématique : intérêt de la multiplication des mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.3.3 Estimation d’une espérance mathématique : erreur systématique et biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.4 Estimation de l’incertitude standard dans l’étalonnage d’un appareil 82
5.3.5 Estimation de l’incertitude standard dans une campagne de mesures 82
5.4 Remarques finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6 Estimations et tests d’hypothèses 87
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.1 Echantillon d’effectif élevé (n & 30) . . . . . . . . . . . . . . . . . . 88
6.2.2 Echantillon d’effectif réduit (n . 30) . . . . . . . . . . . . . . . . . 89
6.3 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . 90
6.3.1 La méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.3.2 Premier exemple : l’acceptation . . . . . . . . . . . . . . . . . . . . 92
6.3.3 Un second exemple : rejet . . . . . . . . . . . . . . . . . . . . . . . 92
6.3.4 Un troisième exemple : rejet . . . . . . . . . . . . . . . . . . . . . . 92
6.3.5 Un quatrième et dernier exemple . . . . . . . . . . . . . . . . . . . 93
6.4 Le test de χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.4.1 Comparaison ‡ un standard . . . . . . . . . . . . . . . . . . . . . . 94
6.4.2 Test d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7 Tables, lois et formules 101
7.1 Notations et formules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.2 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2.1 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2.2 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2.4 Autres lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.3 Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.3.1 Tables de la loi normale, centrée (µ = 0) et réduite (σ = 1) . . . . 105
7.3.2 Loi de χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.3.3 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.3.4 Nombres au hasard . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Conclusion 111