Cours complet a propos des bases de la biostatistique pour debutant

Cours complet a propos des bases de la biostatistique pour débutant
…
2.1.1 Variable aléatoire
Une variable aléatoire est une fonction définie sur l’ensemble des résultats possibles d’une expérience aléatoire. Les résultats d’un lancer de dés, d’un tirage à pile ou face ou d’un tiercé sont des variables aléatoires dont on n’observe les valeurs précises qu’à la fin de l’action. En sciences expérimentales, les variables aléatoires servent à décrire des mesures prises sur un échantillon, par exemple un échantillon de plantes. Une mesure est en effet réalisée dans des conditions particulières (climat, choix des échantillons, etc.) susceptibles de changer et non complètement contrôlées. La variabilité de ces conditions et leurs effets sur le résultat de la mesure sont donc modélisés à l’aide de variables aléatoires.
Le résultat de l’observation d’une variable aléatoire est appelée sa réalisation. Nous noterons dans la suite X la variable aléatoire et x sa réalisation éventuelle. L’ensemble des réalisations possibles x est appelé le support de X. Selon la nature du support, on distingue deux grands types de variables aléatoires, les variables discrètes et les variables continues. Les variables discrètes ont pour support un ensemble fini ou dénombrable, par exemple {0, 1, 2, 3, 4} ou N (entiers naturels), tandis que les variables continues ont pour support un intervalle de l’ensemble des nombres réels R.
2.1.2 Variables aléatoires discrètes
Pour une variable aléatoire discrète X de support {x1, x2,...}, toutes les propriétés probabilistes sont déterminées par les probabilités πi = P(X = xi) qu’une réalisation de X prenne la valeur xi. Les probabilités πi sont toutes positives et leur somme est égale à un : π1 +π2 +··· = 1, ce qui exprime le fait que toutes les valeurs possibles sont listées. Dans des situations telles que le lancer de dé, la probabilité πi peut s’interpréter comme la fréquence théorique de la réalisation xi si l’on répétait l’expérience (le lancer) indéfiniment. Dans d’autres cas, elle est définie hors de toute référence fréquentiste, comme une mesure objective ou subjective des chances que la valeur inconnue de X soit ou devienne égale à xi.
…
2.1.5 Dépendance entre variables aléatoires
La figure 2.3 présente 100 réalisations de deux variables aléatoires X et Y . Ces valeurs ont été générées par simulation mais elles pourraient être, par exemple, des mesures de la masse et de la taille sur un échantillon de 100 plantes. Sur cet exemple, on constate une liaison entre les réalisations de Y et celles de X. Si la réalisation de X est proche de zéro, celle de Y l’est aussi. Si la réalisation de X est proche de 20, celle de Y est également proche de 20. Le code R ayant permis de générer la figure 2.3 est présenté ci-dessous. Il utilise la fonction runif() pour générer les valeurs de X selon la loi uniforme, puis une expression dépendant de X et de la loi normale pour générer les valeurs de Y .
…
Cet exemple illustre les liaisons ou relations de dépendance qui peuvent exister entre deux variables aléatoires. Il montre la nécessité de définir des lois de probabilité pour décrire de telles variables de façon conjointe. En fait, plusieurs lois de probabilité sont associées à un couple de variables aléatoires X et Y :
– la loi conjointe du couple (X, Y ), dont la densité pXY (x, y), ou plus simplement p(x, y), s’applique aux couples de valeurs (x, y) ; le diagramme de dispersion de la figure 2.3 représente un échantillon issu de la loi conjointe de X et Y ;
– les lois marginales, qui correspondent aux probabilités de X et Y considérées individuellement ; leurs densités se déduisent de celle de la loi conjointe par p(x) = p(x, y)dy et p(y) = p(x, y)dx ; les histogrammes de la figure 2.3 en représentent les approximations basées sur l’échantillon de taille 100 ;
– les lois conditionnelles, qui correspondent aux probabilités de X sous certaines contraintes sur Y ou vice-versa ; par exemple, p(x | Y > 15) désigne la densité de la loi de X conditionnelle à Y > 15, soit mathématiquement
…
Deux variables aléatoires sont indépendantes s’il n’y a aucune forme de liaison probabiliste entre elles (la densité de probabilité de la loi conjointe est égale au produit des densités des lois marginales). Elles ont alors une corrélation linéaire nulle, mais une corrélation nulle ne suffit pas à démontrer l’indépendance, qui est une propriété plus forte. Dans la figure 2.3 par exemple, la corrélation linéaire correspond à l’inclinaison moyenne du nuage de points. Cependant, la liaison entre X et Y ne se réduit pas à cette inclinaison moyenne. En effet, la relation entre les valeurs de X et Y est non linéaire. De plus, la variabilité de X est fortement liée à la valeur prise par Y et réciproquement.
Deux propriétés des variables aléatoires multivariées méritent d’être soulignées :
– la fonction de densité conjointe de variables aléatoires indépendantes est égale au produit des fonctions de densité des lois marginales : on a p(x, y) = p(x)p(y) si et seulement si X et Y sont indépendantes ; dans ce cas, on a également p(x | y) = p(x) et p(y | x) = p(y) ;
– la loi multinormale est la généralisation multidimensionnelle de la loi normale. Comme la loi normale dans le cas univarié, elle vérifie de nombreuses propriétés intéressantes ; en particulier, les lois conditionnelles p(x | y) de variables multinormales sont elles-mêmes normales (ou multinormales dans un cadre plus général).
Toutes ces notions se généralisent à plus de deux variables. On peut ainsi définir des lois conjointes sur des vecteurs (ou des matrices) de variables aléatoires, également appelées lois multidimensionnelles ou multivariées. L’espé- rance d’une loi multivariée est le vecteur composé des espérances marginales. La variance d’une loi multivariée est décrite par sa matrice de variance-covariance, dont la diagonale contient les variances marginales et les éléments non diagonaux contiennent les covariances entre variables distinctes.
2.2 La notion de modèle en statistique
2.2.1 Description
Par « modèle », nous entendons dans cet ouvrage un modèle mathématique, défini comme une représentation mathématique du fonctionnement d’un système. Parmi la diversité des modèles mathématiques existants (e.g., Pavé, 1994), les modèles statistiques tiennent une place particulière. Une de leurs caractéristiques importantes est qu’ils incluent à la fois des éléments observables (les variables mesurées) et des éléments non observables (les paramètres et parfois certaines variables dites « cachées »). Par ailleurs, certains de ces éléments sont des variables aléatoires définies par des lois de probabilité. Les modèles statistiques sont ainsi des modèles stochastiques.
…
2.2.2 Fonction de vraisemblance d’un modèle statistique
Le modèle statistique détermine la fonction de densité de probabilité de la variable observée Y conditionnellement aux valeurs des paramètres, notée p(y | θ), où y désigne une réalisation de Y et θ le vecteur des paramètres. Appliquée aux données observées, cette fonction joue un rôle important dans la phase d’inférence. En statistique fréquentiste, on l’utilise non pas comme une fonction de y mais comme une fonction des paramètres, avec y et les variables d’entrée fixées à leurs valeurs observées. Pour distinguer les deux usages, on appelle cette fonction des paramètres du modèle la fonction de vraisemblance (e.g., Saporta, 2006).
Dans l’exemple du modèle de régression (2.1), les observations sont des paires de valeurs (xi, yi), avec i = 1,...,N où N est le nombre d’observations. La fonction de vraisemblance d’une variable aléatoire Y qui suit une loi normale de moyenne μ et d’écart type σ est définie par V0(μ, σ) = √ 1 2πσ exp −(y−μ)2 2σ2 , où y représente une observation, c’est-à-dire une réalisation de Y . La vraisemblance associée à N observations y1, . . ., yN indépendantes est le produit des vraisemblances associées à chaque observation. La vraisemblance globale dans l’exemple de la régression linéaire est donc
…
2.3 Inférence statistique
2.3.1 Approche fréquentiste et approche bayésienne
L’inférence statistique désigne l’élaboration d’informations précises sur les liens entre les variables modélisées (valeurs des paramètres du modèle, par exemple), à partir de la connaissance très partielle qu’en offrent les données disponibles. Comme nous l’avons déjà évoqué, il existe deux principales approches en statistique inférentielle, l’approche fréquentiste (souvent appelée « classique ») et l’approche bayésienne. Les deux approches ont de nombreux points communs.
Dans les deux cas, on utilise des modèles pour décrire la relation entre des variables réponses, des variables d’entrée et des paramètres. Dans les deux cas, les paramètres sont inconnus et on souhaite en préciser la valeur à l’aide d’observations. Dans les deux cas enfin, les observations sont supposées issues d’un processus aléatoire dépendant des paramètres et elles apportent donc sur eux une information qu’il s’agit d’exploiter. Mais les deux approches diffèrent sur le statut précis accordé aux paramètres et sur la façon d’exploiter les données pour en préciser les valeurs. Ainsi, les notions de test statistique et d’intervalle de confiance sont des notions issues de la statistique fréquentiste qui n’ont pas de réels équivalents en statistique bayésienne.
Les partisans des deux approches se sont longtemps opposés dans des dé- bats parfois très vigoureux, chacun mettant en cause la légitimité de l’approche adverse. Aujourd’hui, de nombreux statisticiens adoptent un point de vue pragmatique et considèrent que les deux approches font partie de la boîte à outils du praticien de la statistique. C’est le point de vue adopté dans cet ouvrage. Selon l’approche fréquentiste, les paramètres des modèles ont de vraies valeurs et on doit raisonner conditionnellement à ces vraies valeurs, même si elles sont inconnues. Ainsi, dans l’exemple du modèle (2.1) de régression, ε et Y sont aléatoires, mais α est fixe. Les propriétés des estimateurs et des tests sont étudiées en imaginant leur comportement lorsqu’on répète les observations avec des paramètres fixés à leurs vraies valeurs.
Dans l’approche bayésienne (e.g. Robert, 2006 ; Parent et Bernier, 2007 ; Carlin et Louis, 2008 ; Boreux et al., 2010), les paramètres aussi bien que les observations sont représentés par des variables aléatoires. Dans l’exemple du modèle de régression d’équation (2.1), les termes ε, Y , α sont donc tous aléatoires. On ne raisonne pas en fonction d’une vraie valeur des paramètres, mais en fonction de distributions de probabilité qui décrivent le niveau d’incertitude dans les valeurs de ces paramètres et qui synthétisent l’information apportée par l’expertise du modélisateur (à travers la distribution a priori)et par les observations (par l’intermédiaire de la vraisemblance).
Dans l’exemple, la distribution a priori, de densité p (α, σ), résume l’état de connaissance dans les valeurs des paramètres avant l’acquisition des données. Cette distribution a priori doit être définie par le modélisateur indépendamment des données disponibles, à partir d’articles scientifiques, de pré-études ou de dire d’experts, par exemple, ou par défaut en ayant recours à des lois de probabilité dites non informatives.La distribution a posteriori, de densité notée p(α, σ | y), résulte de la combinaison de la distribution a priori et des données expérimentales acquises pour estimer les paramètres.
…
3.1 Modèle linéaire
3.1.1 Définition
Le modèle linéaire permet d’étudier la relation entre une variable réponse Y quantitative (e.g., rendement d’une culture, quantité d’azote minéral du sol) et des variables d’entrée ou variables explicatives X1, ..., Xp, quantitatives (e.g., pluviométrie), qualitatives ordonnées (e.g., grand, moyen, petit) ou qualitatives non ordonnées (e.g., rouge, jaune, noir, blanc, ou des noms de variétés ou de régions). Il s’applique à un jeu de N données pour lesquelles on dispose à la fois des observations yi, pour i = 1,...,N et des valeurs des variables explicatives x1,i,...,xp,i. La variable réponse est considérée comme aléatoire, car observée avec erreur, alors que les variables explicatives sont considérées connues de façon exacte.
…
3.1.2 Généralité du modèle linéaire
On rencontre parfois l’expression modèle linéaire général, en particulier dans la bibliographie anglo-saxonne. Dans cette expression, le terme général illustre le fait que l’on peut intégrer et combiner dans le modèle linéaire des variables explicatives aussi bien quantitatives que qualitatives. Différents types de modèle linéaire ont d’ailleurs été définis selon la nature des variables d’entrée, qui ne sont que des cas particuliers du modèle linéaire :
– la régression linéaire simple (modèle incluant une seule variable d’entrée quantitative, défini par E(Y ) = α0 + α1X) ;
– la régression linéaire multiple (plusieurs variables d’entrée quantitatives) ;
– le modèle d’analyse de la variance (une ou plusieurs variables d’entrée qualitatives) ;
– le modèle d’analyse de la covariance (mélange de variables d’entrée quantitatives et qualitatives).
Ces modèles peuvent tous être décrits à l’aide de l’équation (3.1). Ils peuvent être limités à la somme des effets simples des différentes variables d’entrée ou bien inclure des puissances et produits de variables quantitatives (régression polynomiale) ou des effets d’interaction entre variables qualitatives.
Pour les variables d’entrée qualitatives, le modèle linéaire s’écrit en associant des variables d’entrée binaires (0-1) aux différentes modalités. Par exemple, un modèle linéaire incluant une variable d’entrée X qualitative à trois niveaux est défini par : Y = μj + ε, où j représente une modalité de la variable X (j = 0, 1, 2) et μj représente l’effet de cette modalité j sur la variable réponse. Ce modèle s’écrit aussi Y = α0 + α1X1 + α2X2 + ε,
Ce type de modèle peut, par exemple, être utilisé pour comparer l’effet de trois variétés de blé sur le rendement. Dans ce cas, Y est alors le rendement observé, μ0 = α0 est l’espérance du rendement pour la première variété (X1 = X2 = 0), μ1 = α0 + α1 est l’espérance du rendement pour la deuxième (X1 = 1 et X2 = 0) et μ2 = α0 +α2 est l’espérance du rendement pour la troisième variété (X1 = 0 et X2 = 1). Ce modèle peut également être utilisé pour étudier l’effet de plusieurs ré- gimes alimentaires sur les rats de laboratoire, par exemple un régime basé sur une culture génétiquement modifiée (X1 = X2 = 0), un régime basé sur une variété non génétiquement modifiée mais ayant un fond génétique proche (X1 = 1, X2 = 0) et une variété commerciale standard (X1 = 0, X2 = 1). Dans ce cas, la variable Y correspond soit au poids d’un rat, soit à une variable physiologique (e.g., teneur en sodium du sang). Ce modèle permet ainsi d’évaluer les risques toxicologiques liés à la consommation de produits dérivés de cultures génétiquement modifiées.
3.1.3 Estimation des paramètres
Les paramètres α0, α1,...,αp et σ2 doivent être estimés à partir des données observées (yi, x1,i,...,xp,i), pour i = 1,...,N. De nombreuses méthodes d’estimation ont été développées dans cette optique, mais la méthode de loin la plus courante pour le modèle linéaire, dans le cadre fréquentiste, est celle desmoindres carrés. Elle consiste à utiliser comme estimateurs α 0, α 1,..., α p, les valeurs qui minimisent la somme des carrés résiduelle, définie par
…
Dans le cadre bayésien, la différence essentielle avec l’approche classique est que les paramètres α0, α1,...,αp, σ2 du modèle défini par l’équation (3.1) sont représentés par des variables aléatoires auxquelles on associe une loi de probabilité a priori et une loi a posteriori. La loi a priori décrit les connaissances disponibles sur les valeurs des paramètres avant utilisation des données. Elle résume la connaissance initiale que possède le modélisateur sur les valeurs des paramètres. La loi a posteriori est calculée en combinant la vraisemblance et la loi a priori.
La loi a posteriori résume l’ensemble des informations disponibles sur les paramètres : les connaissances disponibles avant utilisation des données et les données expérimentales. En statistique bayésienne, l’estimation a pour objectif de déterminer la loi a posteriori des paramètres à partir de la loi a priori et de la fonction de vraisemblance. Une caractéristique importante des méthodes d’estimation bayésiennes est qu’elles permettent d’obtenir des distributions de valeurs des paramètres α0, α1,...,αp, σ2 et pas seulement des estimations ponctuelles.
3.1.4 Évaluation et limites du modèle linéaire
Le modèle linéaire est limité à des relations linéaires entre paramètres et variables réponses. Les hypothèses de base sur le terme d’erreur sont par ailleurs des hypothèses fortes pas toujours réalistes. Ainsi, dans de nombreuses situations, il n’est pas réaliste de définir une valeur unique σ2 pour les erreurs de toutes les observations, par exemple lorsque certaines observations sont moins précises que d’autres. Les erreurs peuvent également être corrélées plutôt qu’indépendantes. Il est alors nécessaire de faire d’autres hypothèses et de définir une loi de probabilité plus complexe incluant un nombre plus élevé de paramètres pour décrire la loi du terme d’erreur.
Lors d’une analyse par le modèle linéaire, il est indispensable de s’assurer que les hypothèses de base sont vérifiées, en particulier par l’étude des résidus. Les résidus sont les différences r = y−α 0−
p j=1 α jxj entre les observations et les prédictions obtenues à partir des valeurs estimées des paramètres. On peut les interpréter comme des estimations ε des erreurs et certains graphiques sur les résidus (voir les exemples ci-dessous) permettent de vérifier si les hypothèses sur le terme d’erreur du modèle sont justifiées. Si les hypothèses de base du modèle linéaire ne sont pas vérifiées, il est parfois possible d’opérer une transformation sur les variables réponse mais, dans la plupart des cas, il est préférable d’utiliser l’une des nombreuses extensions du modèle linéaire que nous verrons dans les sections suivantes.
3.1.5 Exemple : prédiction de la teneur en azote et de la teneur en protéines des grains de blé
La teneur en azote des grains de blé est utilisée pour calculer les valeurs d’indicateurs de risque de pollution de l’eau par les nitrates, notamment les indicateurs de type « bilan » (e.g. « dose d’engrais appliquée − teneur en azote des grains × rendement »). Ces indicateurs permettent d’identifier des situations à forts risques de pollution et de raisonner la mise en place de mesures visant à réduire la pollution par les nitrates, par exemple l’implantation de cultures pièges à nitrates (Makowski et al., 2009 ; Meynard et al., 2002 ; Yang et al., 2007). La précision des valeurs fournies par ces indicateurs dépend de la précision de l’estimation des différents termes du bilan, notamment de la teneur en azote.
La teneur en protéines des grains de blé est proportionnelle à la teneur en azote des grains. Elle constitue un critère de qualité important pour les entreprises qui collectent et stockent les récoltes de blé. La teneur en protéines des grains détermine le type d’utilisation industrielle d’une récolte (panification, fabrication de biscuits, alimentation animale, etc.). Si les grains de blé ont une teneur en protéines trop faible, ils ne pourront pas être utilisés pour la panification, à moins de les mélanger avec des grains ayant une teneur plus élevée. Il est donc important pour les entreprises de collecte-stockage de pouvoir prédire, avant la récolte, la qualité du blé afin d’organiser le stockage des grains en silo et de passer des contrats (Le Bail et Makowski, 2004 ; Le Bail et al., 2005).