Support de formation pour apprendre la biostatistique pas a pas

Support de formation pour apprendre la biostatistique pas a pas
5.9 Différence de proportion
Bien qu’une variable binaire soit a priori un concept plus simple qu’une variable continue, il est en un sens plus difficile de comparer deux variables binaires que de comparer deux variables continues. En effet, deux variables binaires Y1 et Y0 avec des proportions π1 et π0 différentes auront également des variances π1(1 − π1) et π0(1 − π0) différentes. Il s’ensuit que l’on ne peut pas caractériser la différence entre deux distributions binaires avec un seul paramètre (il n’existe pas de modèle idéal pour les variables binaires). Afin de donner toute l’information, il s’agit de donner les deux paramètres π1 et π0. Le but de la statistique descriptive demeure pourtant de résumer l’information (à défaut de la caractériser) avec un seul paramètre.
Lorsqu’il s’agit de comparer deux distributions binaires, on peut considérer par exemple la différence des proportions : Λ = π1 − π0.
…
Principe d’un test statistique
On a introduit au chapitre 4 le concept d’intervalle de confiance que l’on a utilisé pour faire de l’inférence sur certains paramètres de la population. Dans ce chapitre, nous présentons une approche alternative pour faire de l’inférence via le concept de test statistique. Nous verrons au chapitre 8 que les concepts d’intervalle de confiance et de test statistique sont intimement liés.
6.1 L’hypothèse nulle et l’hypothèse alternative
Il existe des centaines de tests statistiques. Chacun de ces tests est associé à une hypothèse nulle que l’on notera H0. Le but d’un test statistique est de démontrer qu’une hypothèse nulle est fausse en la confrontant aux données de notre échantillon. Si les données sont incompatibles avec l’hypothèse nulle, on rejette l’hypothèse nulle. On ne pourra pas par contre démontrer qu’une hypothèse nulle est vraie. L’hypothèse nulle n’est donc pas l’hypothèse d’intérêt ni l’hypothèse scientifique d’une étude. L’hypothèse scientifique d’une étude est l’hypothèse alternative, que l’on notera parfois H1, et qui sera en quelque sorte le contraire de l’hypothèse nulle. Il s’agira donc de formuler l’hypothèse nulle de telle sorte que son rejet implique l’hypothèse alternative.
On démontre une hypothèse alternative en rejetant une hypothèse nulle.
Par exemple, afin de démontrer l’hypothèse alternative (scientifique) suivante :
H1 : le niveau nutritif a un effet sur la croissance des Onobrychis
on essaiera de rejeter l’hypothèse nulle :
H0 : le niveau nutritif n’a aucun effet sur la croissance des Onobrychis.
En d’autres termes, afin de démontrer que le niveau nutritif a un effet sur la croissance des Onobrychis, on essaiera de démontrer qu’il n’est pas possible qu’il n’en ait pas. On recherche en quelque sorte une preuve par l’absurde. On part du contraire de ce que l’on veut démontrer (l’hypothèse nulle) et on essaie d’aboutir à une contradiction entre l’hypothèse nulle et les données, afin de pouvoir conclure ce que l’on veut démontrer (l’hypothèse alternative). Telle est la stratégie d’un test statistique.
6.2 Erreurs de première et de seconde espèce
Le résultat d’un test statistique est donc le rejet ou le non-rejet d’une hypothèse nulle H0. Ceci peut nous mener à deux types d’erreur : rejeter H0 alors qu’elle est vraie ou ne pas rejeter H0 alors qu’elle est fausse. On appelle ces erreurs respectivement l’erreur de première espèce et l’erreur de seconde espèce. Notons que lorsque l’on rejette H0, la seule erreur que l’on peut commettre est une erreur de première espèce, alors que lorsque l’on ne rejette pas H0, la seule erreur que l’on peut commettre est une erreur de seconde espèce.
…
Lorsque l’on effectue un test statistique, on pourra choisir la valeur de α, que l’on appellera aussi le seuil du test. On dira que l’on rejette ou que l’on ne rejette pas une hypothèse nulle au seuil α. Évidemment, on aimerait que α soit le plus petit possible. Il y a cependant un conflit entre α et β. En choisissant α trop petit, on risque d’augmenter considérablement β. Le cas extrême consisterait à choisir α = 0, ce qui reviendrait à ne jamais rejeter H0 (quelles que soient les données observées) et impliquerait alors β = 1. Il s’agit dès lors d’adopter un compromis, et ce compromis est en général fixé à α =5% (selon une convention arbitraire mais souvent raisonnable et largement établie)1.
La règle de rejet ou de non-rejet d’une hypothèse nulle doit être ainsi dé- finie de façon à ce que si l’hypothèse nulle était vraie (on dira parfois : sous l’hypothèse nulle), il y aurait une probabilité de 5 % de la rejeter à tort. Cela veut dire que si H0 était vraie et si on répétait l’expérience (l’échantillonnage) 100 fois, on ne rejetterait H0 que 5 fois (en moyenne). On aura ainsi : α = seuil du test = probabilité de rejeter H0 alors que H0 est vraie = 5 %.
Lorsque l’on effectue un test statistique, on ne choisit pas par contre la valeur de β. On verra au chapitre 10 comment on peut calculer β, qui dépendra à la fois de la taille de l’échantillon et du « degré de fausseté » de H0. La quantité 1 − β est par ailleurs appelée la puissance du test, qui est donc une mesure de la capacité du test à rejeter à raison une hypothèse nulle qui est fausse. En résumé, dans un test statistique, on contrôle α mais on ne contrôle pas β, qui pourra être dans certains cas considérablement plus grand que α. En choisissant α petit, on s’assure contre une erreur de première espèce, mais on n’a aucune garantie contre une erreur de seconde espèce. En fait, on considère implicitement qu’il est plus grave de commettre une erreur de première espèce que de commettre une erreur de seconde espèce.
En général, on se montrera donc plus prudent dans nos conclusions dans le cas d’un non-rejet d’une hypothèse nulle (car on pourrait commette une erreur de seconde espèce qui n’est pas contrôlée), que dans le cas d’un rejet d’une hypothèse nulle (car l’erreur de première espèce que l’on pourrait commettre est contrôlée). Pour cette même raison, nous éviterons dans ce texte l’expression « accepter une hypothèse nulle », que l’on retrouve dans certains ouvrages en lieu et place de l’expression « ne pas rejeter une hypothèse nulle » que nous adoptons2.
6.3 Concept de valeur p
On a mentionné que choisir α = 0 impliquerait de ne jamais rejeter une hypothèse nulle (de façon à n’avoir aucune chance de commettre une erreur de première espèce si H0 était vraie). À l’autre extrême, choisir α = 1 reviendrait à systématiquement rejeter une hypothèse nulle. D’une manière générale, plus on augmente α, plus il sera aisé de rejeter une hypothèse nulle. Si deux chercheurs adoptent un seuil différent, il se pourrait donc qu’à partir des mêmes données, l’un rejette H0 et l’autre ne la rejette pas. Afin que le lecteur d’un article scientifique puisse lui-même choisir son seuil, il est coutume de reporter dans ces articles ce que l’on appelle une valeur p. La valeur p peut être définie comme le seuil minimal au-delà duquel on rejette l’hypothèse nulle.
Lorsque l’on rejette une hypothèse nulle au seuil α (p ≤ α), on parlera de résultat significatif au seuil α. Dans le cas contraire (p>α), on parlera de résultat non significatif au seuil α. Connaissant la valeur p, un lecteur d’article scientifique peut ainsi décider de lui-même, en fonction du seuil qu’il s’est choisi, s’il rejette ou non l’hypothèse nulle considérée. En pratique cependant, tout le monde ou presque choisit le seuil α =5%, l’hypothèse nulle étant rejetée si p ≤ 0.05. Lorsque l’on parle d’un résultat significatif sans préciser le seuil, il s’agira (par convention) d’un résultat significatif au seuil de 5 %.

On peut alternativement définir le concept de valeur p sans passer par les concepts d’erreur de première et de seconde espèce, en terme de hasard de l’échantillonnage, comme nous l’expliquons ci-dessous. À cause du hasard de l’échantillonnage, il y aura inévitablement une certaine distance entre les données et l’hypothèse nulle, et cela même si l’hypothèse nulle était vraie. Par exemple, même si le niveau nutritif n’avait aucun effet sur la croissance d’un Onobrychis (ce qui constitue ici l’hypothèse nulle), et donc même si la véritable différence de moyenne entre deux groupes d’Onobrychis cultivés avec un niveau nutritif faible et élevé était de 0 cm, on observerait quand même une différence de moyenne non nulle dans nos échantillons, due dans ce cas uniquement au hasard de l’échantillonnage. Ainsi, lorsque l’on observe une différence non nulle entre deux moyennes, par exemple une différence de 9.1 cm entre deux groupes d’Onobrychis, la question statistique que l’on se pose est la suivante : est-ce que cette différence observée de 9.1 cm pourrait être due uniquement au hasard de l’échantillonnage ou est-ce que le hasard de l’échantillonnage ne peut pas être tenu seul responsable d’une telle différence ? Dans le premier cas, on ne rejette pas l’hypothèse nulle, dans le second cas, on la rejette.
Dans ce contexte, la valeur p peut être définie comme « la probabilité que le hasard de l’échantillonnage puisse produire des données aussi éloignées (ou encore plus éloignées) de l’hypothèse nulle que le sont les données de notre échantillon, si l’hypothèse nulle était vraie ». Dans l’exemple des Onobrychis, on aura par exemple p = 0.0000000000000002, de sorte qu’il serait extrêmement rare d’observer des données aussi éloignées de l’hypothèse nulle si celle-ci était vraie, les données contredisant ainsi fortement l’hypothèse nulle3.
Plus la valeur p est petite, plus l’hypothèse nulle est contredite par les données.
La convention veut donc que l’on parle de résultat significatif si on a p ≤ 0.05.
On peut ainsi résumer la situation comme suit :
- une différence significative (entre les données et l’hypothèse nulle) est une différence que le hasard de l’échantillonnage ne pourrait que rarement produire → les données sont incompatibles avec H0 → on a une preuve statistique contre H0 (on rejette H0) → notons qu’il s’agit « seulement » d’une preuve statistique contre H0, non d’une preuve mathématique (bien que contrôlée à 5 %, on pourrait quand même commettre une erreur de première espèce ; sauf dans des cas très spéciaux, on ne pourra pas totalement exclure la possibilité que le hasard soit responsable de quelque chose ; on n’aura pas de valeur p exactement nulle)
- une différence non significative (entre les données et l’hypothèse nulle) est une différence que le hasard de l’échantillonnage pourrait produire → les données sont compatibles avec H0 → on n’a pas de preuve statistique contre H0 (on ne rejette pas H0) → attention, on n’a pas pour autant de preuve statistique pour H0 (on pourrait commettre une erreur de seconde espèce, qui n’est pas contrôlée).
…
6.5 Statistique de test
Afin d’essayer de rejeter une hypothèse nulle, on utilise les données de notre échantillon. Les données d’un échantillon constituent donc une preuve (qui sera convaincante ou non) contre une hypothèse nulle. Plus concrètement, il s’agit de calculer une distance entre les données de l’échantillon et l’hypothèse nulle, que l’on appellera une statistique de test et que l’on notera par Tstat. Comme tout ce qui est calculé sur un échantillon, une statistique de test peut se voir comme une variable aléatoire : on l’observe en pratique une seule fois, sur notre seul échantillon, mais en théorie (et avec un peu d’imagination) on pourrait l’observer plusieurs fois si on répétait l’expérience.
On peut donc parler de la distribution d’une statistique de test. Plus précisément, on s’intéressera à la distribution de la statistique de test sous l’hypothèse nulle. On s’imagine ainsi que l’on répète l’expérience, non pas sous les conditions réelles d’une étude, mais sous les conditions spécifiées par l’hypothèse nulle. Il s’agit d’établir mathématiquement quelle est cette distribution, afin de savoir ce que l’on est en droit d’attendre de cette statistique de test sous l’hypothèse nulle. On notera par tstat la réalisation de Tstat (la valeur de Tstat calculée/observée sur notre échantillon). Il s’agit de la distance observée entre les données de notre échantillon et l’hypothèse nulle. On comparera ensuite tstat avec la distribution théorique de Tstat établie sous l’hypothèse nulle. Si l’observation (tstat) n’est pas compatible avec la théorie (distribution de Tstat sous H0), on dira que les données ne sont pas compatibles avec l’hypothèse nulle, qui sera ainsi rejetée.
Un test statistique s’effectue donc en quatre étapes de la manière suivante :
- définir une statistique de test Tstat calculable sur un échantillon
- établir mathématiquement la distribution théorique de Tstat sous H0
- calculer la réalisation tstat de Tstat sur notre échantillon
- comparer tstat avec la distribution théorique de Tstat sous H0.
Les deux premières étapes sont des étapes théoriques, fondées sur les mathématiques. Les données entrent en jeu à partir de la troisième étape. La quatrième étape est le calcul de la valeur p, qui mesure à quel point les données sont incompatibles avec l’hypothèse nulle, et qui nous permet de décider si on rejette ou non l’hypothèse nulle. Nous verrons de nombreux exemples dans les chapitres suivants. Notons encore qu’un test statistique sera dit exact si on connaît mathématiquement (et si on utilise effectivement) la distribution de la statistique de test sous H0, alors qu’il sera dit valide si à défaut de la connaître exactement, on dispose d’une bonne approximation de cette distribution4.
…
8.2 Test statistique versus intervalle de confiance
Un avantage d’utiliser un test bilatéral plutôt qu’un test unilatéral est que la conclusion du test peut directement se déduire du calcul d’un intervalle de confiance. En effet, si on considère un test de l’hypothèse nulle H0 : θ = θ∗ applicable à n’importe quelle valeur possible θ∗ pour θ, on a le principe fondamental suivant : H0 : θ = θ∗ rejetée au seuil α (test bilatéral) ⇐⇒ θ∗ ∈/ CI pour θ au niveau 1 − α.
En particulier : H0 : θ = θ∗ rejetée au seuil 5 % (test bilatéral) ⇐⇒ θ∗ ∈/ 95 % CI pour θ.
Tests statistiques et intervalles de confiance sont donc intimement liés :
- si on dispose d’un test statistique pour une hypothèse nulle de la forme H0 : θ = θ∗, on peut définir un intervalle de confiance au niveau 1−α pour le paramètre θ comme étant l’intervalle qui contient toutes les valeurs θ∗ qui ne sont pas rejetées au seuil α dans un test bilatéral
- si on dispose d’une formule pour un intervalle de confiance pour θ, on peut définir la valeur 1 − p d’un test statistique bilatéral de l’hypothèse nulle H0 : θ = θ∗ comme étant le niveau maximal en deça duquel l’intervalle de confiance ne contient pas la valeur testée θ∗.
On a ainsi une dualité entre un test statistique bilatéral sur la valeur d’un paramètre et un intervalle de confiance pour ce paramètre. Par exemple, le test du khi-deux pour une proportion que l’on a vu en fin de chapitre précédent est en dualité avec l’intervalle de confiance de Wilson pour une proportion2. On pourrait dès lors penser que tests statistiques et intervalles de confiance sont totalement redondants. En fait, ils sont plus complémentaires que redondants, comme on va l’illustrer dans les deux prochains exemples.
Exemple 8.2
Dans notre exemple où l’on voulait déterminer lequel des deux candidats A et B allait gagner les élections, on avait estimé la proportion π de votes pour le candidat A par π = 154/350 = 0.44. Un test du khi-deux (bilatéral) pour une proportion nous donne p = 0.025, alors qu’un intervalle de confiance de Wilson au niveau 95 % pour π nous donne [0.39; 0.49]. En utilisant la dualité entre ce test statistique et cet intervalle de confiance, on obtient les informations suivantes :
- la valeur p = 0.025 nous indique que le niveau maximal d’un intervalle de confiance de Wilson ne contenant pas la valeur testée π∗ = 0.5 est 97.5 % → on sait qu’un 95 % CI pour π ne contient pas la valeur 0.5 → on sait qu’un 99 % CI pour π contient la valeur 0.5
- l’intervalle de confiance [0.39; 0.49] contient toutes les valeurs π∗ qui ne sont pas rejetées dans un test du khi-deux bilatéral au seuil de 5 % → H0 : π = 0.5 est rejetée dans un test bilatéral au seuil de 5 % → H0 : π = 0.4 n’est pas rejetée dans un test bilatéral au seuil de 5 %.
La question est à présent de savoir quel résultat de statistique inférentielle (valeur p et/ou intervalle de confiance) reporter aux côtés de l’estimation du paramètre d’intérêt dans un abstract de publication scientifique. L’exemple suivant nous illustre trois cas de figure (report de la valeur p, report d’un intervalle de confiance, report des deux).
Exemple 8.3 On reprend l’exemple introduit au chapitre 4 des n = 10 personnes qui ont suivi un régime de deux mois. L’effet du régime était défini par la moyenne μ des pertes de poids. On avait observé une perte de poids moyenne de μ = 0.72 kg. Afin de prouver statistiquement que le régime a un effet, il faudrait rejeter l’hypothèse nulle H0 : μ = 0 (et conclure μ > 0). On verra au chapitre suivant que l’on pourra ici utiliser un test de Student. Dans un test bilatéral, on obtient p = 0.08 de sorte que cela ne suffit pas pour rejeter l’hypothèse nulle au seuil de 5 %. On verra aussi que ce test est en dualité avec un intervalle de confiance de Student pour μ. Au niveau 95 %, on avait calculé [−0.10; 1.54] kg, ce qui confirme le non-rejet de H0 (la valeur testée 0 étant à l’intérieur de cet intervalle de confiance).
…
8.3 Test d’équivalence
On a mentionné au chapitre 6 qu’il n’est pas possible de démontrer statistiquement qu’une hypothèse nulle est vraie. Si on compare par exemple deux médicaments (un nouveau médicament et un médicament standard) par rapport à leur efficacité mesurée sur une échelle binaire (1 = succès ; 0 = échec), on pourra essayer de démontrer statistiquement H1 : Λ > 0, que le nouveau médicament est supérieur au médicament standard, mais on ne pourra pas démontrer statistiquement H0 :Λ=0, que les deux médicaments ont même efficacité (où Λ dénote la différence des proportions de succès entre les deux médicaments). Dans certains cas, il serait pourtant intéressant de pouvoir le faire, par exemple lorsque l’efficacité du médicament standard est déjà établie et que le nouveau médicament a par ailleurs certains avantages secondaires par rapport au médicament standard, tel un coût de production moins élevé.