Problème à signaler:


Télécharger Cours complet sur la statistique biologie



★★★★★★★★★★3.5 étoiles sur 5 basé sur 1 votes.
Votez ce document:

Ressource de formation complet pour tout savoir sur la statistique biologie

Introduction

Qu’est-ce que les statistiques ?

Pourquoi utiliser les statistiques ?

? Caractéristiques en biologie de la mesure d’un certain nombre de

facteurs

– variabilité des réponses en biologie

– mesure à partir d’échantillons

? Types de questions que l’on se pose en recherche :

– qu’est-ce qui produit un effet ?

– à quoi est due l’amplitude de cet effet ?

– qu’est-ce qui produit l’effet le plus important ?

Introduction

?      caractériser la relation entre variables variables qualitatives ou quantitatives

?      Statistiques descriptives

?      à partir des données obtenus sur l’échantillon, inférer les caractéristiques de la population d’origine

?      estimer si plusieurs échantillons proviennent ou non d’une même population

?      Statistiques inférentielles

Notion de variables

Exemples

1. cellules musculaires lisses isolées de trachée de rats application d’un inhibiteur des SERCA réponse calcique à la caféine

  1. étudiants inscrits en master BCPP en 2005-2006 gaucher / droitier
  1. étudiants inscrits en maîtrise de BCP

sexe repos/effort rythme cardiaque

6. genres fossiles durée de vie

7.réponse à un agoniste contractant concentration de l’agoniste amplitude de la contraction

Notion de variables

Ressource de formation complet pour tout savoir sur la statistique biologie

Variables qualitatives et quantitatives

1. cellules musculaires lisses isolées de trachée de rats application d’un inhibiteur des SERCA réponse calcique à la caféine

  1. étudiants inscrits en master BCPP en 2005-2006 gaucher / droitier
  1. étudiants inscrits en maîtrise de BCP

sexe repos/effort rythme cardiaque

6. genres fossiles durée de vie

7.réponse à un agoniste contractant concentration de l’agoniste amplitude de la contraction

Variables indépendantes et variables dépendantes

1. cellules musculaires lisses isolées de trachée de rats application d’un inhibiteur des SERCA réponse calcique à la caféine

  1. étudiants inscrits en master BCPP en 2005-2006 gaucher / droitier
  1. étudiants inscrits en maîtrise de BCP

sexe repos/effort rythme cardiaque

6. genres fossiles durée de vie

7.réponse à un agoniste contractant concentration de l’agoniste amplitude de la contraction

Notion de variables

Variables indépendantes et variables dépendantes

1. liens entre variables qualitatives variable indépendante qualitative variable dépendante qualitative

ex : présence d’un inhibiteur des SERCA

types de r éponses (oscillantes vs non oscillantes)

2. liens entre variables qualitatives et quantitatives variable indépendante qualitative

variable dépendante quantitative

ex : présence d’un inhibiteur des SERCA amplitude de la variation de [Ca2+]i

3. liens entre variables quantitatives variable indépendante quantitative variable dépendante quantitative

ex : concentration d’inhibiteur des SERCA amplitude de la variation de [Ca2+]i

Variables contrôlées et non contrôlées

1. cellules musculaires lisses isolées de trachée de rats application d’un inhibiteur des SERCA réponse calcique à la caféine

  1. étudiants inscrits en master BCPP en 2005-2006 gaucher / droitier
  1. étudiants inscrits en maîtrise de BCP

sexe repos/effort rythme cardiaque

6. genres fossiles durée de vie

7.réponse à un agoniste contractant concentration de l’agoniste amplitude de la contraction

Notion de variables

Variables contrôlées et non contrôlées observation (survey)

Dans les études d’observations, les variables indépendantes ne sont pas contrôlées.

exemples :

-  fréquence des cancers de la thyroïde après l’accident de Tchernobyl, dans une zone géographique donnée.

-  durée de vie des genres fossiles

-  admission aux urgences pour problèmes respiratoires en fonction de l’intensité de la pollution atmosphérique

Notion de variables

Variables contrôlées et non contrôlées

expérimentation (experiment)

Dans les études d’expérimentation, les variables indépendantes sont contrôlées exemples :

-  effet de l’adrénaline sur la fréquence cardiaque.

-  détermination sur la souris de la quantité minimale contaminante de cerveau de bovin atteint d’ESB.

Notion de variables

Variables contrôlées et non contrôlées observation (survey)

expérimentation (experiment)

?     analyse prospective : observation, expérimentation

?     analyse rétrospective : observation

Variabilité des processus biologiques

Caractéristiques

ex : tension développé par un anneau de trachée de rat en r éponse à une stimulation cholinergique

?     la variabilité est la règle

?     la variabilité est non prévisible time (sec)


?     la variabilité des résultats est différente de l’erreur instrumentale

?    la « marge d’imprécision » d’estimation de la tendance centrale est un intervalle de probabilité

Types de distributions

distribution binomiale

La variable peut prendre deux valeurs – pas forcément numériques.


autres distributions

20

40

60

80

100

120

140

160

 

durée de vie (en millions d’années)

   

mesure de la tendance centrale moyenne arithmétique

moyenne arithmétique : somme des valeurs de la variable divisée par le nombre de valeurs

= centre de gravité de la distribution

(pour éviter les biais par simplification, faire le calcul avec une décimale supplémentaire par rapport au nombre de décimales de la valeur exprimée de la moyenne)

intérêts et limites :


?    très utilisée en statistiques descriptive et inférentielle

?    souvent, pas toujours, la mesure la plus pertinente de la tendance centrale

Statistiques descriptives

mesure de la tendance centrale

médiane

valeur de part et d’autre de laquelle se distribue par moitié les valeurs de la variable (50 % des valeurs sont inférieures à la médiane, et 50 % sont supérieures).


?   intérêt théorique : dans certains cas, « bonne » manière de décrire la tendance centrale

?    peu utilisée pour les calculs de signification statistique

mesure de la tendance centrale mode

valeur de la variable qui survient avec la plus grande fréquence variables discontinues : valeur exacte

variables continues : dépend du mode de calcul

intérêts et limites :

?    facile à déterminer

?   difficile à manipuler mathématiquement (pour tester statistiquement des hypothèses)

?   intérêt théorique : dans certains cas, « bonne » manière de décrire la tendance centrale

mesure de la tendance centrale choix de la mesure

?    dépend de la loi de distribution

?    dépend de la question posée

? dans la plupart des cas : moyenne

20

40

60

80

100

120

140

160

 

durée de vie (en millions d’années)

   

? médiane et mode intéressants dans certains cas

intérêts et limites :

?   Après standardisation, permet de comparer la position de plusieurs variables entre elles, même si les unités de mesure de ces variables sont différentes.

?    quasiment la seule mesure de la dispersion utilisée

Statistiques descriptives

mesure de la dispersion individuelle

écart (range)

différence entre la plus petite et la plus grande valeur.

intérêt et limites :

?   facile à calculer

?   très instable (une seule valeur extrème modifie fortement la valeur de l’écart) La moyenne arithmétique de l’écart déterminer sur des échantillonages répétés et l’écart moyen (mean range), utilisé comme estimation de l’écart-type de la population.

déviation moyenne (mean deviation)

moyenne arithmétique de la différence, en valeur absolue, entre chaque valeur et la moyenne arithmétique.

intérêt et limites :

? mesure très rarement utilisée

Questions estimation des caractéristiques d’une population à partir d’un échantillon

?    fréquence de distribution

?    moyenne et écart-type de la population précision de l’estimation intervalle de confiance

estimation des différences entre plusieurs populations, à partir d’échantillons

?    comparaison à une population théorique

?    comparaison de plusieurs (2 ou plus) échantillons entre eux tests statistiques estimation des erreurs risque de première espèce (a) risque de deuxième espèce (b)

Statistiques inférentielles : estimations

estimation des caractéristiques d’une population à partir d’un échantillon

fréquence de distribution

estimation des caractéristiques d’une population à partir d’un échantillon

moyenne et écart-type de la population

?     estimation de la moyenne

=  moyenne de l’échantillon

?     estimation de l’écart-type

écart-type estimé de la population : S

exemple : mesure de la fréquence cardiaque sur un échantillon de 31 personnes moyenne de l’échantillon (mesurée) : 86 battements/min

écart-type de l’échantillon (mesuré) : 13,04 battements/min

moyenne de la population (estimée) : 86 battements/min écart-type de la population (estimé) : 13,25 battements/min

Statistiques inférentielles : estimations

précision de estimation fluctuation / taille de l’échantillon

? précision de l’estimation de la moyenne de la population : dépend de la fluctuation de la moyenne de l’échantillon.

Moins, d’un échantillon à un autre, la valeur moyenne fluctue, plus grande est la précision de l’estimation de la moyenne de la population.

la fluctuation de la moyenne dépend :

?    de la fluctuation individuelle dans la population

?    de la taille de l’échantillon estimation de la fluctuation de la moyenne :

loi de probabilité de la moyenne ?

 

précision de estimation

loi de probabilité de la moyenne

?    si la loi de probabilité des variables des individus suit une loi normale, alors la loi de probabilité de la moyenne est également une loi normale

?    si la loi de probabilité des variables des individus n’est pas une loi normale, la loi de probabilité de la moyenne est une loi normale, si la taille

de l’échantillon est assez grande (n > 30 )


 nombre de femmes dans un groupe de 30 personnes, pour un sex ratio théorique de 50 %

0        5        10       15       20       25       30

Statistiques inférentielles : estimations

précision de estimation

écart-type de la moyenne

estimation de la fluctuation de la moyenne :

écart-type de la moyenne = standard error of the mean (SEM)

exemple : fréquence cardiaque

moyenne de la population (estimée) : 86 battements/min écart-type de la population (estimé) : 13,25 battements/min

exemple : sex ratio

population (estimation) : femmes = 58,06 %    homme = 41,94 %

NB : la précision dépend de la taille de l’échantillon, pas de la taille de la population

précision de estimation

intervalle de confiance (confidence interval)

intervalle autour de la moyenne calculée de l’échantillon dans lequel la moyenne de la population a une probabilité donnée de se trouver.

exemple : intervalle de confiance à 95 % : la valeur moyenne de la population dont est issu l ’échantillon a 95 chances sur 100 de se trouver dans l ’intervalle.

dépend :

?    de la SEM

?    du % de confiance voulu

?    du degré de liberté (ddl)

ex :

ddl > 30

intervalle de confiance à 95 % = m ± 1,96 SEM

loi normale

               

0,5

     

m

       

0,4

               

0,3

   

SEM

         
               

0,2

               

0,1

               

0,0

               

-4

-3

-2

-1

0

1

2

3

4


précision de estimation

intervalle de confiance (confidence interval)

exemple : sex ratio mesur é sur un échantillon de 31 personnes

sex ratio de l’échantillon (mesure) :

femmes = 18 (58,06 %)          homme = 13 (41,94 %)

sex ratio de la population (estimation) : femmes = 58,06 % homme = 41,94 % SEM = 8,86 %

(n = 31 ; ddl = 30)

intervalle de confiance à 95 % (IC 95 %) =

femmes = 58,06 % ± 17.37 %                hommes = 41,94 ± 17.37 %

précision de estimation

intervalle de confiance (confidence interval)

exemple : fréquence cardiaque mesur ée sur 31 personnes (n = 31)

moyenne de l’échantillon (mesurée) : 86 battements/min écart-type de l’échantillon (mesuré) : 13,04 battements/min moyenne de la population (estimée) : 86 battements/min écart-type de la population (estimé) : 13,25 battements/min SEM = 3,38 battements/min

(n = 31 ; ddl = 30) intervalle de confiance à 95 % (IC 95 %) = 86 ± 6,7 battements/min

Statistiques inférentielles : comparaisons statistiques

principe des tests : hypothèse nulle principe des tests

Les statistiques inférentielles permettent d’assigner une probabilité à l’obtention d’un résultat pour une hypothèse donnée.

Si cette probabilité est trop faible, on rejette l’hypothèse.

Ressource de formation complet pour tout savoir sur la statistique biologie

hypothèse nulle (null hypothesis)

Le principe des tests statistiques est de postuler l’hypothèse nulle : on fait l’hypothèse que les différences observées – entre des valeurs observées ou entre une valeur observées et une valeur théorique – est due aux fluctuations d’échantillonnage.

conditions de rejet de l’hypothèse nulle

Si la probabilité de l’hypothèse nulle est trop faible, on la rejette, et on accepte l’hypothèse non nulle : les échantillons comparés proviennent de populations différentes.

On dit alors qu’il existe une différence statistiquement significative.


principe des tests : hypothèse nulle

exemples :

  1. comparaison de la répartition H/F observée et de la valeur théorique du sex ratio 50 %
  1. comparaison des fréquences cardiaques de groupes d’étudiants à la fréquence théorique « normale » de 70 battements/minute
  1. comparaison des fréquences cardiaques des hommes et des femmes dans un groupe d’étudiants.
  1. & b) hypothèse nulle : la population théorique dont le groupe d’étudiants est un échantillon représentatif n’est pas différente de la population « générale » dont on connaît les valeurs théoriques :

sex ratio de 50 % et fréquence cardiaque de 70 batt/min.

c) hypothèse nulle : que la population théorique dont les étudiants masculins sont un échantillon représentatif est identique à la population théorique dans les étudiants féminins sont un échantillon représentatif.

conditions de rejet de l’hypothèse nulle

Si la probabilité de l’hypothèse nulle est trop faible, on la rejette, et on accepte l’hypothèse non nulle : les échantillons comparés proviennent de populations différentes.

Il existe une différence statistiquement significative.

Par convention, on fixe en général le seuil de signification à 5 % p<0,05 : différences statistiquement significatives

p<0,01 : différences statistiquement hautement significatives p<0,001 : différences statistiquement très hautement significatives

le seuil de signification est déterminé avant d’effectuer le test ; le degré de signification est déterminé par le test (= probabilité de rejeter l’hypothèse nulle si elle est vraie).

La différence est significative si le degré de signification est inférieur au seuil de signification.

risques d’erreur

risque a (risque de 1re espèce) (type 1 error)

risque de rejeter l’hypothèse nulle si est est vraie.

Il est connu : seuil (à priori) ou degré (à postériori) de signification du test

risque b (risque de 2e espèce) (type 2 error)

risque d’accepter l’hypothèse nulle alors qu’elle est fausse.

Le risque de 2e espèce correspond au défaut de puissance d’un test

Il est en général indéterminé (on ne connaît pas les caractéristiques des populations théoriques).

Statistiques inférentielles : comparaisons statistiques

risques d’erreur

risque a (risque de 1re espèce) (type 1 error) risque de rejeter l’hypothèse nulle si est est vraie.

risque b (risque de 2e espèce) (type 2 error)

risque d’accepter l’hypothèse nulle alors qu’elle est fausse.

Les deux types de risques sont antagonistes.

Si on diminue le risque de 1re espèce, on augmente le risque de 2e espèce.

Étant donné que le risque de 2e espèce n’est pas connu – à la différence du risque de 1re espèce – en absence de différence significative, on ne peut pas conclure à l’absence de différence, car on ne contrôle pas le risque d’erreur attaché à cette conclusion.

Il y a une différence souvent oubliée entre ne pas conclure qu’il existe une différence, et conclure qu’il n’existe pas de différence.

risques d’erreur

risque a (risque de 1re espèce) (type 1 error) risque de rejeter l’hypothèse nulle si est est vraie.

risque b (risque de 2e espèce) (type 2 error)

risque d’accepter l’hypothèse nulle alors qu’elle est fausse.

risque de se tromper

Le risque de conclure à tort à une différence, c ’est-à-dire le risque de conclure à une différence significative alors qu’il n’y en a pas, n’est pas le risque de 1re espèce.

En effet, il s’agit de la probabilité de rejeter l’hypothèse nulle et que l’hypothèse nulle soit vraie.

Donc, le risque de conclure à tort dépend du seuil de signification choisi mais également de la probabilité à priori que l’hypothèse nulle soit vraie.

Procédures expérimentales

méthodologie

?      poser une question

?      émettre une hypothèse

?      élaborer une procédure expérimentale de test de l’hypothèse (NB : test ? confirmation)

« Expérimental design is not a means of proving that the chosen explanation is correct, but rather a system by which alternatives are eliminated »

Lumley & Benjamin. Research: some grounds rules

= critère de réfutation

(Karl Popper. La logique de la découverte scientifiqueConjectures et réfutations)

procédure expérimentale

?   constitution d’un ou de plusieurs échantillons

« statistical techniques depend on the random selection of subjects (sample) from a defined population »

Lumley & Benjamin

?      choix des procédures expérimentales

 ?      choix des procédures statistiques

définition de l’hypothèse nulle choix du seuil de signification choix du test

« The identification of an appropriate statistical procedure is an important part of the design and should never be left after the data collection ». Lumley & Benjamin

Procédures expérimentales

choix du test

?   types de variables qualitatives / quantitatives

?      nombre de variables

 ?      taille de l’échantillon 

?      loi de répartition normale ou non 

?      mesures répétées ou non / nombre de facteurs

liens entre variables qualitatives

?     échantillon de taille normale (effectifs calculés > 5) :

?      test du ? 2  (chi2).

 ?     échantillon de taille réduite (effectifs calculés > 3) :

?      ? 2  corrigé (correction de Yates)

 ?     échantillon de taille très réduite (effectifs calculés < 3) :

?     « test exact »

liens entre une variable qualitative et une variable quantitative

comparaison de deux moyennes

comparaison de deux moyennes observées

comparaison d’un moyenne observée à une moyenne théorique

?    les effectifs sont suffisamment grands (n>30) ou la loi de répartition est normale (faire éventuellement un test de normalité)

?      test t de Student

options du test :

-  comparaison d’un moyenne observée et d’une moyenne théorique (one population) ou de deux moyennes observées (two populations)

-  mesures appariées (paired) ou non appariées (unpaired)

-  comparaison unilatérale (one-tailed) ou bilatérale (two-tailed)


liens entre une variable qualitative et une variable quantitative

comparaison de deux moyennes

comparaison de deux moyennes observées

comparaison d’un moyenne observée à une moyenne théorique

?    Les effectifs sont faibles et la répartition n’est pas normale (faire éventuellement un test de normalité)

?      tests non paramétriques

liens entre une variable qualitative et une variable quantitative

comparaison de plusieurs (= 2) moyennes

?    la loi de répartition de probabilité est normale pour la variable mesurée (faire éventuellement un test de normalité)

?      Analyse de la variance (ANOVA)

options :

ANOVA à plusieurs facteurs

tests « post-hoc » :

Méthode de Bonferonni (test t) : recommandé pour un usage général, si les comparaisons ne sont pas trop nombreuses

Méthode de Tukey (test t) : à utiliser lorsque toutes les comparaisons paire par paire sont intéressantes

Méthode de Dunnet : à utiliser lorsque l’on compare le groupe contrôle avec les autres groupes, mais pas les autres groupes en eux.

Méthode de Sheffé (test F) : à utiliser pour les comparaisons compliquées


Statistiques inférentielles : choix du test

liens entre une variable qualitative et une variable quantitative

comparaison de plusieurs (= 2) moyennes

?    la loi de répartition de probabilité est normale pour la variable mesurée (faire éventuellement un test de normalité)

?      Analyse de la variance (ANOVA)

?    la loi de répartition de probabilité n’est pas normale pour la variable mesurée (faire éventuellement un test de normalité) ? tests non paramétriques

tests de normalité

Martinez-Iglewicz *

(Kolmogonov-Smirnov)

Agostino-Skewness            (si n>8)

Agostino-Kurtosis               (si n>20)

Agontino Omnibus*

* meilleurs tests

Statistiques inférentielles : choix du test

lien entre deux caractères quantitatifs

exemple

Linear Regression

Y = A + B * X

Parameter  Value        Error

-----------------------------------

A

70,94

4,39668

B

1,416

0,11966

-----------------------------------

R              SD            N

-----------------------------------

0,94133     5,98312     20

(UA)

dépendante

variable

160

           

140

           

120

           

100

           

20

25

30

35

40

45

50

variable indépendante (UA)

 

?     une des deux distributions liées au moins est normale avec une variance constante

 ?      test de corrélation (ou de régression) détermine si la pente est statistiquement significative de 0

?    si aucune des variables liées n’est normale et de variance constante (petits échantillons)

?      test non paramétrique de corrélation des rangs (test de Spearman)




166