L'essentiel des concepts et pratiques pour réviser et s'entraîner en biostatistique

L'essentiel des concepts et pratiques pour réviser et s'entraîner en biostatistique
…
Carcinogenèse
Les maladies cardio-vasculaires et le cancer sont les causes de décès les plus importantes dans beaucoup de pays développés. Chez les hommes, le cancer de la prostate, le cancer du poumon et le cancer du côlon et du rectum sont les plus fréquents. Chez les femmes, la liste contient le cancer du sein, le cancer du poumon et le cancer du côlon et du rectum. Le cancer le plus mortel est le cancer du poumon. Certains aspects physiologiques du cancer sont bien connus. Les cellules cancerigènes sont différentes des cellules normales. Elles sont dites néoplasiques. Leur croissance est dérégulée et elles formes des tumeurs. Il est possible de provoquer la création de certains cancers par un traitement de rayons UV ou gamma, par des infections virales, par l'exposition à certaines substances chimiques, etc. La forme néoplasique de la cellule se transmet aux cellules descendantes lors d'une division cellulaire. Pour que cela se produise, le génome de ces cellules malades ne doit pas être le même que celui des cellules normales. Le développement de cette maladie se fait donc au niveau cellulaire et touche d'une façon ou d'une autre la machine génomique de la cellule. L'importance des mutations dans le développement de tumeurs est démontrée par le fait qu'un bon nombre de substances mutagènes induisent la formation de tumeurs. En conclusion, il semble presque certain que les tumeurs sont dues à une déformation (mutation) du génome cellulaire.
Le cancer est également réputé être une maladie génétique dans un autre sens. Il semble que certains cancers arrivent fréquemment dans certaines familles et presque jamais dans d'autres. Ce phénomène d'une composante du risque qui est de nature familiale semble indiquer que certains allèles soit pro- tègent soit sont dommageables pour l'individu.
Dans ce chapitre, nous allons découvrir des modèles stochastiques qui décrivent la naissance d'une tumeur dans un organe. Avec des données épidémiologiques qui comptent le nombre de cas en fonction de l'âge dans une population,
- ¨n peut ajuster les paramètres de tels modèles et ainsi mieux comprendre les mécanismes de la carcinogenèse.
2.1 Modèles à une frappe
Les études sur la carcinogenèse ont pour origine des expériences sur les dangers de la radioactivité. Des souris exposées à des rayons gamma développaient une multitude de tumeurs, mais pas toujours les mêmes et pas toujours au même âge. Des modèles stochastiques pourraient expliquer ces résultats et ont été proposés depuis les années 1920. Si l'on postule qu'une particule gamma traversant le noyau d'une cellule peut amener une transformation permanente et héritable des propriétés de la cellule, on a le fondement d'une théorie. Si une seule frappe de ce genre suffit pour déclencher la maladie, on parle du modèle à une frappe ou bien du « one-h,it model, ».
La transformation permanente du génome à laquelle ce modèle fait appel est aujourd'hui appelée mutation. Nous allons maintenant étudier ce qui se passe sous ce modèle, si le taux de mutations est constant dans le temps. Soit donc A le taux de mutations, par unité de temps et par cellule. L'interprétation habituelle d'un tel taux consiste à dire que si M(t) est égal au nombre de cellules mutées à l'âge t, alors
M(t + dt) = M(t) + A(N − M(t)) dt + o(dt), (2.1)
- ¨ù N est le nombre de cellules de l'organe, N − M(t) est le nombre de cellules normales et o(dt) est un terme qui vérifie o(dt)/dt → 0 lorsque dt → 0. De (2.1) on déduit que M′(t) = A(N−M(t)) ou bien ddt ln(N−M(t)) =−A. Sous condition initiale M(0) = 0, la solution est
ln(N − M(t)) = constante − At M(t) = N − econstante e−a t
M(t) = N (1 − e−a t) .
Le traitement ci-dessus nous fournit uniquement le nombre moyen de cellules mutées. Pour des petites valeurs du taux A, ce nombre moyen augmente linéairement, M(t) g NAt. Dans le contexte de la carcinogenèse, cette analyse est insuffisante, car d'autres questions sont plus importantes. On aimerait en particulière connaître la probabilité que l'organe échappe aux frappes.
Soit S(t) la probabilité qu'un individu sujet à ce processus de transformation n'ait pas développé la maladie jusqu'à l'âge t. Cette fonction est appelée fonction de survie. Cette fois, notre interprétation du taux A sera la suivante. Durant un intervalle de courte durée 0 < dt et dans un organe à N cellules normales, trois événements peuvent se produire :
- aucune cellule ne mute, avec probabilité 1 − NA dt + o(dt) ;
- exactement une cellule mute, avec probabilité NA dt + o(dt) ;
- deux ou plusieurs cellules mutent, avec probabilité o(dt). Ces probabilités s'appliquent indépendamment de l'âge de l'individu. Pour la fonction de survie S(t), elles nous disent que
S(t + dt) = S(t)(1 − NA dt + o(dt)),
…
2.3 Modèles à deux étapes
La mortalité due à des cancers dans des populations humaines ne se conforme pas aux modèles à frappes multiples. Typiquement, la mortalité à des âges inférieurs à 40 ans est quasi-nulle et augmente rapidement entre 60 et 80 ans. Cela implique d'une part une valeur assez élevée du nombre m de frappes, et d'autre part un très faible taux mutationnel λ. Sous ces conditions, le modèle à multiples frappes ne peut pas obtenir une incidence de la maladie suffisamment élevée pour expliquer les risques observés dans la population humaine. De ces faits est venue l'idée que le comportement des cellules change avec l'âge et/ou que l'infiuence de facteurs externes dépend de l'âge (voir par exemple Armitage et Doll, 1954). Si les cellules intermédiaires dans le modèle à multiple frappes étaient hyper-mutables (taux λ élevé), on obtiendrait de meilleurs résultats. Une autre possibilité, confirmée par des observations cliniques, est un dérèglement par étapes de la croissance cellulaire. Dans un tel modèle, les cellules intermédiaires ont une croissance plus grande que normale, forment des tumeurs bénigne et peuvent accélérer le développement du cancer. Cette généralisation du modèle à multiples frappes a été proposée par Knudson et Moolgavkar sous le nom « modèle à deux étapes » :
— l'initiation : une suite de mutations transforme une cellule normale en cellule précancérigène ou dysplasique ;
— la promotion : un changement génétique ou épigénétique (un changement héritable, mais non pas codé au niveau de l'ADN) ; cet événement transforme les cellules initiées en cellules néoplasiques et déclenche la tumeur. La figure 2.4 montre ce processus schématiquement.
2.3.1 Initiation

L'initiation est un processus à m frappes comme nous l'avons étudié. Le nombre de cellules initiées jusqu'à l'âge t, Iinit(t), suit une loi de Poisson
Iinit (t) ∼ P (10 Ainit (u)du\ l
Ainit(t) = mNAmtm−1 = mN(τp)mtm−1 = cinittm−1 (voir 2.9, 2.10).
Le nombre de cellules initiées est ainsi un processus de Poisson à taux non homogène.
Dans les cellules initiées, un ou plusieurs gènes régulateurs de mécanismes cellulaires sont inactivés, ce qui accélère la croissance de ces cellules et peut provoquer d'autres effets encore. Nous avons déjà noté une contradiction entre le concept du nombre constant de cellules N d'un organe et le fait que les cellules se divisent, ce qui produit, à partir d'une cellule parentale deux, et non pas une, cellules descendantes. Pour résoudre cette contradiction, la mort de cellules doit être postulée. Les seules cellules immortelles dans l'organe sont les cellules souches. Un modèle possible d'un organe consiste en cellules souches qui, par division, se recréent et donnent naissance à une nouvelle cellule normale
…
2.4 Risque génétique
Les modèles de la carcinogenèse sont devenus de plus en plus sophistiqués avec le passage du temps. L'idée des étapes multiples a répondu à plusieurs défauts des modèles plus simples, en particulier ceux à multiples frappes. Un des cancers les plus fréquemments observés, le cancer du côlon, semble être assez proche du modèle à deux étapes. Dans cet exemple, les polypes, des croissances bénignes qui peuvent évoluer en cancer dans un délai de 10 à 20 ans, sont les formes intermédiaires des cellules. Le modèle explique élégamment les cas de cancers qui se manifestent chez les adolescents, dit K e( rly-onset ».
Un individu qui est porteur d'une des mutations initiantes dès sa naissance suivra une carcinogenèse accelérée. Dans ce sens, le modèle à plusieurs étapes peut incorporer des risques génétiques. Finalement, pour les cancer dits « loteonset», ce modèle s'ajuste avec succès aux courbes d'incidences de divers types de cancer.
Comme expliqué ci-dessus, les cancers d'apparition précoce pourraient être liés à l'occurence d'une mutation, c'est-à-dire d'un certain génotype. Cela est une forme de risque génétique, qui a comme effet l'accelération du développement d'une maladie dû au fait que le gène muté est une cause directe de la maladie. Un génotype peut pourtant être un facteur de risque qui agit de manière plus subtile, par exemple en diminuant les défenses naturelles de l'individu. Pour beaucoup de maladies, les épidémiologues constatent l'existence d'un risque familial. Si l'on observe l'occurence d'une telle maladie parmi les enfants dont un des parents a également souffert, une augmentation du nombre des cas se manifeste. On pourrait expliquer ce phénomène soit par l'environnement et le comportement partagé en famille, soit par l'héritage de gènes mutés qui posent un risque.
Pour inclure un élément génétique dans notre modèle de carcinogenèse,
- ¨n pourrait modéliser les paramètres clés m, cinit et β − δ par des variables aléatoires. Ainsi, chaque individu aurait ses propres valeurs et pour certains la fonction de survie Scancer plongerait rapidement vers Zéro, tandis que pour d'autres la probabilité de développer un cancer serait faible. Pour une population entière, cette idée nous amène vers un modèle qui consiste en un mélange de modèles à deux étapes ayant différentes valeurs des paramètres. Plus simple encore, on pourrait postuler une simple condition qui sépare les individus en deux classes, celles et ceux qui sont vulnérables et susceptibles, et les autres qui sont protégés. Soit F > 0 la fraction de la population à risque et soit Aindépendant(t) la mortalité toutes causes confondues, à l'exception du cancer. Le taux de mortalité parmi la fraction à risque vaut
Aà risque(t) = Acancer(t) + Aindépendant(t),
tandis que la population qui n'est pas à risque a un taux de mortalité égal à
Aprotégé(t) = Aindépendant(t).
Le taux d'incidence Acancer(t) n'est valable que pour les personnes à risque. Si l'on étudie l'incidence du cancer dans la population générale, en revanche, on doit modifier la fonction en la multipliant par la fraction des survivants parmi les susceptibles. À la naissance, une fraction F d'une cohorte est à risque, mais lorsque l'âge de la cohorte augmente, cette fraction varie et il faut en tenir compte. La formule suivante montre le taux d'incidence que l'on observe dans
…
3.1 Équilibre de Hardy-Weinberg
Le génome est présent dans les cellules sous forme de longues molécules d'ADN, nommées chromosomes. Chez les humains, l'information génétique se concentre essentiellement dans les 2 × 22 chromosomes homologues et les 2 chromosomes sexuels. Les chromosomes portent les gènes, qui à leur tour représentent dans un sens l'unité d'information génétique. Deux exemples : le gène ABO qui détermine le groupe sanguin se trouve sur le chromosome 9, et le gène du facteur VIII dont le déficit cause l'hémophilie du type A est situé sur le chromosome X. La transmission du génome des parents aux descendants se manifeste par le fait que les cellules humaines contiennent 23 chromosomes provenant de la mère et 23 provenant du père. Les deux chromosomes sexuels sont homologues chez les femmes (XX) et en couple avec un autre chromosome chez l'homme (XY). Les chromosomes dont nous avons deux copies ainsi que les gènes qui s'y trouvent sont dits autosomes. Les chromosomes sont constitués de polymères formés de nucléotides composés d'une base et de désoxyribase phosphate. La structure d'un chromosome est une double hélice formée de deux brins complémentaires. La structure est maintenue par une liaison entre bases complémentaires. Les chromosomes sont ainsi constitués de paires de bases (pb). Les chromosomes sont nommés 1, 2, ..., 22, X, Y et leurs tailles en paires de bases sont données au tableau 3.1.
Il y a quatre bases différentes : A (adénine), G (guanine), C (cytosine) et T (thymine) avec les couplages complémentaires A − T et G − C. Les deux brins d'un chromosome contiennent l'information génétique en double. Si un brin comporte une base G, alors l'autre a un C et ainsi de suite. En exploitant les différences dans les propriétés physiques des bases, il est possible d'établir la séquence d'une molécule d'ADN. Un des objectifs du projet de séquençage du génome humain (voir par exemple genomics.energy.gov) était l'établissement de la suite ADN d'un être humain. Le génome humain total contient 3,1647 × 109 paires de bases. Le nombre de gènes se trouve entre 25 000 et 30 000 avec une longueur moyenne d'environ 3 000 pb. La longueur des gènes varie pourtant de manière importante. Plus que 99,9 % des paires sont identiques d'un individu à l'autre, mais cela laisse quand même environ 1, 4 × 106 pb où des différences existent. On parle d'une base polymorphique si elle est telle qu'une proportion appréciable (plus de 5 %) de la population est porteuse d'une variante. L'assez faible pourcentage de bases polymorphiques est suffisant pour que beaucoup de gènes ne soient pas uniques et qu'une diversité génétique existe. A l'exception des gènes se trouvant sur les chromosomes sexuels, nous possédons deux copies de chaque gène. Une copie d'un gène est appelée un allèle. Chaque individu possède donc deux allèles de chaque gène et ce couple de gènes détermine son génotype. Si les deux allèles sont égaux, la personne est homozygote. Dans le cas contraire, elle est hétérozygote.
Le fait que les gènes sont souvent polymorphiques est bénéfique. Éliminer la diversité génétique est dangereux pour la survie d'une espèce. En connaissant tous les allèles et leurs fréquences, la variation génétique dans une population est définie. Cela représenterait pourtant un vaste projet, car la détermination du génotype d'un individu est difficile et coûteuse. Les allèles s'expriment parfois par des caractéristiques physiologiques ou des apparences physiques. Dans ce cas, en observant le phénotype d'un individu, on peut déduire son génotype. Mais, dans d'autres circonstances, le génotype ne se voit pas et des techniques plus fines fondées sur la biologie moléculaire sont nécessaires.
…

Hypothèse a) Ségrégation mendelienne
Si un adulte est de génotype Aa pour un gène, ses gamètes sont dans 50 % des cas porteurs de A et dans 50 % des cas porteurs de a. Ce mode de transmission de l'information génétique est dit ségrégation mendelienne. En conséquence, à partir du génotype, on peut calculer la fréquence des allèles dans les gamètes. De plus, les fréquences des allèles dans les gamètes sont égales à celles des allèles dans la population, au moins pour les gènes autosomes.
Hypothèse b) Unions aléatoires
Par « union aléatoire », on entend une sélection complètement aléatoire des couples qui vont créer des descendants. Les fréquences de croisement de génotypes peuvent donc être calculées par multiplication. Le croisement d'un génotype AA avec un génotype Aa a une probabilité 2PAAPAa. Pour justifier ce calcul, supposons que les deux partenaires soient choisis aléatoirement. Le tirage d'un génotype AA suivi d'un génotype Aa a une probabilité de PAA PAa. Parce que l'ordre pourrait être inverse, on obtient un facteur de 2. Dans des populations de petite taille, cette condition n'est pas vérifiée exactement du fait des dépendances entre unions.
Hypothèse c) Fertilité normale
Le génotype n'a aucune influence sur la chance d'un individu d'avoir des descendants.
Hypothèse d) Survie indépendante du génotype
Le génotype n'a pas d'effets sur la santé et la chance de procréation de l'individu.
Hypothèse e) Générations qui ne se chevauchent pas
Cette hypothèse n'est que rarement strictement vérifiée. Elle stipule que les générations des parents et des descendants sont séparées, comme par exemple chez les plantes annuelles.
Lemme 3.1 (Hardy-Weinberg. Une population de taille infinie se renouvelle sous condition de ségrégation normale, de fertilité normale, d'unions aléatoires, de générations qui ne se chevauchent pas, et de survie indépendante. Soit un gène autosome (l deux allèles A et a avec probabilités de génotypes PtextAA,
Si l'équilibre de Hardy-Weinberg est vérifié, on parvient donc à, faire le pas qu'il n'a pas été possible d'effectuer avant, c'est-à-dire calculer les fréquences P❆❆ et P❆❛ sur la base de p❆ seulement. Sous cet équilibre, la connaissance des fréquences d'allèles équivaut à, la connaissance des fréquences de génotypes.
Preuve. Le tableau 3.3 part d'une population parentale dans laquelle les génotypes AA, Aa et aa sont en proportions (PAA, PAa et Paa). Les fréquences des allèles dans cette génération vérifient pA = (2PAA+PAa)/2 et pa = 1−pA. Le tableau 3.3 contient pour chaque combinaison de génotypes des parents les probabilités (conditionnelles) des génotypes des descendants, calculées sous les hypothèse a), c) et d).
…
Cela démontre que l'équilibre entre fréquences d'allèles et fréquences de géno- types s'installe immédiatement, d'une génération parentale quelconque à la génération des descendants. Même si, dans la génération des parents, PAA n'était pas égale à p2A, parmi les descendants, l'équilibre serait valide.
Les hypothèses dont l'équilibre découle devraient être discutées davantage. Les unions peuvent, par exemple, être dictées par de multiples raisons. Soit parce qu'un éleveur veut provoquer un certain résultat, soit parce que la géo- graphie sépare la population en sous-groupes, soit parce que des conventions sociales et culturelles forcent certains mariages. bans tous ces cas, l'équilibre de l'aléatoire est brisé et a comme effet un surplus d'homozygotes. Si l'un des allèles procure un avantage de fertilité à son porteur, l'équilibre de Hardy-Weinberg n'est également pas observé. L'allèle avantageux a tendance à s'enrichir. Tout dépendra du comportement des génotypes. Est-ce que le fait de porter une seule copie de l'allèle avantageux est mieux que d'en avoir deux? Si oui, une autre balance au niveau des fréquences pA et pa s'installera. Par la suite, nous allons étudier ces questions de façon plus approfondie.
3.1.1 Équilibre pour des gènes sur le chromosome sexuel
Une exception tout à fait simple à l'équilibre est présentée par les gènes se trouvant sur le chromosome sexuel X. Tandis qu'une femme possède deux copies du chromosomes X — elle en reçoit une du père et l'autre de la mère — l'homme en reçoit une seule copie de la mère. Pour plus de précision, nous allons à nouveau considérer deux allèles, A et a, mais parce que le gène se trouve sur le chromosome X, l'homme ne porte qu'une copie. Supposons que les fréquences des génotypes parmi les femmes et les hommes dans la génération des parents soient :
PAA, PAa, Paa (pour les femmes) et QA, Qa (pour les hommes).