Le test du khi-deux document de cours detaille et bien explique
plusieurs population. En fonction de d'hypothèses testés plusieurs types de testes peuvent être réalisés: *Les tests destinés à vérifier si un échantillon peut être considère comme extrait d'une population donnée ,vis-à-vis d'un paramètre comme la moyenne ou la fréquence observée (test de conformité) ou par rapport à sa distribution observée (test d' ajustement). *Les tests destinés à comparer plusieurs populations à l'aide d'un équivalent d'échantillon (test d'homogénéité)…etc. Mais pour faire ces tests, il faut utilise un parmi plusieurs des type comme le test , le test de,et le test de. Dans ce travail nous avons étudie le test khi-deux qui l'un des principaux tests appliqués pour le prise de décision les tests d'hypothèses. Dans le chapitre I, nous définissions les tests d'hypothèses dans le cas généralepour pouvoir permettre une décision en évaluant les risques . Dans le chapitre II, on s'intéresse à la loi du khi-deux : on définie n variables aléatoires qui suit la loi normale centrée réduite, On pose: = ∑ alors suit la loi de khi-deux à n degré de liberté puis faisons la preuve du théorème fondamentale du test du khi-deux . |
échantillons aléatoires , la validité d'hypothèses relatives à une ou
Le chapitre III, est étudie d'une part de la conformité des paramètres d'un échantillonà l' aide du test de khi-deux .Et toute la théorie sera illustrée par un exemple sur la génétique .
D'autre part, on va s'intéresse à l'homogénéité de deux échantillons par le biais du test khi-deux et de la même manière nous explicitions le concept par un exemple, ce qui achèverale travail.
Sweet
1-Les hypothèses: Les statistiques développent des techniques et des méthodes qui permettent d’analyser les donnée issues des l’observation, afin de cerner les caractéristiques de la population concernée et d’identifier un modèle capable d’engendrer ces données. Dans ce cadre, on est amené à faire des hypothèses, c'est-à-dire à émettre des assertions concernant ces caractéristiques de la population on ce modèle. Le plus souvent, la situation se résume en une alternative constituée de deux hypothèses qui s’excluent mutuellement et qui sont appelées respectivement l’hypothèse nulle, ou fondamentale, et l’hypothèse alternative, ou contraire. En général, les hypothèses ne jouent pas des rôles symétriques, et on choisit pour hypothèse nulle l’hypothèse à laquelle on croit ou on tient, ou encore celle qui permet de faire des calcules, ou encore celle dont le rejet est lourd de conséquences. 2-Règle de décision : Un test d’hypothèses est une règle de décision qui permet, sur la base des données observées et avec des risques d'erreur déterminés ,d’accepte ou de refuser une hypothèse statistique. Elle est définie sous l’hypothèse « est vraie » et pour un seuil de signification α fixé. |
valeur seuil(S seuil) c’est-à-dire : alors l’hypothèse est rejetée au risque d’erreur α et l’hypothèse est acceptée. -si la valeur de statistique S calculée ( ) est inférieure à la valeur seuil ( ) c’est-à-dire : alors l’hypothèse ne peut être rejetée. 3-les erreurs et les risques : La règle de décision d’un test étant basé sur l’observation d’un échantillon, on n’est jamais sur de l’exactitude de la conclusion : il y a donc toujours un risque d’erreur. L’erreur de première espèce consiste à rejeter à tort : le risque d’erreur de première espèce est noté , c’est le risque d’erreur que l’on prend en rejetant alors qu’elle est vraie. On l’appelle aussi le niveau du test. L’erreur de deuxième espèce consiste à rejeter à tort : le risque d’erreur de deuxième espèce est noté , c’est le risque d’erreur que l’on prend en rejetant alors qu’elle est vraie. Les risques lies aux tests d’hypothèses peuvent se résumer ainsi : | |||||
SITUATION VRAIE | |||||
H0 est vraie | H1 est vraie | ||||
La Décision est | Probabilité de prendre cette décision avant expérience | La Décision est | Probabilité de prendre cette décision avant expérience | ||
-si la valeur de la statistique S calculée () est supérieure à la
β) | Conclusion du test | Accepter H0 | bonne | 1-α | fausse | β(risque de deuxième espèce) |
Rejeter H0 | fausse | α(risque de première espèce) | bonne | 1-β | ||
Remarque: La probabilité complémentaire du risque de deuxième espèce (1 définit la puissance du test à l’égard de la valeur du paramètre dans l’hypothèse alternative . La puissance du test représente la probabilité de rejeter l’hypothèse nulle lorsque l’hypothèse vraie est plus est petit, plus le test est puissant. |
Sweet
= 3 ) Donc: ) = 3 ) = 2. II. Loi du khi deux à n degré de liberté: 1. Définition: T1, T2,…, TnDésignant n variables aléatoires indépendantesqui suivent toutes la loi normale centrée réduite, soitXla variable aléatoire définie par: = ∑ ,On dit que la variable aléatoire Xsuit la loi du khi-deux àndegrés de liberté 2. Densité de probabilité: D'après la densité de la loi de khi-deux à n degré de liberté ; On a .En remarque que: g(x) la densité d'une variable aléatoiresuitla loi Gamma( , )alors la densité de variable aléatoire X suit la loi de Gamma( , ) est: alors, cette densité est le même que la densité d'une variable X suit la loi de khi-deux à n degré de liberté. 3. Espérance et variance mathématique: |
Graphe n 01 Remarque: Si la variable aléatoire X suit une loi du khi-deux à n degrés de liberté, la table donne, pour un risque choisi, le nombre tel que: IV. Théorème fondamentale de test du khi- deux : Théorème 1: Si X1, X2,…, Xn sont des variables aléatoires normales indépendantes, la variable aléatoire S=X12+X22+…+Xn2 suit une loi khi-deux à n degrés de liberté. Théorème 2: Sous l'hypothèse H0, (X1, X2,…, Xn) est un échantillon d'une loi entièrement spécifié alors la statistique : à pour loi asymptotique la loi . Preuve: A/ Montrons tout d'abord que les variables aléatoires N1, N2,…, Nk obéissent à la loi multinomiale à s'avoir : |
) Soient X la variable aléatoire étudiée (X1,X2,…,Xn) un n échantillon de X ,et la mesure de probabilité de X lorsque H0 est vraie. On partage l'ensemble des valeurs X (Ω) en k classes (Cj) Avec 1≤ Si X est une variable aléatoire discret, les Cj sont en générale des points. Si X est une variable aléatoire continue, les Cj sont en générale des intervalles ou des produits des intervalles. Pour tout indice j de 1 à k, on note Pj la probabilité théorique de la classe Cj donnée la loi de avec Pj=P(X∈Cj). On note Nj le nombre de variable Xj prenant leur valeur dans Cj ; si H0 est vraie. On suppose que : 1 si Xj ∈ Cj = O sinon Alors l étant fixé , la fonction caractéristique de (Y1l,Y2l,…,Ykl) est : Si Yjl =1 i.e Xl ∈Cj .donc tous les autres Yml sont nuls est cet événement a pour probabilité Pj et pour conséquent la fonction caractéristique pour l fixé est :∑ exp ( ) Les Yjl pour les valeurs différentes de l sont indépendants d’où la fonction caractéristique de l'ensemble de Yjl es : ∏ )) donc, la fonction caractéristique de ( , … , ) est: = ∏ = (∑ |
Sweet
Test de conformité |
*Exemple: On a croisé deux races de plantes différant par deux caractère A et B . La première génération est homogène .la seconde génération fait apparaitre 4 types de plantes; dont les phénotypes est noté : AB, Ab, aB, ab. Si les caractères se transmettent selon les lois de « Mendel », la proposition théorique: des 4 phénotypes sont 9/16,3/16,3/16 et 1/16. Dans une expérience un échantillon de 160 plantes a donné: AB/100, Ab/18, aB/24, ab/18. Cette répartition est –elle conforme aux lois de « Mendel » au seuil de signification de 5℅? * La réponse: On pose l’hypothèse nulle. H0: »la répartition observée est conforme aux loi de Mendel » Pour calculer le khi-deux on établit le tableau suivant:
|
2-Position du problème:
On obtient : =12.51 Tq: =les effectifs observés. =les effectifs calculent. Ici le nombre de degré de liberté=n-1=4-1=3. Sur la table de khi-deux : on lit =7.815 avec α=0.05=le risque d’erreur. D’où , l’hypothèse de conformité doit être rejetée au seuil de signification de 5℅. |
1 ij1 ij2 deux j1et j2différents choisis parmi 1,2,…,k. Soitencore : les propositions d'individusprésentantchaquemodalité du caractèrenesontpasidentiquespourles populationspour au moins une modalitéducaractère . *Deuxième étape: Sous l'hypothèse d'homogénéité deux populations, on doit comparer les effectifs observés aux effectifs théoriques. Pour calculer les effectifs théoriques, il nous faut déterminerla proposition d'individus associées à la modalité i et que l'on suppose identique dans les k populations. On obtiendra une estimation de cette proportion en utilisant l'ensemble des données collectées ;on choisit donc: , on déduire les effectifs théoriques de chaque classe grâce à la relation .Pour comparer les écarts entre ce qu'on observe et ce qui se passe sous l'hypothèse H0, on considère la somme des écarts réduits de chaque classe ,à savoir la quantité : = ∑ Cette variablealéatoire suit une loi de khi-deux mais quel est donc nombre de degrés de liberté ? Calcule du nombre de degrés de liberté du khi-deux: A priori, on a k r cases dans notre tableau donc (k r) degrés de liberté. |
H:P≠Ppour aumoinsuniparmi 1,2,…,retpourau moins
que le nombre de relations entre les différents élément des cases. On a estimé probabilité théorique à l'aide des valeurs du tableau (P1, P2,…, Pr) mais seulement (r-1) sont indépendantes puisqu'on impose la restriction:∑ = 1.Par ces estimations, on a donc supprimé (r-1) degrés de libertés. Les effectifs de chaque colonne sont toujours liés par les relations: ∑ = et ces relations sontau nombre de k. Finalement, le nombre de degrés de libertés du khi-deux est: n=kr-(r-1)=(k-1)(r-1) *Troisième étape: On impose à la zone d'acceptation de H0concernant valeur du khideux d'être un intervalle dont est la borne inferieure. Il nous faut donc déterminer dans la table, la valeur maximale , de l'écart entre les deux distributions imputable aux variations d'échantillonnage au seuil de signification, c'est–à-dire vérifiant : *Quatrième étape: On calcule la valeur prise par dans l'échantillon -si la valeurse trouve dans la zone de rejet, on dira que l'écart observé entre les k distributions est statistiquement significatif au écart est anormalement élèvé et ne permet pas d'accepter H0 -si la valeurse trouve dans la zone d'acceptation, on dira que l'écart est imputable aux fluctuations d'échantillonnage. 3. position de problème : |
Maisil faut retirer à cette valeur ,le nombre de paramètres estimés ainsi
Un maladie est traité dans quatre hôpitaux différent .On a fait les observations suivantes:
Peut–onconsidérer que l’efficacité des 4 traitements est sensiblement la même?Autrement dit–peut-on attribuer au seuil hasard,Les divergences observées entre les pourcentages de guérison au taux de sécurité de 95℅? |
*Exemple:
On pose l’hypothèse nulle H0:«l’efficacité des 4 traitements est la même ». Dans ce cas, on prend pour estimation du pourcentage théorique de guérison, lepourcentageglobal correspondant a l’ensembledes maladies traités: = = 0.756 Les effectifs théoriques des différentes classes au moyen de cette valeur P0dans le tableau suivant:
|
*La réponse:
Par exemple : 151×0.756=114. Nous avons : X² =11.11 dire d.d.l= (4 valeur X² Nous avons l'hypothèse significatives c’est | Effectif totale | 502 | 163 | 665 | 75.6 | |
L'effectif théorique des cas de guérison pour l'hôpital 1 est: L'effectif théorique des cas de non–guérison est:151-114=37 Le nombre de degré de libertéd.d.l= (n-1) (k-1) c'est-à-1) (2-1)=3 La table de X2 indique pour d.d.l =3 et au taux de sécurité de95%,La 0.05=7.8147… doncX²> X²0.05. Au taux de sécurité de95%, nous ne pouvons donc p accepter H0 que les 4 traitements possèdent la même efficacité.Les différences observées entre les pourcentages de guérison sont -à-dire les 4 traitements sont indépendants. Il semble |
Sweet
En fin nous pouvons dire que le test de khi-deux nous permet d'obtenir des renseignements et des informations concernant les paramètres d'une population inconnue dite population mère sur la base d'un ensemble d'observation statistiques provenant de cette population Ce test est très utilisable dans la biologie (génétique) et dans l'économie….et aussi important par rapport à les différentes type de test d'hypothèse. |
Annexe: Loi multinomiale: 1*Paramètre: n>0:nombre d'épreuves (entier) p1….pn : probabilité des évènements (∑ = 1) Ni ∈{1…m} 2*Support: ∑ 3*Densité: ) = 4*Espérance: Esp=npi 5*Variance: Var=n pi(1-pi) 6*Fonction caractéristique: |
( Sommaire: Introduction: Chapitre 1: Généralités sur les tests i. Les hypothèses ii. Règle de décision iii. Les erreurs et les risques Chapitre 2: la loi du khi-deux i. Loi du khi -deux à un degré de liberté ii. Loi du khi- deux à n degré de liberté iii. Les courbes du khi -deux iv. Théorème fondamentale de test du khi deux Chapitre 3: le test du khi –deux i. Test de conformité *généralité *position du problème ii. Test d'homogénéités *généralité *position du problème Conclusion: Annexe: |
Dédicace
Je dédis ce travail ; le fruit des années d’études à :
♥ Ceux qui ont consacré toute leur vie pour la réussite de leurs fils et leurs filles, et qui ont les bougies allumant mon chemin vers la réussite, pour leur bonté, pour leur générosité et encouragement. Mes chers parents
♥ Ma chère grand-mère
♥ Mes chers frères : Ahmed, Zinelabidine, Abdeljalil, Abdelkader, wail.
♥ Ma chère sœur : Naziha ♥ Mes oncles et mes tantes
♥ Mes cousins et mes cousines
♥ Toutes Mes amies sans exception et spécialement : zahra
♥ Mon promotion 3eme année probabilité et statistique
2010
♥ Tous ceux qui m’ont aidé de prés ou de loin à réaliser ce travail.
Derkaoui Nadjia
Dédicace:
A nos parents
Nos familles
Et nos amis…
Boumediene Ibtissame
Référence:
1. Statistique (cours & exercices)
ADMANE O., HOANG-KY, OUAKLI N.
2. Probabilités et statistique
ALAN RUGG
3. http:
mathsv-univ-lyon
7.pdf 4. http:
df.
5. http: .
6. http: