Le test du khi-deux document de cours detaille et bien explique

Participez au vote ☆☆☆☆☆★★★★★

plusieurs population.

En fonction de d'hypothèses testés plusieurs types de testes peuvent être réalisés:

*Les tests destinés à vérifier si un échantillon peut être considère comme extrait d'une population donnée ,vis-à-vis d'un paramètre comme la moyenne ou la fréquence observée (test de conformité) ou par rapport à sa distribution observée (test d' ajustement).

*Les tests destinés à comparer plusieurs populations à l'aide d'un équivalent d'échantillon (test d'homogénéité)…etc. Mais pour faire ces tests, il faut utilise un parmi plusieurs des type comme le test

, le test de,et le test de.

Dans ce travail nous avons étudie le test khi-deux qui l'un des principaux tests appliqués pour le prise de décision les tests d'hypothèses.

Dans le chapitre I, nous définissions les tests d'hypothèses dans le cas généralepour pouvoir permettre une décision en évaluant les risques .

Dans le chapitre II, on s'intéresse à la loi du khi-deux : on définie n variables aléatoires qui suit la loi normale centrée réduite,

On pose: = ∑ alors suit la loi de khi-deux à n degré

de liberté puis faisons la preuve du théorème fondamentale du test du khi-deux .

échantillons aléatoires , la validité d'hypothèses relatives à une ou

Le chapitre III, est étudie d'une part de la conformité des paramètres d'un échantillonà l' aide du test de khi-deux .Et toute la théorie sera illustrée par un exemple sur la génétique .

D'autre part, on va s'intéresse à l'homogénéité de deux échantillons par le biais du test khi-deux et de la même manière nous explicitions le concept par un exemple, ce qui achèverale travail.

Sweet

1-Les hypothèses:

Les statistiques développent des techniques et des méthodes qui permettent d’analyser les donnée issues des l’observation, afin de cerner les caractéristiques de la population concernée et d’identifier un modèle capable d’engendrer ces données.

Dans ce cadre, on est amené à faire des hypothèses, c'est-à-dire à émettre des assertions concernant ces caractéristiques de la population on ce modèle.

Le plus souvent, la situation se résume en une alternative constituée de deux hypothèses qui s’excluent mutuellement et qui sont appelées respectivement l’hypothèse nulle, ou fondamentale, et l’hypothèse alternative, ou contraire.

En général, les hypothèses ne jouent pas des rôles symétriques, et on choisit pour hypothèse nulle l’hypothèse à laquelle on croit ou on tient, ou encore celle qui permet de faire des calcules, ou encore celle dont le rejet est lourd de conséquences.

2-Règle de décision :

Un test d’hypothèses est une règle de décision qui

permet, sur la base des données observées et avec des risques d'erreur déterminés ,d’accepte ou de refuser une hypothèse statistique. Elle est définie sous l’hypothèse « est vraie » et pour un seuil de signification α fixé.

valeur seuil(S _seuil) c’est-à-dire : alors l’hypothèse est rejetée au risque d’erreur α et l’hypothèse est acceptée. -si la valeur de statistique S calculée ( ) est inférieure à la valeur seuil ( ) c’est-à-dire : alors l’hypothèse ne peut être rejetée. 3-les erreurs et les risques : La règle de décision d’un test étant basé sur l’observation d’un échantillon, on n’est jamais sur de l’exactitude de la conclusion : il y a donc toujours un risque d’erreur. L’erreur de première espèce consiste à rejeter à tort : le risque d’erreur de première espèce est noté , c’est le risque d’erreur que l’on prend en rejetant alors qu’elle est vraie. On l’appelle aussi le niveau du test. L’erreur de deuxième espèce consiste à rejeter à tort : le risque d’erreur de deuxième espèce est noté , c’est le risque d’erreur que l’on prend en rejetant alors qu’elle est vraie. Les risques lies aux tests d’hypothèses peuvent se résumer ainsi :
	SITUATION VRAIE
		H₀ est vraie		H₁ est vraie
		La Décision est	Probabilité de prendre cette décision avant expérience	La Décision est	Probabilité de prendre cette décision avant expérience

-si la valeur de la statistique S calculée () est supérieure à la

β)

Conclusion

test

Accepter

H₀

bonne

1-α

fausse

β(risque de deuxième espèce)

Rejeter H0

fausse

α(risque de première espèce)

bonne

1-β

Remarque:

La probabilité complémentaire du risque de deuxième espèce (1 définit la puissance du test à l’égard de la valeur du paramètre

dans l’hypothèse alternative .

La puissance du test représente la probabilité de rejeter l’hypothèse nulle lorsque l’hypothèse vraie est plus est petit, plus le test est puissant.

Sweet

= 3 )

Donc: ) = 3 ) = 2.

II. Loi du khi deux à n degré de liberté:

1. Définition:

T₁, T₂,…, T_nDésignant n variables aléatoires indépendantesqui suivent toutes la loi normale centrée réduite, soitXla variable aléatoire définie par: = ∑ ,On dit que la variable aléatoire

Xsuit la loi du khi-deux àndegrés de liberté

2. Densité de probabilité:

D'après la densité de la loi de khi-deux à n degré de liberté ;

On a .En remarque que: g(x) la densité d'une

variable aléatoiresuitla loi Gamma( , )alors la densité de variable aléatoire X suit la loi de Gamma( , ) est:

alors, cette densité est le même que la

densité d'une variable X suit la loi de khi-deux à n degré de liberté.

3. Espérance et variance mathématique:

Graphe n 01

Remarque:

Si la variable aléatoire X suit une loi du khi-deux à n degrés de liberté, la table donne, pour un risque choisi, le nombre tel que:

IV. Théorème fondamentale de test du khi-

deux :

Théorème 1:

Si X₁, X₂,…, X_n sont des variables aléatoires normales indépendantes, la variable aléatoire S=X₁²+X₂²+…+X_n² suit une loi khi-deux à n degrés de liberté.

Théorème 2:

Sous l'hypothèse H₀, (X₁, X₂,…, X_n) est un échantillon d'une loi

entièrement spécifié alors la statistique : à

pour loi asymptotique la loi .

Preuve:

A/ Montrons tout d'abord que les variables aléatoires N₁, N₂,…, N_k obéissent à la loi multinomiale à s'avoir :

)

Soient X la variable aléatoire étudiée (X₁,X₂,…,X_n) un n échantillon de X ,et la mesure de probabilité de X lorsque H₀ est vraie.

On partage l'ensemble des valeurs X (Ω) en k classes (Cj)

Avec 1≤

Si X est une variable aléatoire discret, les C_j sont en générale des points.

Si X est une variable aléatoire continue, les C_j sont en générale des intervalles ou des produits des intervalles.

Pour tout indice j de 1 à k, on note P_j la probabilité théorique de la classe C_j donnée la loi de avec P_j=P(X∈C_j).

On note N_j le nombre de variable X_j prenant leur valeur dans C_j ; si H₀ est vraie.

On suppose que :

1 si X_j ∈ C_j

O sinon

Alors l étant fixé

, la fonction caractéristique de (Y_1l,Y_2l,…,Y_kl) est :

Si Y_jl =1 i.e X_l ∈C_j .donc tous les autres Y_ml sont nuls est cet événement a pour probabilité P_j et pour conséquent la fonction caractéristique pour l fixé est :∑ exp ( )

Les Y_jl pour les valeurs différentes de l sont indépendants d’où la fonction caractéristique de l'ensemble de Y_jl es :

∏ )) donc, la fonction caractéristique de ( , … , ) est:

= ∏

= (∑

Sweet

Test de conformité

*Exemple:

On a croisé deux races de plantes différant par deux caractère A et B .

La première génération est homogène .la seconde génération fait apparaitre 4 types de plantes; dont les phénotypes est noté : AB, Ab, aB, ab.

Si les caractères se transmettent selon les lois de « Mendel », la proposition théorique: des 4 phénotypes sont 9/16,3/16,3/16 et 1/16.

Dans une expérience un échantillon de 160 plantes a donné:

AB/100, Ab/18, aB/24, ab/18.

Cette répartition est –elle conforme aux lois de « Mendel » au seuil de signification de 5℅?

* La réponse:

On pose l’hypothèse nulle.

H₀: »la répartition observée est conforme aux loi de Mendel » Pour calculer le khi-deux on établit le tableau suivant:


Phénotype	AB	Ab	aB	ab	totale
Proposition théorique	9/16	3/16	3/16	1/16	1
Effectif calculé(C_i)	90	30	30	10	160
Effectif observé(O_i)	100	18	24	18	160

2-Position du problème:

On obtient :

=12.51

Tq:

=les effectifs observés.

=les effectifs calculent.

Ici le nombre de degré de liberté=n-1=4-1=3.

Sur la table de khi-deux : on lit =7.815 avec α=0.05=le risque d’erreur. D’où , l’hypothèse de conformité doit être rejetée au seuil de signification de 5℅.

1 ij1 ij2

deux j₁et j₂différents choisis parmi 1,2,…,k.

Soitencore : les propositions d'individusprésentantchaquemodalité du caractèrenesontpasidentiquespourles populationspour au moins une modalitéducaractère .

*Deuxième étape:

Sous l'hypothèse d'homogénéité deux populations, on doit comparer les effectifs observés aux effectifs théoriques.

Pour calculer les effectifs théoriques, il nous faut déterminerla proposition d'individus associées à la modalité i et que l'on suppose identique dans les k populations.

On obtiendra une estimation de cette proportion en utilisant l'ensemble des données collectées ;on choisit donc:

, on déduire les effectifs théoriques de chaque classe

grâce à la relation .Pour comparer les écarts entre ce qu'on observe et ce qui se passe sous l'hypothèse H₀, on considère la somme des écarts réduits de chaque classe ,à savoir la quantité :

= ∑ Cette variablealéatoire suit une loi de khi-deux mais quel est donc nombre de degrés de liberté ?

Calcule du nombre de degrés de liberté du khi-deux:

A priori, on a k r cases dans notre tableau donc (k r) degrés de liberté.

H:P≠Ppour aumoinsuniparmi 1,2,…,retpourau moins

que le nombre de relations entre les différents élément des cases. On a estimé probabilité théorique à l'aide des valeurs du tableau (P₁, P₂,…, P_r) mais seulement (r-1) sont indépendantes puisqu'on impose la restriction:∑ = 1.Par ces estimations, on a donc supprimé (r-1) degrés de libertés.

Les effectifs de chaque colonne sont toujours liés par les relations:

∑ = et ces relations sontau nombre de k.

Finalement, le nombre de degrés de libertés du khi-deux est:

n=kr-(r-1)=(k-1)(r-1)

*Troisième étape:

On impose à la zone d'acceptation de H₀concernant valeur du khideux d'être un intervalle dont est la borne inferieure.

Il nous faut donc déterminer dans la table, la valeur maximale , de l'écart entre les deux distributions imputable aux variations d'échantillonnage au seuil de signification, c'est–à-dire vérifiant :

*Quatrième étape:

On calcule la valeur prise par dans l'échantillon

-si la valeurse trouve dans la zone de rejet, on dira que l'écart observé entre les k distributions est statistiquement significatif au écart est anormalement élèvé et ne permet pas d'accepter

H₀

-si la valeurse trouve dans la zone d'acceptation, on dira que l'écart est imputable aux fluctuations d'échantillonnage.

3. position de problème :

Maisil faut retirer à cette valeur ,le nombre de paramètres estimés ainsi

Un maladie est traité dans quatre hôpitaux différent .On a fait les observations suivantes:

	Cas de guérison	Cas de non guérison	Nombre total des maladies traites	Pourcentage de guérison
Hôpital 1	123	28	151	81.4
Hôpital 2	95	19	114	83.3
Hôpital 3	152	63	2151	70.6
Hôpital 4	132	53	185	71.3
Effectif total	502	163	665	75.6

Peut–onconsidérer que l’efficacité des 4 traitements est sensiblement la même?Autrement dit–peut-on attribuer au seuil hasard,Les divergences observées entre les pourcentages de guérison au taux de sécurité de 95℅?

*Exemple:

On pose l’hypothèse nulle H₀:«l’efficacité des 4 traitements est la même

».

Dans ce cas, on prend pour estimation du pourcentage théorique de guérison, lepourcentageglobal correspondant a l’ensembledes maladies traités:

= = 0.756

Les effectifs théoriques des différentes classes au moyen de cette valeur P₀dans le tableau suivant:

	Cas de guérison	Cas de non guérison	Nombre total Des maladies traitées	Pourcentage de guérison
Hôpital 1	114	37	151	75.6
Hôpital 2	86	28	114	75.6
Hôpital 3	162	53	215	75.6
Hôpital 4	140	45	185	75.6

*La réponse:

Par exemple :

151×0.756=114.

Nous avons :

X² =11.11

dire d.d.l= (4

valeur X² Nous avons l'hypothèse

significatives c’est

Effectif totale

502

163

665

75.6

L'effectif théorique des cas de guérison pour l'hôpital 1 est:

L'effectif théorique des cas de non–guérison est:151-114=37

Le nombre de degré de libertéd.d.l= (n-1) (k-1) c'est-à-1) (2-1)=3

La table de X2 indique pour d.d.l =3 et au taux de sécurité de95%,La

0.05=7.8147… doncX²> X²_0.05.

Au taux de sécurité de95%, nous ne pouvons donc p accepter

H₀ que les 4 traitements possèdent la même efficacité.Les

différences observées entre les pourcentages de guérison sont

-à-dire les 4 traitements sont indépendants. Il semble

Sweet

En fin nous pouvons dire que le test de khi-deux

nous permet d'obtenir des renseignements et des informations concernant les paramètres d'une population inconnue dite population mère sur la base d'un ensemble d'observation statistiques provenant de cette population

Ce test est très utilisable dans la biologie (génétique) et dans l'économie….et aussi important par rapport à les différentes type de test d'hypothèse.

Annexe:

Loi multinomiale:

1*Paramètre:

n>0:nombre d'épreuves (entier) p₁….p_n : probabilité des évènements (∑ = 1)

N_i ∈{1…m}

2*Support:

∑

3*Densité:

) =

4*Espérance:

Esp=npi

5*Variance:

Var=n p_i(1-p_i)

6*Fonction caractéristique:

(

Sommaire:

Introduction:

Chapitre 1: Généralités sur les tests

i. Les hypothèses

ii. Règle de décision

iii. Les erreurs et les risques

Chapitre 2: la loi du khi-deux

i. Loi du khi -deux à un degré de liberté

ii. Loi du khi- deux à n degré de liberté

iii. Les courbes du khi -deux

iv. Théorème fondamentale de test du khi deux

Chapitre 3: le test du khi –deux

i. Test de conformité

*généralité

*position du problème ii. Test d'homogénéités

*généralité

*position du problème Conclusion:

Annexe:

Dédicace

Je dédis ce travail ; le fruit des années d’études à :

♥ Ceux qui ont consacré toute leur vie pour la réussite de leurs fils et leurs filles, et qui ont les bougies allumant mon chemin vers la réussite, pour leur bonté, pour leur générosité et encouragement. Mes chers parents

♥ Ma chère grand-mère

♥ Mes chers frères : Ahmed, Zinelabidine, Abdeljalil, Abdelkader, wail.

♥ Ma chère sœur : Naziha ♥ Mes oncles et mes tantes

♥ Mes cousins et mes cousines

♥ Toutes Mes amies sans exception et spécialement : zahra

♥ Mon promotion 3^eme année probabilité et statistique

2010

♥ Tous ceux qui m’ont aidé de prés ou de loin à réaliser ce travail.

Derkaoui Nadjia

Dédicace:

A nos parents

Nos familles

Et nos amis…

Boumediene Ibtissame

Référence:

1. Statistique (cours & exercices)

ADMANE O., HOANG-KY, OUAKLI N.

2. Probabilités et statistique

ALAN RUGG

3. http:

mathsv-univ-lyon

7.pdf 4. http:

df.

5. http: .

6. http:

Télécharger Documents similaires à télécharger