Introduction a la statistique inductive

Participez au vote ☆☆☆☆☆★★★★★

L'essentiel des concepts et pratiques pour apprendre la statistique inductive

Introduction

On étudie le caractère d’une population. étant donné une variable aléatoire X, on examine un échantillon X₁ … X_n. Lors d’une épreuve, cette échantillon donne les valeurs réelles x₁ … x_n, encore appelé série statistique.

	Observée (variable aléatoire)	De la série statistique (réel)
Moyenne
Variance

Pour les séries statistiques doubles[1], on donne le formulaire suivant.

	Observée (variable aléatoire)	De la série statistique (réel)
Covariance
Corrélation

On remarquera que .

Introduction à la statistique des données

Considérons l’échantillon . Soit les valeurs prises par les .

· Cas de n petit (loi discrète)

On suppose que le nombre de valeurs prises par la série statistique est petit, c’est-à-dire n est petit. On note la fréquence de la valeur , , et .

Théorème : «à moins de ne pas avoir de chance, les sont proches des . »

Diagramme bâton :

· Cas de n grand (loi diffuse)

Dans le cas d’une loi diffuse, on partage l’intervalle des valeurs prises en classe A_i. On exige que chaque classe comporte au moins 3 éléments.

On redéfinit la fréquence de la classe A_i comme , et .

Histogramme :

Les p_i représentent les aires et non pas les hauteurs !

De la même façon, on a que les sont proches des ; ce qui se traduit sur le graphique, pour une classe donnée, par des aires grises proches de l’intégrale de la densité.

Grâce au dessin par histogramme, on peut approcher la densité de la loi X.

· Vocabulaire

- On appelle mode, la valeur ou la classe ayant la fréquence la plus importante.

- La médiane est telle qu’elle partage également en deux le nombre des x_i.

- On nomme étendue la différence entre la plus grande valeur prise et la plus petite.

Régression linéaire[EA1]

Cf. TD…

Estimation ponctuelle

On souhaite estimer une grandeur a inconnue. Le plus souvent, a est le paramètre d’une loi de probabilité. Considérons un échantillon . On cherche un estimateur , tel qu’on espère que soit proche de a.

· Définitions

- Un estimateur est sans biais si .

- Un estimateur est convergent si converge en probabilité vers a lorsque .

- Un estimateur sans biais et convergent est dit correct. est un estimateur correct de l’espérance de X.

- Un estimateur est dit de variance minimum, si pour tout autre estimateur B on a : . Un estimateur de variance minimum est sans biais.

- Un estimateur est exhaustif si la loi de ne dépend pas de a. ? ? ?

- Un estimateur est robuste si il est insensible aux données aberrantes.

· Estimateur au maximum de vraisemblance

On définit la fonction de vraisemblance dans le cas discret, et dans le cas diffus avec densité f. La fonction de vraisemblance caractérise la vraisemblance des données. On va donc chercher qui rend v maximum, c’est-à-dire tel que [2]. On prend, l’estimateur au maximum de vraisemblance.

· Inégalité de Frechet-Cramer-Rav

Soit X une loi de densité avec a le paramètre à estimer. On appelle la borne de Cramer-Rav, le réel.

Soit A un estimateur sans biais, on démontre :

- ;

- .

· Efficacité d’un estimateur

On définit alors le coefficient d’efficacité d’un estimateur : . Le coefficient d’efficacité maximum est 1. On cherche toujours un estimateur qui soit le plus précis possible, tel donc que sa variance soit la plus petite possible. On dit que l’estimateur a une efficacité maximum lorsque ; la borne est atteinte. Par conséquent, on ne peut pas trouver d’estimateur qui soit plus précis !

Estimation par intervalle de confiance

Considérons un échantillon . On cherche un estimateur d’une grandeur a.

Soit a > 0, on cherche un intervalle de confiance autour de l’estimateur qui soit de la forme .

On se donne généralement un seuil e égal à 0,05 ou 0,01, ce qui garantit un niveau de confiance de 95% ou 99% dans l’intervalle.

L’estimation par intervalle de confiance est telle que (niveau de confiance) ou encore (seuil).

Plus le seuil est petit, plus le niveau de confiance exigé est élevé, et plus l’intervalle de confiance va être large.

L'essentiel des concepts et pratiques pour apprendre la statistique inductive

Quelques lois de probabilités utiles en statistique

Loi du chi-deux

Soient indépendants, qui suivent . suit la loi du , à n degrés de liberté.

Estimateur de variance d’une loi normale, et intervalle de confiance

Soient X qui suit , et un échantillon .

· Cas où m est connue

On a l'estimateur de la variance, sans biais car . Alors suit la loi du , à n degrés de liberté.

Déterminons l'intervalle de confiance pour s ,au seuil e. Seule la partie droite de l'intervalle de confiance est significative (pas de valeur absolue). On cherche r tel que ou , ce qui donne . La table du à n degrés de liberté nous donne . On déduit r.

· Cas où m est inconnue

On remplace m par son estimateur . Par conséquent, on a l'estimateur de la variance, sans biais. Notons bien que si l'on prenait plutôt que dans l'expression de cet estimateur, on introduirait un biais. Ce point est sans importance dès que n devient grand. Alors suit la loi du , à n - 1 degrés de liberté.

Déterminons l'intervalle de confiance pour s ,au seuil e. On cherche r tel que , ce qui donne . La table du à n - 1 degrés de liberté nous donne . On déduit r.

Loi de Student

· Définition

Soient indépendants, un échantillon de . Alors suit la loi de Stundent à n degrés de liberté.

Les tables de Student donne . Ces tables ne sont établies que pour , après on considère que St suit à peu près . En effet, la loi des grands nombres montre que St converge en probabilité vers la loi normale réduite.

· Application de cette loi

Soient indépendants, un échantillon de . Alors suit Student à n - 1 degrés de liberté.

Intervalle de confiance pour l'espérance m d’une loi normale

Déterminons l'intervalle de confiance pour m ,au seuil e.

· Cas où s est connu

On cherche a tel que ou . suit . On se ramène à la loi normale réduite : et on déduit .

· Cas où s est inconnu

Comme s est inconnue, on ne peut pas se ramener à la loi normale réduite. On va donc utiliser l’estimateur de l’écart-type et la loi de Student : c’est-à-dire, on cherche a tel que , avec qui suit Student à n - 1 degrés de liberté.

· Propriété importante, cas où s est inconnu, grand échantillon

Dans le cas d’un grand échantillon , on a qui suit la loi normale réduite. C’est encore vrai si est un échantillon quelconque (pas forcément une loi normale) ! Ce théorème est une conséquence de la loi des grands nombres, et du théorème central limite.

Loi de Snedecor

Considérons deux échantillons indépendants, qui suivent la loi normale réduite. Par définition, on a qui suit la loi de Snedecor à degrés de liberté.

Tests d’hypothèses

Généralités

On cherche à tester une hypothèse.

Le bon choix de l'hypothèse : Considérons le problème classique du critère de qualité : par exemple, le vendeur vient de recevoir un lot de 1000 pièces et il souhaite qu'il y ait moins de 50 pièces défectueuses dans le lot. L'hypothèse H à tester est celle dont on a confiance dans le rejet, c'est-à-dire "Il y a plus de 50 pièces défectueuses dans le lot". Il ne faut pas confondre avec l'hypothèse contraire qui représente ce en quoi on a confiance dans l'acceptation. Soit q un paramètre de la loi de X sur lequel doit portee le test. Par exemple, X suit et . On distingue deux sortes d’hypothèses : les hypothèses composées ("") et les hypothèses simples ("").

La condition de rejet de l'hypothèse : On définit alors une condition ou région de rejet de l'hypothèse H. Par exemple pour "", et pour "".

Condition de seuil : On cherche à déterminer a tel que (risque de 1^ère espèce) avec e un seuil donné. On exprime que la probabilité que l'on se trouve dans la région de rejet de H, sachant que H est vraie, est inférieure au seuil e. En effet, le seuil représente le niveau de confiance que l'on souhaite avoir dans le rejet, qui est en général de 0.05, 0.01 ou 0.1. Plus e est petit, et plus le niveau de confiance exigé pour l'acceptation de est élevé.

Principe de la puissance maximum : On obtient en résultat une inégalité sur a, le plus souvent . On applique le principe de la puissance maximum, qui cherche à grandir au maximum la région de rejet. Ce qui impose .

Interprétation du résultat : Il faut envisager deux cas. Ainsi, si on a effectivement alors on peut rejeter l'hypothèse H avec un niveau de confiance de 90%, 95% ou 99% , ce qui revient à accepter . En revanche, si n'est pas vérifié, alors il n'y a pas de rejet.

· Test de Bayes

On affecte au risque de 1^ère espèce un coût C₁ et au risque de 2^nde espèce un coût C₂. On définit le coût moyen d'erreur par . On cherche le minimum de C.

Comparaison de deux moyennes

Considérons deux échantillons indépendants.

· Grands échantillons (taille ³ 30)

On ne suppose rien sur X et Y. On pose et . suit à peu près la loi normale réduite.

On veut tester l'hypothèse H :" ". On prend la condition de rejet . Seulement d'un point de vue strictement calculatoire, il serait plus habile de prendre . On cherche à déterminer a pour un seuil e donné. On écrit , c'est-à-dire avec T qui suit . On en déduit . Le principe de la puissance maximale impose .

· Petits échantillons

On suppose en plus que X et Y suivent des lois normales de même écart-type. On définit . U suit la loi de Student à degrés de liberté.

On veut tester l'hypothèse H :" ". Comme précédemment, on cherche à se ramener au théorème ; donc, on prend la condition de rejet . On cherche à déterminer a pour un seuil e donné. On écrit , c'est-à-dire avec U qui suitla loi de Student à degrés de liberté. En application du principe de la puissance maximale, on déduit .

Test des longueurs (comparaison de deux lois)

Considérons deux échantillons indépendants. On veut tester l'hypothèse H :" X et Y suivent la même loi". On classe par ordre croissant (ou décroissant) les x et les y en les regroupant :. On appelle L le nombre des longueurs. Ici, . Si L est petit, cela signifie que les X et les Y ne se mélange pas bien ; par conséquent, il ne s'agira pas de la même loi. On traduit l'hypothèse H dans cette même idée, en disant que tous les ordres possibles sont équiprobables. La condition de rejet est . On cherche à déterminer l tel que .

· Petits échantillons

Supposons . On s'intéresse au X, les résultats sont symétriques pour Y. Soit s le nombre de longueurs relatif au X. On a :

- pour

· Grands échantillons ()

L suit avec et .

Test du rang (comparaison de deux lois)

Considérons deux échantillons indépendants. On veut tester l'hypothèse H :" X et Y suivent la même loi". On classe par ordre croissant (ou décroissant) les x et les y :. Soit T la somme des rangs de X. Ici, .

· Définition du test

Y est stochastiquement supérieure à X, noté si et seulement si . On teste l'hypothèse H : "X et Y suivent la même loi" contre K : "Y est stochastiquement supérieur à X". La condition de rejet de H est . On cherche à déterminer t tel que .

· Théorème

Si H est vraie, si n et m sont "grands", alors T suit à peu près avec et .

Test du À²

Considérons un échantillon. à partir de l'histogramme, on imagine la loi P de X. On teste l'hypothèse H : "X suit la loi P". Ce test va permettre de vérifier si un échantillon est conforme à une loi. On effectue un partage de la droite réelle en q classes. Chaque classe doit comporter un nombre suffisant de x_i.
On rappelle :

- la fréquence de la classe des A_j :

- la fréquence théorique de la classe des A_j : calculé avec la loi P

· Règle heuristique pour le partage en classe

Le nombre de classes doit être supérieure à 4 fois le nombre de paramètre de la loi. Par exemple pour la loi normale, il faudra au moins 8 classes.
Le nombre d'éléments attendus pour la classe doit être telle que , sauf éventuellement pour deux classes où il doit être > 1.

· Théorème

Si H est vraie, converge en loi vers la loi du À² à q – 1 degrés de liberté.

· Condition de rejet

La condition de rejet de H est . Si , la fréquence des est trop différente des fréquences théoriques pour que X suivent la loi P. Si , l'échantillon est trop bon, et il a certainement été truqué !

Analyse de la variance

Test de comparaison de S moyennes (S ³ 3)

suivent des lois normales avec même écart-type : pour . On souhaite tester l'hypothèse H : "". Pour chaque X_i, on dispose d'un échantillon X_i,javec . Soit n la somme des n_i. On suppose tous les X_i,j indépendants.

L'essentiel des concepts et pratiques pour apprendre la statistique inductive

On définit :

- , l'estimateur de X_i ;

- , la moyenne estimée globale ;

- , l'estimateur de variance de X_i ;

- , l'estimateur de (si H vraie).

· Théorème

Si H est vraie, suit Snedecor à degrés de liberté. La condition de rejet de H est . Donc on cherche w tel que .

Test de l’interaction et de l’influence de deux facteurs A et B sur un caractère X

· Préliminaires

Soit X un caractère sur lequel peuvent agir deux facteurs A et B. A peut prendre des états A₁… A_p, B peut prendre des états B₁… B_q. Lorsque et , le caractère obtenu est . représente l'influence de la cause , représente l'influence de la cause , représente l'influence de l'interaction entre les deux causes. On suppose que suit , avec s² fixé.

Considérons l'équation pour et . La somme des est nulle, de même que la somme des . La somme des est nulle par rapport à i et par rapport à j. On a , , .

On définit les hypothèses suivantes :

- H_I : "Il n'y a pas d'interaction.", c'est-à-dire .

- H_A : "Le facteur A n'a pas d'influence.", c'est-à-dire .

- H_B : "Le facteur B n'a pas d'influence.", c'est-à-dire .

· Cas où il n'y a pas d'interaction

On se place dans le cas où il n'y a pas d'interaction entre les facteurs A et B :. Cf. Notations… est un estimateur sans biais de , et il suit la loi du À² à degrés de liberté. Par conséquent, on peut effectuer une estimation par intervalle de confiance de .

Test de H_A: Si H_A est vraie, alors suit la loi de Snedecor à degrés de liberté. La condition de rejet est . On cherche w_A tel que .

· Cas plus général (avec échantillons)

Télécharger