Problème à signaler:


Télécharger Cours d’introduction a la statistique echantillonnage



★★★★★★★★★★3.5 étoiles sur 5 basé sur 1 votes.
Votez ce document:

Télécharger aussi :

Cours d’introduction a la statistique echantillonnage




Cours d’introduction à la statistique échantillonnage

Échantillonnage

A- Statistique inférentielle et échantillon B- Théorie de l’échantillonnage

C- Distributions d’échantillonnage

D- Simulation d’échantillons

A- Statistique inférentielle et échantillon

A- 1 Introduction

Etude Statistique = étude des caractéristiques (variables statistiques) d’un ensemble d'objets (population, composée d'individus) .

Recensement : les valeurs des variables sont disponibles sur l'ensemble de la population ⇒ statistique descriptive (pas besoin de stat inférentielle)

Ex : Recensement de la population française, notes obtenues par tous les candidats à un examen, salaires de tous les employés d'une entreprise, …

Pbme : coûteux, long, impossible (population infinie), mesures destructrices (ex : tests en vieillissement accélérés)

Sondage :

On n'étudie qu'une partie de la population : un échantillon. Les méthodes permettant de réaliser un échantillon de bonne qualité (sui ressemble à la population dont il est issu) sont étudiées en théorie de l’échantillonnage.

On cherche alors à extrapoler à la population entière les propriétés mises en évidence sur l'échantillon ⇒ statistique inférentielle

A-2 Les hypothèses de la statistique inférentielle

La population est considérée comme infinie (très grande ) les variables statistiques qui la décrivent peuvent être considérées comme des v.a.

La valeur prise par la variable statistique X pour un individu donné de la population ne peut pas être déterminée a priori et dépend d’un grand nombre de paramètres : On peut considérer sa valeur comme fonction du résultat d’une expérience aléatoire.

A-2 Les hypothèses de la statistique inférentielle

Ex : répartition des salaires des salariés dans la population francaise : série (x1,…xn), vue comme n réalisations de la variable aléatoire X=salaire


A-2 Les hypothèses de la statistique inférentielle

La répartition des valeurs de ces variables sont caractérisées par des lois de probabilités

La répartition d’une variable statistique X sur la population est décrite par une loi de probabilité,

caractérisée par une densité de probabilité (X continue )ou une séquence de fréquences relatives à chacune de ses valeurs (X discrète) possédant des caractéristiques (E(X), V(X), autres paramètres résumant la distribution.)

Ex: si l’on suppose que les salaires sont soumis à un grand nombre de petites fluctuations d’origines diverses, X suit une loi normale tronquée à zero.

répartition des salaires
A-2 Les hypothèses de la statistique inférentielle

Les variations simultanées de deux ou plusieurs variables statistiques sont décrites par une loi jointe caractérisée par une densité jointe (variables continues) ou une séquence des fréquences jointes (variables discrètes).

Ex : les variations simultanées du salaire et de l’age des salariés pourront être décrites par une fonction de densité jointe f(x,z).

possédant différentes caractéristiques, par exemple un vecteur espérance, une matrice de variance covariance , un coefficient de corrélation linéaire.

A-2 Les hypothèses de la statistique inférentielle

Ces lois de probabilités sont généralement

Totalement Inconnues : nous ne connaissons rien de la loi - problème de statistique inférentielle non-paramétrique

Partiellement inconnues : nous connaissons la famille à laquelle appartient la loi (sa forme) mais pas ses ou un certain nombre de ses paramètres (Ex : X obéit à une loi normale, mais on ne connaît ni son espérance ni sa variance – problème de statistique inférentielle paramétrique.

A-3 Les objectifs de la statistique inférentielle

L’objectif de la statistique inférentielle est d’identifier ces lois, au vu d’un échantillon de valeurs des variables obtenu par sondage dans la population, grâce à différent types de méthodes :

Méthodes d’estimation : permettent d’approcher les lois ou certaines de leurs caractéristiques (ex : approcher , à partir de l’échantillon l’espérance E(Y) de la variable Y=salaire,….)



Méthodes de tests d’hypothèses : permettent de confirmer ou d’infirmer des hypothèses faites sur ces lois (ex : décider si, au vu de l’échantillon, l’affirmation « E(Y)=1500 euros » est plausible.)

Méthodes de modélisation et prévision : permettent d’expliquer et de prévoir la loi d’une variable a partir de s valeurs prises par d’autres (ex: au vu de l’échantillon, les variations de salaires sont expliquées presque exclusivement par l’age X des salariées : Y=f(X)+e) .

La pertinence de ces méthodes repose en premier lieu sur la qualité du sondage effectué  théorie de l’échantillonnage.

B- Théorie de l’échantillonnage

B-1 Introduction

  Théorie de l’échantillonnage = Etude des liaisons existant entre une population et les échantillons de cette population, prélevés par sondage.

Méthodes d’échantillonnage : ensemble des méthodes permettant de réaliser un sondage (de prélever un échantillon de données) au sein d’une population, de manière à reproduire un échantillon aussi représentatif que possible de cette population.

Evaluation de ces méthodes : le système d'échantillonnage sera jugé d'après la qualité des approximations des paramètres de la population, calculées sur l’échantillon prélevé . Pour cela, on étudiera la loi des caractéristiques classiques d’un échantillon (moyenne arithmétique , variance empirique,…)

B-2 Les méthodes d’échantillonnage

Les méthodes empiriques : les plus utilisées par les instituts de sondage. Leur précision ne peut pas être calculée et leur réussite dépend de l’expertise des enquêteurs.

  • Echantillonnage sur la base du jugement : Echantillon prélevé à partir d’avis d’experts, qui connaissent bien la population et sont capable de dire quelles sont les entités représentatives. Pbme: l’avis des experts est subjectif.
  • Echantillonnage par la méthode des quotas : Echantillon prélevé librement à condition de respecter une composition donnée à l’avance (sexe, âge, CSP,…).

Pbme : repose sur la pertinence des catégories retenues.

B-2 Les méthodes d’échantillonnage

Les méthodes aléatoires : Reposent sur le tirage au hasard d’échantillons et sur le calcul des probabilités.

  • Echantillonnagealéatoire simple : On prélève dans la population, des individus au hasard, sans remise : tous les individus ont la même probabilité d’être prélevés, et ils le sont indépendamment les uns des autres.
  • Echantillonnage aléatoire stratifié : Suppose que la population soit stratifiée, i.e. constituée de sous-populations homogènes, les strates. (ex : stratification par tranche d’age). Dans chaque strate, on fait un échantillonnage aléatoire simple, de taille proportionnelle à la taille de strate dans la population (échantillon représentatif). Les individus de la population n’ont pas tous la même probabilité d’être tirés. Nécessite une homogénéité des strates. Augmente la précision des estimations.
  • Echantillonnage par grappe : on tire au hasard des grappes ou familles d’individus, et on examine tous les individus de la grappe (ex: on tire des immeubles puis on interroge tous les habitants). La méthode est d’autant meilleure que les grappes se ressemblent et que les individus d’une même grappe sont différents, contrairement aux strates.

B-2 Les méthodes d’échantillonnage

Dans toute la suite du cours, on se place dans le cadre d’un échantillonnage aléatoire simple, sauf mention contraire.

B-3 Notion d’échantillon aléatoire

Quelle que soit la technique d’échantillonnage utilisée, le contenu du jeu de données


Sondage de 100 salariés

Population des salariés de France X=salaire prélevé varie d’un sondage à l’autre

On pourrait répéter le sondage un grand nombre de fois, on obtiendrait la plupart du temps une répartition différente des valeurs prélevées.

Le résultat d’un sondage est aléatoire


1° sondage :

x1 ,.... x100 )



= 2050.7        sx = 2959.1

B-3 Notion d’échantillon aléatoire

Deux façons différentes de modéliser cet aléa

1° Modélisation :

L’échantillon prélevé consiste en n réalisations X(ω1) , …, X(ω) de la v.a. X.

Sondage aléatoire simple de 100 salariés Population des salariés de France  X=salaire 100 réalisations de X

1° sondage :                      2° sondage :

x ,.... x      )                           ( x ' ,....x '          )

1                100                                          1                    100

= ( X ( w ), .... X ( w     ))       = ( X ( w '  ), ....X (w '         )

1                      100                                  1                          100

B-3 Notion d’échantillon aléatoire

2° Modélisation : On associe au premier individu tiré une variable aléatoire X1de même loi que X

Elle vaut,

, x ' ,''

selon le

11

1

sondage. On fait de même pour les n-

1 autres individus.

L’objet ( X1,..., X n )

, où Xi est la valeur

de X pour le i° individu tiré, est un

vecteur de v.a. i.i.d. de même loi que X. Un tirage correspond à une seule

réalisation

de celui-ci.: ( x1, ..., xn ) = ( X1(w ),..., X n(w))

X 1,..., X n )

est appelé l’échantillon aléatoire.

  • Sondage aléatoire simple de 100 salariés

Population des salariés de France

X=salaire

1° sondage :                               2° sondage :

X1(w) X2(w) X100(w) X1(w’) X2(w’)X100(w’)

x1

x2

x100

x’1



x’2

x’100


B-4 Etude des statistiques classiques

Objectif : étudier la loi des statistiques classiques de l’échantillon aléatoire (les distributions d’échantillonnage), en fonction de la distribution de la variable parente, lorsque la taille de l’échantillon augmente.

Définition d’une statistique = variable aléatoire, définie comme une fonction de l’échantillon aléatoire

= f ( X 1, ..., X n )

Lorsque( X1 ,..., X n ) = (x1,..., xn )la réalisation de S vaut s = f ( s1, ..., sn )

Exemples de statistiques : Moyenne empirique de l’échantillon, variance empirique, covariance empirique, fonction de répartition,…..

B-4 Etude des statistiques classiques

Rq: En statistique inférentielle, les indicateurs usuels de la statistique descriptive deviennent des statistiques de l’échantillon aléatoire

C- Distributions d’échantillonnage

C-1 Notations

On s’intéresse à la caractéristique X d’une population (X=v.a.). On pose E ( X ) = mV ( X ) = s ²

On note ( X ,..., X  )   l’échantillon aléatoire associé à un sondage 1    n aléatoire simple de n individus de cette population et (x1,..., xn ) une réalisation de celui ci (1 sondage particulier)

Empirique veut dire « de l’échantillon » 

C-1 Moyenne empirique

Loi et moments :

 Loi inconnue en général

 ) E ( X n ) = m ,           ii ) V ( X n ) =n

Propriétés asymptotiques :

 X n  « approche» m : c’est un estimateur de m. Il est :

 -   sans biais (i))

-   asymptotiquement efficace (ii))

-   fortement convergent (iii))

-   la loi de l’erreur d’approximation est approximativement gaussienne lorsque n est grand (iv).

Loi des grands nombres distribution de la moyenne

C-1 Moyenne empirique

Interprétation statistique :

i) et ii) » si l’on prélève un grand nombre k d’échantillons de taille n, et que l’on calcule leur moyenne, la moyenne des k valeurs moyennes ainsi obtenues vaut à peu près m,

TCL : histogramme de la série normalisée des moyennes de 10000 échantillons de taille 50, 500, 1000, 5000 de E(1) et la variance de ces k valeurs est d’autant plus faible que n est grand.

iii) » lorsque la taille de l’échantillon prélevé est très grande, les k moyennes valent presque toutes m.

iv) » si l’on prélève un grand nombre k d’échantillons de grande taille n et que l’on calcule leurs moyennes renormalisées, l’histogramme des k valeurs est proche de la densité de la loi normale centrée réduite.

C-1 Moyenne empirique

Application : loi d’un pourcentage

On tire dans une urne de Bernouilli composée d’une proportion p de boules rouges n boules avec remise. On note X le nombre aléatoire de boules rouges Q la fréquence empirique :

= X = 1 n X i , X i  B ( p) n n i=1

=    = p (1 - p) ()      ;     (Q)




C-2 Variance empirique

Définitions :

Loi et Moments : La loi est généralement inconnue.

C-2 Variance empirique


C-3 Moyenne et la variance empirique : Cas gaussien

Si X suit une loi N(m, s). Alors :

RQ : une combinaison linéaire de v.a. gaussiennes indépendantes est gaussienne.

C-4 Fonction de répartition empirique

Définition :

Pour chaque valeur x ÎRFn (x) est une variable aléatoire

Pour une réalisation (x1,..., xn ) donnée de l’échantillon aléatoire, c’est une fonction en escalier à valeurs dans [0,1], croissante, continue à droite dans [0,1], de sauts égaux à 1/n.


(n-1)/n

2/n

1/n

x1               x2 x3              xn-1 xn

C-4 Fonction de répartition empirique

Loi et moments à x fixé

inFn ( x ) ∼ B ( nF ( x)) ) E ( Fn ( x )) = F ( x)

 =      ( x )(1 - F ( x))) V ( F ( x))

Propriétés asymptotiques

Lois des grands nombres :

iv ) Fn ( x ) ¾¾P® F ( x ) ; Fn ( x ) ¾¾®p.s. F ( x)

Théorème central limite (TCL)


Info : Pour tout x ÎR ,Fn (x) « approche» F (x) : c’est un

estimateur de F (x) . Il est :

-      sans biais (ii))

-   asymptotiquement

efficace (iii))

- fortement convergent (iv))

Outilsde dém: Yi  = 1X i £x   B ( F ( x))

N donc                nFn ( x ) = Yi   B ( n, F ( x))

i=1

( Fn ( x ) - F ( x ) ) ¾¾L® N (0, F ( x )(1 - F ( x)))


C-4 Fonction de répartition empirique

F(x) et Fn(x)

D-1 Simulations d’un échantillon: Cas général

Théorème d’inversion



Soit F une fonction de répartition sur R. On note F -1 ( y ) = inf{ x Î R / F ( x ) ³ y} l’inverse généralisé de F (vaut l’inverse habituelle lorsque F est continue

et strictement croissante). Soit U deloi uniforme sur [0,1]. Alors,

  1. = F -1 () a pour fonction de répartition F
  2. Si F est continue sur R et X de fdr F, U=F(X) suit une loi uniforme sur [0,1].


D-2 Simulations d’un échantillon : cas continu

Simulation d’une loi continue

Simulation de n réalisations X de loi F:

– on simule n réalisations d’une loi uniforme sur [0,1] (tirage au hasard de n nombres sur cet intervalle) : u1,…,un


D-2 Simulation d’un échantillon : cas discret

Simulation d’une loi discrète

Sont n réalisations d’une variable aléatoire discrète de loi F.



206