Cours d'estimation statistique complet

Cours d'estimation statistique complet
INTRODUCTION
1. Contexte :
Dans toutes les enquêtes par sondage, on rencontre par définition des erreurs d’échantillonnage : elles traduisent le fait que les estimations issues des données collectées dépendent de l’échantillon tiré. L’erreur d’échantillonnage est conditionnée par de nombreux paramètres mais l’un d'eux, fondamental, est la taille de l’échantillon : lorsque cette taille est faible, il y a un fort risque de mauvaise qualité des estimations ! Une telle situation se rencontre dès lors que l’on s’intéresse à des sous -populations, parfois même dans le cadre de grosses enquêtes, car la taille de l’échantillon qui va conditionner la qualité de l’estimation est celle qui concerne la sous-population étudiée. La suite de ce document s’intéresse aux estimations produites à partir de ces sous-populations, appelées « domaines », en particulier lorsque les tailles d’échantillon recoupant ces sous-populations sont faibles. On parle alors de « petits domaines ».
Dans la pratique, les exemples de petits domaines sont légion. C’est en particulier le contexte qu’offrent les enquêtes ménages à l’Insee pour tout paramètre défini sur une région1, un département, une unité urbaine, voire même une commune. La sous-population n’est d’ailleurs pas nécessairement définie par des critères géographiques : ce peut être une catégorie socioprofessionnelle donnée, une tranche d’age, une nationalité, un niveau de diplôme, etc. Ainsi, estimer le revenu moyen des ménages en Bourgogne, le taux de chômage en ZUS, le taux de chômage des moins de 25 ans, le montant total d’une allocation versée aux personnes souffrant d’une déficience mentale, ou encore la proportion de logements locatifs dans le parc des logements de 6 pièces ou plus, sont des problèmes d’estimation sur petits domaines.
2. Objectif et premières notations :
On s’intéresse à l’estimation d’un total, d’une moyenne ou d’un pourcentage définis sur le domaine appelé a (le domaine est souvent une zone géographique, d’où le choix de " a "
pour "aire"). La variable d’intérêt est notée Y , et l’individu est repéré par son identifiant i (qui va donc indexer Y ). On note N la taille de la population totale, et Na la taille du domaine a . Les paramètres à estimer grâce à l’enquête sont :
…
respectivement vrai total et vraie moyenne sur le domaine a . Lorsque la variable Yi vaut 1 si
i vérifie une propriété donnée (exemple : sexe masculin et âge < 50 ans) et 0 sinon, le
paramètre devient la proportion des individus du domaine qui vérifient la propriété en question (ici le pourcentage d’hommes de moins de 50 ans au sein du domaine).
Savoir estimer correctement un total va permettre d’estimer toutes les fonctions de totaux, même si elles sont complexes. En effet, une méthode simple consiste à considérer le paramètre complexe et à substituer les estimateurs aux vrais totaux : pour estimer
θa= f (Ya1,Ya2,...,Yap)
1 Sauf les très grosses enquêtes, comme l’enquête Emploi - où la région n’est plus assimilée à un petit domaine.
on forme | ˆ | ˆ1 | ˆ 2 | ˆ p | ) |
θa= | f (Ya | ,Ya | ,...,Ya |
L’opération introduit ainsi un biais qui lui est propre, mais on montre qu’à moins de manipuler des échantillons extrêmement petits, ce biais là reste une composante négligeable de l’erreur totale. Ce qui suit permet donc l’estimation sur petits domaines, par exemple de ratios, de dispersions, de coefficients de corrélation ou encore de coefficients de régression. En revanche, les statistiques qui ne sont pas des fonctions de totaux ne relèvent pas de ce document, comme par exemple les quantiles et leurs satellites
3. Sources d’informations et compléments de notation :
On s’intéresse généralement à la technique d’estimation sur petits domaines lorsqu’on dispose de données d’enquête relatives au phénomène étudié : si tel n’est pas le cas, on doit compter seulement sur d’éventuels fichiers administratifs : soit ces fichiers contiennent l’information individuelle nécessaire et suffisante, auquel cas les méthodes à employer sont de nature comptable, soit ils ne la contiennent pas (ce qui correspond tout de même à la plupart des situations) et on ne peut pas obtenir l’estimation voulue.
On considérera donc qu’on dispose d’un échantillon d’individus interrogés dans le cadre d’une enquête par sondage. Soit il s’agit de la seule source accessible, soit il est possible d’exploiter des sources exhaustives "ou presque" (comme les enquêtes annuelles de recensement de l’Insee) qui fournissent de l’information auxiliaire corrélée aux variables d’intérêt. Dans le premier cas, il y a peu de marge de manœuvre et on devra se contenter d’estimateurs assez "pauvres" - et vraisemblablement peu efficaces. Le second cas est heureusement beaucoup plus commun : c’est en effet en exploitant habilement l’information auxiliaire que l’on va pouvoir augmenter la qualité des estimations sur petits domaines. La réussite des opérations passera donc en premier lieu par le recensement des sources disponibles et par l’examen critique des variables susceptibles d’expliquer le phénomène étudié sur le domaine.
L’échantillonnage dans la population globale U va produire un échantillon s , de taille n . La
partie de cet échantillon qui recoupe le domaine a sera notée sa | et sa taille na . On a |
0 ≤ na ≤ n, et on notera qu’il est possible que le hasard conduise à na | = 0 si le domaine est |
tout petit ou si n est déjà petit. Comme le plan de sondage est a priori quelconque, un individu i de U a une probabilité de sélection notée ∏i . On rappelle que la valeur ∏i est choisie par le sondeur. En particulier avec un tirage aléatoire simple ou plus généralement avec tout échantillonnage de taille fixe à probabilités égales, on a Πi = n / N.
as (taille n) sa (taille na)
4. Concepts d’erreur en sondage.
La sensibilité d’un estimateur à l’échantillon tiré constitue une préoccupation tout à fait centrale dans la question du choix des estimateurs. Les concepts de qualité essentiels sont au
nombre de trois. Si on note p(s) la probabilité de tirer l’échantillon s , si θˆ(s) est l’estimation obtenue à partir de s et si θ est la vraie valeur (inconnue, à estimer), on distingue :
- Le biais : E(θˆ)−θ = ∑ p(s )⋅θˆ(s)−θ
ii) La variance V (θˆ )= E(θˆ − Eθˆ)2 = ∑ p(s )(θˆ(s )− Eθˆ)2
- L’erreur quadratique moyenne EQM (θˆ)= E(θˆ −θ )2 = Variance + (biais)2
Le biais et la variance sont des indicateurs de natures différentes, puisque le premier mesure une tendance centrale et le second une dispersion. L’erreur quadratique moyenne est un concept général qui « mixte » biais et variance. S’il y a un seul indicateur à fournir pour caractériser la qualité d’un estimateur, c’est probablement ce dernier qu’il faut considérer.
On peut aussi s’intéresser à une précision relative, définie comme le rapport de l’écart type d’échantillonnage (racine carrée de la variance) à la vraie valeur. C’est un indicateur appelé « coefficient de variation » :
CV (θˆ )= V (θˆ)
θ
On a coutume de considérer qu’un CV inférieur à 5% correspond à une estimation satisfaisante.
5. Estimation de la taille de population d’un domaine avec un sondage aléatoire simple :
Nous avons vu au 2. que l’objectif consistait à estimer un total sur un domaine. L’estimation
Nade la taille d’un domaine a est un cas particulier d’estimation de total : il suffit deconsidérer la variable constante égale à « 1 » sur a pour s’en convaincre, puisque son vrai total sur le domaine vaut Na . Cette question se traite immédiatement dans le cas d’un
sondage aléatoire simple, si on se souvient qu’on estime sans biais toute proportion vraie par la proportion associée dans l’échantillon. Soit
NNa = nna
On sait également exprimer la variance de la proportion estimée (mettons que n est négligeable devant N ) :
Si le domaine est (très) petit alors NaN sera (très) petit. Comme souvent n est (très) grand, on obtient des valeurs numériques de l’écart type de Na tout à fait modestes. On a donc un sentiment de
très bonne précision absolue - et cela est indiscutable (les intervalles de confiance ont effectivement une faible amplitude).
Il n’y a pas de piège ici, en revanche il y a une subtilité : si on raisonne en précision relative, donc en coefficient de variation, on obtient une conclusion inverse. En effet,
si bien qu’un petit domaine va donner lieu à un (très) grand CV - sauf si la taille totale de l’échantillon n est très grande. Voici, pour un échantillonnage aléatoire simple, quelques tailles n nécessaires (etsuffisantes) pour atteindre un CV de 5% (ce qui constitue une précision relative correcte, mais sans plus) en fonction de différentes valeurs de P=Na correspondant à des PCS recensées en 1990
6. Qu’est-ce qu’un petit domaine ?
A partir de quand peut-on considérer qu’on a à faire à un « petit domaine » ? Il n’existe pas de définition dans l’absolu qui permette de qualifier indiscutablement de « petit » le domaine auquel on s’intéresse. Il s’agit plutôt d’une appréciation de circonstance, qui est intimement liée à la question de la précision. En fait, lorsqu’il cherche à estimer un paramètre, le statisticien a des concepts pour définir la précision - concepts présentés dans la partie 4 - et une cible quantitative (plus ou moins explicite…) pour chaque estimation calculée. Si l’estimation classique relative au domaine a une précision insuffisante par rapport à son objectif, on se trouve potentiellement en situation d’estimation sur petit domaine.
Concrètement, pour une variable d’intérêt donnée, si on mesure la qualité par le coefficient de variation (qui est un très bon critère), on peut se fixer un seuil de coefficient de variation en deçà duquel l’estimation classique suffira et au-delà duquel on envisagera l’application de méthodes « petits domaines ». Par exemple - mais, encore une fois, cela reste à l’appréciation de chacun en fonction des objectifs de l’enquête - on considérera qu’il faut déclencher une estimation « petits domaines » si le coefficient de variation dépasse 20%. Cela suppose évidemment que l’on soit en mesure d’estimer la précision des estimateurs que l’on construit, ce qui peut être un sérieux obstacle avec des plans de sondage complexes.
7. Grandes catégories d’estimateurs et plan du document :
On distingue trois grands types d’estimateurs :
• Les estimateurs directs, dont la caractéristique est de ne pas faire appel à de l’information (collectée Y ou auxiliaire X ) relative à des individus se situant hors du domaine. Cela ne signifie pas qu’il n’y ait pas d’information auxiliaire qui soit utilisée, mais cela signifie que si c’est le cas, cette information ne concerne que les individus du domaine étudié.
• Les estimateurs indirects construits à partir de modèles implicites. Il s’agit là d’estimateurs dont l’expression même s’appuie, d’une façon ou d’une autre sur des hypothèses de comportement reliant le domaine au reste de la population. Ces estimateurs ont une qualité qui dépend de la validité du modèle, lequel traduit toujours une hypothèse du style "du point de vue de tel paramètre, le domaine et la population se comportent de la même façon". Par exemple, on postulera que la moyenne de Y sur le domaine, soit Ya , est identique à la moyenne de Y sur l’ensemble de la population. Le modèle est qualifié d’implicite parce qu’il s’applique à un niveau "macro" : il concerne des paramètres et non des comportements individuels, et il ne fait pas intervenir de variable aléatoire. Il a donc pour caractéristique de résulter d’une approche purement descriptive.
• Les estimateurs indirects construits à partir de modèles explicites. Dans cette catégorie, on trouve tout ce qui se fait à partir de la modélisation des paramètres des domaines en fonction, d’une part de variables explicatives conçues au niveau du domaine, et d’autre part d’un aléa (qui n’est pas du tout un aléa de sondage, mais une variable aléatoire de même nature que l’aléa de l’économètre). Par exemple, on postulera que la moyenne Ya est une combinaison linéaire de K variables explicatives Χka définies au niveau de chaque aire a , cela à un aléa près. Eventuellement (mais pas nécessairement), on considérera que l’aléa suit une loi de nature connue (loi de Gauss par exemple). On peut aussi modéliser les comportements individuels, - donc à un niveau plus fin que le domaine - que l’on peut relier aux paramètres définis sur le domaine. Par exemple, on postulera qu’une grandeur individuelle quantitative Yi , où i décrit le domaine d’intérêt, est une combinaison linéaire de variables explicatives individuelles Xik , comprenant en particulier un effet propre au domaine, plus un aléa individuel qui regroupe tout ce qui n’est pas expliqué par ces
Cette classification n’est pas la seule envisageable bien sûr, mais nous l’avons retenue pour structurer la suite du document.
Le choix de la méthode dépend ensuite de la nature de l’hypothèse que l’on souhaite faire (donc des risques que l’on est prêt à prendre) et de l’information auxiliaire dont on dispose, sans oublier les moyens et compétences disponibles pour appliquer la théorie associée. L’estimation directe (la voie la plus simple) est toujours techniquement possible, mais on voit bien que dans nombre de cas elle est très fragile, voire fantaisiste, si bien qu’elle fait office de dernier recours. L’estimation indirecte implicite peut également être choisie en toute circonstance mais elle ne prend son sens que si on est en mesure d’étayer (au moins un peu…) l’hypothèse qui sert de base à la méthode. Même si ce n’est pas une nécessité absolue pour appliquer cette approche, de fait on a besoin d’information auxiliaire pour rendre le modèle plus crédible (sans information auxiliaire, le modèle sera presque toujours trop fruste). Quant à l’estimation indirecte explicite, elle ne peut s’envisager qu’avec une information auxiliaire assez riche et actualisée, et des moyens humains et informatiques conséquents pour dérouler toute la procédure. C’est de loin l’approche la plus complexe techniquement et la plus coûteuse. Il n’est pas évident qu’elle soit in fine plus efficace que la méthode implicite, mais elle prend généralement l’avantage lorsqu’il s’agit d’apprécier la pertinence de la modélisation.
Estimation directe
Il s’agit de construire un estimateur « correct » de Ya (ou de Ya ) sans utiliser d’information « extérieure » au domaine de a: dans toute cette partie, seuls les individus de l’aire a sont impliqués dans la définition de l’estimateur.
Le problème essentiel posé par cette catégorie d’estimateurs est leur grande varianced’échantillonnage : en effet, lorsqueaest petit,nasera vraisemblablement petit (sauf sil’échantillonnage a été conçu spécifiquement pour obtenir na suffisamment grand, mais ce
n’est généralement pas le cas) et la variabilité de l’estimateur sera grande. La justification des extensions locales d’enquête s’appuie directement sur ce principe. Ainsi, pour une enquête nationale de 20 000 ménages par exemple, on trouvera 200 ménages dans un département « moyen », ce qui est très largement insuffisant pour produire n’importe quelle estimation selon l’approche « traditionnelle ». La mise en place d’une extension départementale augmentera de manière ciblée la taille d’échantillon. Même au niveau régional, la situation apparaît bien périlleuse, puisque avec 1000 logements2 les estimations régionales d’ensemble seront entachées d’une incertitude déjà conséquente3 et, surtout, on ne pourra pas raisonnablement prétendre faire la moindre exploitation sur des sous-populations au sein de cette région. Donc, là encore, l’extension régionale fournira une solution au problème.
Ce phénomène de grande variance est malheureusement assez incontournable et, sauf si les Yiont une structure particulièrement favorable (par exemple une très faible dispersion
naturelle alors que l’échantillonnage est équiprobable - prenons le cas de l’estimation du revenu moyen des fonctionnaires d’un grade donné au sein d’une région), il n’y a pas de miracle à attendre du contexte : avec peu d’information, on ne peut pas obtenir uneestimation d’une grande qualité.
Ce discours doit cependant resté modéré et on ne peut pas non plus écarter brutalement la piste de l’estimation directe : en effet, entre le tout petit domaine et la très grande population, il y a tout un dégradé de situations et pour des domaines "pas trop petits", l’estimation directe peut être malgré tout adaptée aux objectifs. Cela d’autant qu’il y a deux éléments à prendre en compte : d’une part il est possible, comme on va le voir, d’améliorer l’estimation directe avec de l’information auxiliaire pertinente, et d’autre part il faut raisonner en fonction d’objectifs de précision, lesquels ne sont pas nécessairement très ambitieux. Aussi, si on ne cherche pas une très faible variance mais seulement un ordre de grandeur du paramètre, l’estimation directe peut être une alternative acceptable.
Parmi les estimateurs directs, on distingue essentiellement :
- L’estimateur classique de Horvitz-Thompson ;
- L’estimateur par la régression, et ses nombreuses variantes.
2Dont il faudra extraire les seuls répondants !
- Pour estimer une proportion de 50% avec un tirage aléatoire simple, on obtient avec 1000 répondants une incertitude de +/- 3 points de pourcentage avec 95 chances sur 100.
1. L’estimateur de Horvitz-Thompson :
1.1 Estimation du total :
Il consiste à retenir seulement les individus de sa et à conserver les poids d’origine, utilisés
lorsque l’extrapolation porte sur la population tout entière. Pour estimer un total, la pondération « primitive » pour de très nombreux plans de sondage4 est égale à l’inverse de la probabilité de sélection, soit en l’absence de non-réponse :
Cet estimateur est sans biais du vrai total Ya . Si l’échantillonnage est à probabilités égales et de taille fixe, on a Πi = n N et donc
…
où ya est la moyenne simple des na valeurs Yi des individus de sa . Ces conditions sont assez souvent (approximativement) satisfaites quand on tire une enquête dans l’échantillon-maître ou dans l’EMEX5. Il est important de noter que na est aléatoire : c’est le hasard qui fixe
la valeur de na entre 0 et n (techniquement, si le sondage est aléatoire simple, na suit une loi hypergéométrique -sinon la loi de na est très complexe). S’il y a de la non-réponse totale, on continue à utiliser les poids (corrigés) des individus de sa . Ainsi, si on a estimé par Ri probabilité de réponse (inconnue) Ri de i , on a :
où ra est l’échantillon de répondants dans a . Cet estimateur est légèrement biaisé en toute généralité parce que la probabilité de réponse vraie est inconnue. Dans le cas où le tirage est à probabilités égales et de taille fixe
( Πi= n N ) et que Ri est supposé constant (techniquement, Ri suit une loi de Bernoulli), on va estimer Ri par le taux de réponse empirique m/n où m est le nombre total de répondants, d’où : …
Sous la seule condition que ra ne soit pas vide, on peut donc toujours produire un estimateur sans biais ou peu6 biaisé du total sur un domaine (petit ou non). On remarquera - ce qui peut être très appréciable - qu’il n’y a pas besoin de connaître la taille Na du domaine.
Table des matières
Introduction ............................ 5
1 Contexte ................... 5
2 Objectif et premières notations............. 5
3 Sources d’information et compléments de notation ......... 6
4 Concept d’erreur en sondage............... 7
5 Estimation de la taille de population d’un domaine avec un sondage aléatoire simple ........... 7
6 Qu’est-ce qu’un petit domaine ?......................... 8
7 Grandes catégories d’estimateurs et plan du document................ 9
Estimation directe .................. 11
1 L’estimateur de Horvitz-Thompson................ 12
1.1. Estimation du total.............. 12
1.2. Estimation de la moyenne ................ 16
2 L’estimateur par la régression........................ 17
2.1. Formulation générale........................ 17
2.2. Formulations spécifiques.................. 22
3 L’estimateur par calage .................... 24
Estimation indirecte avec modélisation implicite ......... 26
1. Principe de base de cette approche.............. 26
2. L’estimation synthétique .................. 27
2.1. En l’absence d’information auxiliaire.............. 27
2.2. En présence d’information auxiliaire .............. 31
2.2.1. L’estimateur synthétique de type régression : formulation générale..... 31
2.2.2. Quelques déclinaisons de l'estimateur synthétique de type régression ............. 35
2.2.3. Un nouvel estimateur corrigeant le biais de l’estimateur synthétique................ 38
2.2.4. Estimation d’effectifs par la méthode de préservation des structures................. 39
2.3. Le problème de l'estimation de la qualité des estimateurs synthétiques ............... 42
3. L’estimation composite .................... 44
3.1. Principe général.................. 44
3.2. L’estimateur composite optimum.................... 44
3.3. Les estimateurs dépendant de la taille de l’échantillon.............. 46
3.4. Les estimateurs dits « de James-Stein » ..................... 48
3.5. Les méthodes spécifiques aux estimations de population......... 53
3.5.1. La méthode de modélisation des flux démographiques.......... 53
3.5.2. Les méthodes utilisant une régression...................... 54
Estimation indirecte avec modélisation explicite.......... 57
1. Principe de base de cette approche.............. 57
2. Présentation des principaux modèles utilisés ........... 57
2.1. Les modèles conçus au niveau « domaine » ............... 58
2.1.1. Le modèle de Fay et Herriot........................ 58
2.1.2. Modèle de corrélation spatiale .................... 61
2.1.3. Modèles temporels 62
2.1.4. Modèles pour variables qualitatives ou pour variables de comptage ................. 63
2.2. Les modèles conçus au niveau « individu » ................ 64
2.2.1. Formulation générale .................... 64
2.2.2. Modèle adapté à l’existence d’un effet de grappe................... 67
2.2.3. Modèle dit « à deux niveaux »..................... 68
2.2.4. Modèles pour variables qualitatives ou pour variables de comptage ................. 68
3. La classe des estimateurs sans biais optimums et linéaires (SBOL et ESBOL)............ 77
3.1. Présentation générale de l’estimation « SBOL » ......... 77
3.1.1. Formulation de l’estimateur......................... 77
3.1.2. Expression de l’erreur de l’estimateur SBOL ............ 80
3.2. Présentation générale de l’estimation empirique « ESBOL » .................. 81
3.2.1. Estimation du paramètre des matrices de variance-covariance ........... 81
3.2.2. Qualité de l’estimateur ESBOL ................... 81
3.3. Les estimations « SBOL » et « ESBOL » appliquées au modèle de Fay et Herriot ............ 82
3.3.1. Expression de l’estimateur SBOL................ 82
3.3.2. Qualité de l’estimateur SBOL...................... 85
3.3.3. Estimateur ESBOL ........................ 86
3.4. Les estimations « SBOL » et « ESBOL » appliquées aux modèles conçus au niveau « individu » ........................ 92
3.4.1. Expression de l’estimateur SBOL................ 92
3.4.2. Estimation des variances intervenant dans le modèle............ 96
3.4.3. Estimateur ESBOL ........................ 96
4. La classe des prédicteurs optimums (dits « Bayésiens empiriques »)............. 99
4.1. Présentation générale du concept et de la méthode.................. 99
4.2. Application au cas du modèle de Fay et Herrict........... 101
4.3. Cas du modèle linéaire mixte à variance bloc diagonale........... 102
4.4. Cas des variables qualitatives : paramètre de type « proportion » .......... 103
4.5. Cas des variables qualitatives : paramètre de type « risque relatif »....... 108
5. La classe des prédicteurs Bayésiens hiérarchiques............... 109
6. L’approche par la prédiction............ 110
7. Eléments sur la qualité des estimations..................... 112
Conclusion................ 113
Bibliographie ............ 115