Manuel d’exercices corriges en statistique inferentielle

Manuel d’exercices corrigés en statistique inférentielle
I. Rappels de probabilités et de statistique inférentielle
Exercice 1Notions d’espérance et de variance
Un passager du métro mesure son temps de trajet domicile- travail pendant 10 jours et relève successivement (en minutes) : 32 ; 25 ; 28 ; 36 ; 30 ; 26 ; 37 ; 25 ; 33 ; 28 .
Quel est en moyenne la durée du trajet ? Évaluer aussi la variabilité de cette durée.
Comparer avec un autre itinéraire emprunté par notre voyageur pendant les jours suivants et qui lui prend : 46 ; 21 ; 24 ; 38 ; 44 ; 22 ; 37 ; 20 ; 25 ; 23 minutes.
Exercice 2Loi binomiale
A chaque balade qu’il effectue, un cavalier a une probabilité p d’être désarçonné.
- Quelle est la probabilité que le cavalier ait chuté k fois au terme de n balades ? On suppose que les différentes promenades sont indépendantes les unes des autres.
- Quelle est la loi du nombre de chutes en n balades ?
- Donner l’espérance et la variance du nombre de chutes en n balades.
Exercice 3Loi hypergéométrique
Le responsable qualité d’une usine contrôle 20 objets dans chaque lot de 1000 objets avant de le laisser partir vers le client. Il accepte seulement les lots pour lesquels il ne trouve aucun objet non conforme dans l’échantillon ; dans le cas contraire, le lot est trié unité par unité.
- Si p% des pièces fabriquées sont défectueuses, quelle est la probabilité d’en trouver k dans un lot donné de taille 20 ?
- Quelle est la probabilité pour qu’un lot contenant une proportion p = 0,05 d’objets non conformes soit accepté ?
- Même question pour p = 0,1.
Exercice 4La moyenne empirique
Soient X1, X2, …, Xnn variables aléatoires indépendantes et identiquement distribuées (i.i.d.) de moyenne m et de variance σ². La moyenne empirique est : X = 1 ∑nXi . Calculer n i=1
Exercice 5Intervalle de confiance pour une moyenne
…
de 100 parcelles de blé d’une variété donnée. On a obtenu où xi exprime le rendement observé sur la ième parcelle (en qx/ha).
On suppose que les rendements sont mutuellement indépendants et qu’ils sont issus d’une population infinie distribuée selon une loi normale de moyenne m et de variance σ².
Construire un intervalle de confiance pour le rendement moyen au niveau de confiance 95%.
Exercice 6Protection de l’anonymat dans une enquête
Pour préserver l’anonymat dans certaines enquêtes par sondage, le procédé suivant peut être suivi. Admettons que l’on veuille estimer la proportion de personnes qui remplissent leur déclaration fiscale de manière honnête. On demande alors à chaque personne interrogée de se retirer dans une pièce isolée, et de jouer à pile ou face.
- si elle obtient « pile » alors elle doit répondre honnêtement par « oui » ou « non » à la question « Votre déclaration fiscale est-elle honnête ? »
- si elle obtient « face », elle devra lancer la pièce une nouvelle fois et répondre par « oui » ou « non » à la question « Avez-vous obtenu « face » au deuxième tirage ? ».
Grâce à ce procédé, il est impossible à l’enquêteur de savoir à quelle question se rapporte la réponse de la personne interrogée, celle-ci peut donc fournir sans crainte une réponse sincère.
- On note p la proportion inconnue de déclarations fiscales remplies honnêtement dans la population et π la proportion de réponses « oui ». Montrer que π= p/2 + 1/4 .
- Soit X la variable aléatoire désignant le nombre de réponses « oui » dans une enquête auprès de n personnes. Quelle est la loi de X ? Donner un estimateur de π et un estimateur de p. Calculer leur espérance et variance respectives.
- En déduire un intervalle de confiance de niveau 1-α pour p. On utilisera l’approximation normale de la loi binomiale.
- Application numérique avec n = 1000 et 600 réponses affirmatives. Donner une estimation de p et un intervalle de confiance pour p au niveau 95%. Quel est le prix payé pour laconfidentialité ?
Quelques rappels sur les lois de probabilité
Variable aléatoire X
C’est une grandeur qui peut prendre différentes valeurs avec différentes probabilités. Elle est définie sur l'ensemble des résultats possibles (ou événements) d'une expérience aléatoire (ex : résultat d’un jeu de hasard, durée d’attente,…).
Loi de probabilité
La loi de probabilité, ou distribution, d'une variable aléatoire X est définie par l'ensemble des valeurs prises par X ainsi que par :
- la probabilité de chaque valeur possible de X quand X est une v.a. discrète,
- la probabilité que X se réalise dans un intervalle donné quand X est une v.a. continue. La fonction de densité de X, dérivée de la fonction de répartition caractérise la loi de probabilité.
Espérance E(X)
C’est la valeur que l'on peut espérer obtenir, en moyenne, en réalisant une v.a. X. On l’assimile à la moyenne de X par abus de langage.
Pour une variable aléatoire discrète, E( X ) = ∑k × P( X = k) . k
Pour une variable aléatoire continue admettant une densité f(x),E( X ) = ∫−+∞∞xf (x)
Propriétés :
- Pour c constante réelle, E(c ) = c
- E( X + Y )= E( X )+ E(Y ): on dit que l'espérance est un opérateur linéaire
- Si X et Y sont indépendantes alors E(XY ) = E( X ) × E(Y )
Variance Var(X)
C’est une mesure de la variabilité des valeurs par rapport à la moyenne. Plus les valeurs de X sont « imprévisibles », plus elle est grande. Elle se définit par Var(X ) = σX2 = E[X − E(X )]² = E(X ²) − [E(X )]² (« moyenne des carrés des écarts à la moyenne »)
Propriétés :
- La variance est toujours positive ou nulle - Var( X ) = 0 X constante
- Var(cX )= c²Var( X )où c est une constante réelle
- Var( X + Y )= Var( X )+ Var(Y )+2Cov( X ,Y )
o Cov( X ,Y ) = σXY = E[ X − E( X )]× E[Y − E(Y )] o Cov( X ,Y ) = 0 si X et Y sont indépendantes
Loi de Bernoulli B(p)
C’est la loi de la variable X qui indique si le résultat d’une épreuve est un échec ou un succès (par exemple : jouer à pile ou face).
Loi de probabilité : P( X =1)= p et P(X =0)=1− p
Espérance : E(X)= p
Variance : Var(X)= p(1− p)
Loi binomiale B(n,p)
C’est la loi de la variable X qui compte le nombre de boules blanches obtenues à l’issue de n tirages, indépendants et avec remise, dans une urne de taille N contenant p % de boules blanches.
Loi de probabilité : | k | k | n−k | avec k∈{0,1,...,n} |
P( X =k)=Cn | p | (1− p) | ||
Espérance : | E(X)=np | |||
Variance : | Var(X)=np(1− p) |
N.B. : une loi binomiale de paramètres n et p est aussi la somme de n lois de Bernoulli indépendantes et de même paramètre p.
Loi hypergéométrique H(N, n,p)
C’est la loi de la variable X qui compte le nombre de boules blanches sélectionnées à l’issue de n tirages sans remise dans une urne de taille N contenant des boules blanches en proportion p.
…
Convergence de la loi hypergéométrique vers la loi binomiale
Si N tend vers l'infini, la loi H(N,n,p) tend vers la loi B(n, p), c'est- à-dire que lorsqu'on effectue un tirage dans une grande population, il importe peu que ce tirage se fasse avec ou sans remise (en pratique, on considèrera que la population est « grande » lorsque l'échantillon représente moins de 10% de cette population : n /N < 0,1).
Loi normale ou loi de Laplace-Gauss N(m,σ²)
En pratique, on considère que l'approximation est correcte dès que n p(1-p) > 18, d'autant plus que n est grand et p proche de 0,5.
Loi uniforme U(0,1)
Une variable X suit une loi uniforme U(0,1) si sa densité de probabilité vaut : f(x)=1]0,1[(x) Espérance : E(X)=1/2
Variance : Var(X)=1/12
F(x)=P( X ≤x)=x sur[0,1]
Loi faible des grands nombres
Si (X1,X2,…,Xn) sont des variables indépendantes et identiquement distribuées (i.i.d.) selon une loi
Autrement dit, la moyenne d'une variable sur un échantillon aléatoire simple tend vers la moyenne dans la population, quand la taille de l’échantillon tend vers l'infini. Par exemple, si l'on pouvait jouerindéfiniment à "pile ou face" avec une pièce bien équilibrée, le pourcentage de "pile" obtenu tendrait vers 50 %.
Théorème central limite
Si (X1,X2,…,Xn) sont des variables i.i.d. selon une loi quelconque de moyenne m et de variance σ²,
alors: | Loi | |
n Xn−m→ N(0,1) | ||
σ | n→∞ |
Quelques rappels sur les intervalles de confiance
I/ Généralités
Soient X une variable aléatoire de loi paramétrée par θ et X 1 ,...,Xnn variables i.i.d. selon la loi de X.
1) Principe d’un intervalle de confiance
Plutôt que d’estimer ponctuellement la vraie valeur inconnue du paramètre θ , on recherche un intervalle recouvrant «très vraisemblablement » cette vraie valeur.
Définition : On appelle intervalle de confiance de niveau de confiance 1− α du paramètre θ tout intervalle IC tel que : P ( IC ∋ θ ) = 1 − α pour α ∈[0,1] fixé.
Les bornes de l’intervalle de confiance IC dépendent de l’échantillon, elles sont donc aléatoires. Par abus de langage, on note souvent P (θ ∈ IC) = 1 − α .
Remarquons que si α augmente (ou que si n augmente), l’amplitude de l’intervalle de confiance diminue.
2) Vocabulaire
La probabilité α pour que l’intervalle de confiance ne contienne pas la vraie valeur peut être répartie différemment de part et d’autre des bornes de l’intervalle de confiance. Écrivons donc α=α1+α2 où α1et α2mesurent respectivement les risques à gauche et à droite de dépasser un seuil plancher ouplafond.
- L’intervalle de confiance est dit bilatéral quand α1 ≠ 0 et α2 ≠ 0 . Si α 1 = α2 = α2 , l’intervalle est dit symétrique. Il est dissymétrique sinon.
- L’intervalle de confiance est dit unilatéral si α1α 2 = 0 :
- quand on veut assurer une valeur minimale au paramètre à estimer, on considère
α 1 = α et α2 = 0 , l’intervalle de confiance est alors de la forme : IC = [ a,+∞[ .
- quand on ne veut pas dépasser un seuil maximal, on prend α1 = 0 et α2 = α et on obtient alors un intervalle de confiance de la forme : IC = ] − ∞,b] .
- Construction
Pour construire un intervalle de confiance, on utilise une variable aléatoire dont on connaît la distribution de probabilité.
Définition : une fonction pivotale pour le paramètre θ est une fonction des observations ( X 1,..., Xn) et du paramètre θ dont la loi ne dépend pas du paramètre θ .
On recherche dans la suite des fonctions pivotales particulières adaptées aux cas étudiés.
II/ Intervalles de confiance pour l’espérance
On envisage deux cas :
- la variable aléatoire mesurée est normale et le nombre de réalisations est quelconque,
- la variable aléatoire mesurée n'est pas normale et le nombre de réalisations est important. Dans ce cas, la distribution de la moyenne empirique tend vers une loi normale d'après le théorème central limite. On parlera d’intervalle de confiance asymptotique.
…
- Sinon, construction d’intervalles de confiance « exacts » :
On construit ces intervalles en considérant la fonction de répartition de la loi binomiale. Si la probabilité de recouvrement de l’intervalle ne vaut pas exactement 1− α , on prend l’intervalle ayant la plus petite probabilité de recouvrement parmi ceux ayant une probabilité de recouvrement supérieure à 1− α .
III/ Intervalles de confiance pour la variance d'une loi normale
Soient X ~ N(m,σ2) et X1 ,...,Xnn variables i.i.d. selon la loi de X.
…
II. Sondage aléatoire simple
Exercice 1Un petit exemple
L’exercice propose de retrouver sur un exemple les résultats de la théorie pour un sondage aléatoire simple sans remise de taille fixe. On considère pour cela tous les échantillons possibles de taille 2 pris dans une population de taille N = 5. On connaît par ailleurs les valeurs de la variable d’intérêt Y pour chaque unité de la population, à savoir respectivement : 8, 3, 11, 4 et 7.
- Calculer la moyenne Y et la dispersion SY2 du caractère d’intérêt sur la population.
- Lister tous les échantillons possibles de taille 2.
3. Pour chacun de ces échantillons, calculer l’estimateur Y de la moyenne de la variable | |
d’intérêt ainsi que l’estimateur de sa variance V | (Y ). |
4. Vérifier que Y estime sans biais la vraie moyenne. ( ˆ )
- Calculer la variance V Y. ( ˆ )
- Vérifier que V Y coïncide avec la formule de la variance donnée par la théorie.
7. Vérifier que V | (Y ) estime sans biais la vraie variance V (Y ). |
Exercice 2 Rappels de cours
L’exercice propose de démontrer des résultats présentés dans le cours et d’insister sur des techniques de raisonnement usuelles en sondage. Considérons qu’on veuille estimer le total et la moyenne d’une grandeur Y dans une population U de taille N. Pour cela, on procède à un sondage aléatoire simple sans remise de taille n et on note S l’échantillon aléatoire obtenu.
- Combien y a-t-il d’échantillons possibles ? Quelle est la probabilité de tirer chacun d’entre eux ?
- On considère un individu k quelconque dans U. Combien y a-t-il d’échantillons contenant cet individu ? En déduire la probabilité de tirage de k.
la variable aléatoire valant 1 si k appartient à l’échantillon et 0 sinon.
a. Que vaut E( Ik )?
5. Combien y a-t-il d’échantillons comprenant les individus identifiés k et l ? En déduire la probabilité de tirer ces deux individus conjointement. Que vaut alors E( IkIl ) ? En déduire
Cov( I k, Il).
…
Exercice 3 Estimation de la surface agricole utile d’un canton
(d’après P.Ardilly et Y.Tillé, Exercices corrigés de méthode de sondage, Ellipses, 2003 )
On veut estimer la surface moyenne cultivée dans les fermes d’un canton rural. Sur 2010 fermes que comprend ce canton, on en tire 100 par sondage aléatoire simple. On mesure Yk la surface cultivée par la ferme k en hectares et on trouve :
…
(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
145 ménages de touristes séjournant en France dans une région donnée ont dépensé 830 € en moyenne par jour. L’écart type estimé de leurs dépenses s’élève à 210 €. Sachant que 50 000 ménages de touristes ont visité la région où a été effectuée l’enquête, que peut-on dire de la dépense totale journalière de l’ensemble de ces ménages ? On supposera pour cela que l’échantillon est issu d’un plan aléatoire simple à probabilités égales.
Exercice 5Taille d’échantillon pour un sondage d’opinion
(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
Un sondage sur la popularité d’une personnalité politique lui accorde un pourcentage pˆ=30%
d’opinions favorables. En admettant qu’il s’agisse d’un sondage aléatoire simple sans remise et que la taille de l’échantillon est négligeable au regard de celle de la population, combien de personnes ont-elles été interrogées pour que l’on puisse dire avec un degré de confiance de 95% que la vraie
proportion d’opinions favorables dans la population ne s’écarte pas de pˆ de plus de deux points ?
12
Exercice 6Taille d’échantillon pour une proportion
(d’après P.Ardilly et Y.Tillé, Exercices corrigés de méthode de sondage, Ellipses, 2003 )
On s’intéresse à l’estimation de la proportion P d’individus atteints par une maladie professionnelle dans une entreprise de 1500 salariés. On sait par ailleurs que trois personnes sur dix sont ordinairement touchées par cette maladie dans des entreprises du même type. On se propose de sélectionner un échantillon au moyen d’un sondage aléatoire simple.
- Quelle taille d’échantillon faut-il sélectionner pour que la longueur totale d’un intervalle de confiance avec un niveau de confiance 0,95 soit inférieure à 0,01 pour un plan simple :
- avec remise ?
- sans remise ?
- Que faire dans le cas du plan sans remise si on ne connaît pas la proportion d’individus habituellement touchés par la maladie ?
Exercice 7Nombre d’espaces de stationnement à prévoir
(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
Une entreprise de promotion immobilière désire estimer le nombre d’espaces de stationnement requis pour une nouvelle tour devant abriter des bureaux. Elle décide de procéder à un sondage aléatoire simple sans remise. Elle sait que le nouveau bâtiment abritera 5 000 personnes et que, dans des entreprises de même type que celles devant emménager dans les futurs locaux, la proportion de personnes se rendant à leur bureau en utilisant les moyens de transport en commun est toujours supérieure à 75%. Quelle doit être la taille de l’échantillon pris au sein des futurs occupants des bureaux pour pourvoir estimer le nombre d’espaces de stationnement à prévoir avec une marge d’erreur symétrique d’au plus 150 places au niveau de confiance 90% ?
Exercice 8 Application au marketing direct
(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
Les sondages sont très largement utilisés dans le marketing direct : il arrive souvent que l’on estime par sondage le rendement d’un fichier donné, ou que l’on souhaite comparer les rendements de plusieurs fichiers, ou encore, que disposant de plusieurs fichiers, on souhaite estimer par sondage le rendement global de l’ensemble de ces fichiers. Dans cet exercice, on suppose l’existence d'un fichier de N = 200 000 adresses. On note p le rendement inconnu du fichier à une offre d’abonnement à prix réduit avec calculette offerte en prime ; c’est donc la proportion d’individus qui s’abonneraient si l’offre
était offerte à tous les individus du fichier. Selon l’usage pˆ est l’estimation de p obtenue à partir d’un test fait sur un échantillon de n adresses choisies à probabilités égales et sans remise sur le fichier.
- On sait par expérience que les rendements à ce type d’offre sur ce fichier ne dépassent pas généralement 3%. Quelle taille d‘échantillon doit-on prendre pour estimer p avec une précision absolue de 0,5 point et un degré de confiance de 95% ?
- Mêmes questions pour une précision de 0,3 point et 0,1 point.
- Le test a porté sur 10 000 adresses et on a noté 230 abonnements. En déduire l’intervalle de confiance bilatéral à 95% pour le rendement p ainsi que le pour le nombre total d’abonnements si la même offre était faite sur l’ensemble du fichier.
Exercice 9Un cas d’enquête répétée
(d’après P.Ardilly et Y.Tillé, Exercices corrigés de méthode de sondage, Ellipses, 2003 )
On considère une population de 10 stations-services et on s’intéresse au prix du litre de supercarburant que chacune d’entre elles affiche. Plus exactement, sur deux mois consécutifs, mai et juin, les données de prix figurent dans le tableau ci-dessous :
Prix du litre de supercarburant
Station | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |||
Mai | 5,82 | 5,33 | 5,76 | 5,98 | 6,20 | 5,89 | 5,68 | 5,55 | 5,69 | 5,81 | |||
Juin | 5,89 | 5,34 | 5,92 | 6,05 | 6,20 | 6,00 | 5,79 | 5,63 | 5,78 | 5,84 | |||
On veut estimer l’évolution du prix moyen du litre entre mai et juin. On choisit, comme indicateur de cette évolution la différence des prix moyens On propose deux méthodes concurrentes:
- Méthode 1 : on échantillonnenstations (n <10) en mai etnstations en juin, les deuxéchantillons étant totalement indépendants ;
- Méthode 2 : on échantillonnenstations en mai, et on interroge de nouveau ces stations enjuin (technique de panel).
- Comparer l’efficacité des deux méthodes.
- Même question si on souhaite cette fois estimer un prix moyen sur la période globale mai-juin.
- Si on s’intéresse au prix moyen de la question 2, ne vaut-il pas mieux tirer, non pas 2 fois n relevés avec la méthode 1 (n chaque mois) mais directement 2n relevés sans se soucier des mois (méthode 3) ? Aucun calcul n’est nécessaire.
Exercice 10Échantillonnages successifs
En cours de collecte, la taille d’un échantillon s’avère parfois insuffisante pour assurer la précision attendue. Une solution naturelle est d’enquêter un échantillon complémentaire. Intéressons-nous au plan de sondage final obtenu après :
− Un premier échantillonnage simple sans remise de n1 unités parmi N à probabilités égales,
− Suivi d’un second tirage simple sans remise de n2 unités parmi N-n1 à probabilités égales
La sélection des n = n1+ n2 unités ainsi retenues obéit-elle à un plan simple sans remise et à probabilités égales dans la population de taille N?
Exercice 11Estimation dans un domaine
On souhaite estimer la moyenne et le total d'une variable y sur un domaine U0 d’une population finie U de taille N. Ces quantités sont notées :
…
où ND est la taille du domaine.
On sélectionne un échantillon s au sein de la population entière par un sondage aléatoire simple sans remise de taille n. On observe un sous-échantillon s0 de taille n0 dont les individus sont dans le domaine U0.
On dispose des deux estimateurs suivants de la moyenne et du total de y sur le domaine U0 :
- La taille n0 du sous-échantillon s0 est aléatoire. Calculer sa valeur moyenne .
- Montrer que les deux estimateurs du total (ou de la moyenne) sont tous deux sans biais pour le vrai total (ou la vraie moyenne) du domaine. Est-ce que l’un est préférable à l’autre ?
- Donner les expressions de variance des deux estimateurs de la moyenne. Comparer ces deux variances.
- Donner les estimateurs sans biais pour les variance de ces deux estimateurs.
- Exemple : considérons une population de N = 5 793 entreprises. Supposons connues les quantités suivantes :
N0=984, ∑Yk =154814 , ∑Yk2 =42148912
k∈U0k∈U0
où y désigne le chiffre d’affaires.
Calculer les vraies variance pour les deux estimateurs de la moyenne pour un échantillon de taille = 579.
f) On a observé sur un échantillon particulier de taille n = 579
n0=89, | ∑ yi = 13782 , | ∑yi2 =4530306 |
Donner les valeurs des deux estimateurs de la moyenne et calculer les valeurs de leur variance estimée.
Rappels sur le sondage aléatoire simple
I/ Définition
Tirage d’un échantillon de n unités sans remise et à probabilités égales dans une population finie composée de N unités identifiables.
II/ Notations
1. Dans la population (ou univers) U={1,2,...,k,...,N}
Variable d’intérêt : Y de caractéristique individuelle Yk
Total :TY =∑k∈UYk
Dispersion (variance modifiée) : Sy2 = N1−1 ∑k∈U (Yk − Y )2 = NN−1 σ2y
2. Dans l’échantillon s: sous-ensemble deUde taillen(s)
Ensemble des échantillons possibles : S
Plan de sondage probabiliste : loi de probabilité sur S
p(s)≥0,∀s ∈ S,et∑s∈S p(s)=1.ˆ =1∑
Moyenne : ynk∈S Yk
Probabilité d’inclusion d’ordre un de k : πk = P(k ∈ s) = ∑s∈S/k∈sp(s)
Probabilité d’inclusion ou double de k et l : πkl = P(k ∈ s,l ∈ s) = ∑s∈S/k,l∈sp(s )
∆kl=πkl−πkπl
…
III. PLANS À PROBABILITÉS INÉGALES
Exercice 1Rappels de cours sur l’estimateur d’Horvitz-Thompson
On considère une population U et on s’intéresse à l’estimation du total d’une variable d’intérêt Y noté t y=∑Yk. Pour cela, on prélève un échantillon s avec des probabilités individuelles de sélection k∈U
notées (πk )k∈U .
1. Rappeler l’expression de l’estimateur d’Horvitz-Thompson (ou « π-estimateur » ou encore « estimateur des valeurs dilatées »).
- Étudier son espérance et sa variance.
Exercice 2Application directe du cours
On considère une population U = {1,2,3},sur laquelle on définit le plan de sondage suivant :
p({1,2})=12, p({1,3})=14, p({2,3})=14
Y est une variable définie sur U, telle que : Y1= Y2=3,Y3=6dont on veut estimer le total t y.
- Calculer les probabilités d'inclusion simple πk et double πkl .
- Donner la distribution de probabilité de l'estimateur de Horvitz-Thompson tˆYπ du total. Calculer la variance de cet estimateur.
- Donner la distribution de probabilité d'un estimateur de variance de tˆYπ (il est conseillé de choisir l'estimateur le plus simple à calculer). On pourra vérifier que cet estimateur est sans biais.
Exercice 3Volume d’archives
On désire estimer à l’échelle d’un canton le nombre de kilomètres linéaires d’archives stockées dans les mairies. Pour cela, on procède à un tirage de 4 communes parmi les 9 du canton, proportionnellement à leur population.
1. Calculer les probabilités d’inclusion de chaque communes, à partir des données suivantes :
N° de commune | Nom de la commune | Population | |
1 | Val le Grand | 1100 | |
2 | Les Gries | 650 | |
3 | Les Combres | 500 | |
4 | Flins | 2300 | |
5 | Villers le Lac | 4000 | |
6 | Fortin | 5500 | |
7 | Montlebon | 1900 | |
8 | Sanzeau | 200 | |
9 | Aumont | 150 |
2. Estimer le métrage total des archives du canton à partir des résultats suivants :
N° de commune | Nom de la commune | Mètres d’archives | |
2 | Les Gries | 17 | |
4 | Flins | 38 | |
5 | Villers le Lac | 55 | |
6 | Fortin | 70 |
Exercice 4Tirage systématique d’entreprises
On veut sélectionner un échantillon de taille 4 dans une population de 8 entreprises dont on connaît la taille, mesurée en termes d’effectif salarié. L’échantillon est tiré à probabilités proportionnelles à la taille.
Entreprise | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Taille | 300 | 300 | 150 | 100 | 50 | 50 | 25 | 25 |
- Donner les probabilités d'inclusion d’ordre 1 des entreprises.
- Sélectionner l’échantillon selon un tirage systématique en utilisant 0,27 comme nombre aléatoire ;
- Lister les échantillons possibles que l'on peut obtenir avec un tirage systématique, et indiquer les probabilités de tirage de chacun d'eux.
- A partir des échantillons obtenus, donner une estimation du total de l’effectif salarié des entreprises. Le résultat était-il prévisible ?
- Calculer la matrice des probabilités d’inclusion d’ordre 2 ? Commenter.
Exercice 5Tirage de Poisson(d’après P.Ardilly et Y.Tillé, Exercices corrigés de méthode de sondage, Ellipses, 2003)
Lorsqu’on effectue des tirages à probabilités inégales, on utilise en général des méthodes d’échantillonnage de taille fixe. Il existe cependant des algorithmes très simples permettant des tirages à probabilités inégales mais conférant à l’échantillon une taille variable. On s’intéresse ici au tirage de Poisson dont le principe consiste à effectuer une loterie sur chaque individu de la population indépendamment d’un individu à l’autre. Ainsi, pour une population de taille N où les probabilités
d’inclusion individuelles πk sont connues pour tout k, on simule N aléas indépendants dans la loi uniforme sur [0,1] et on retient l’individu k si et seulement si uk ≤ πk
- Vérifier que l’algorithme de tirage respecte les probabilités d’inclusion d’ordre 1 en calculant la probabilité pour que l’individu k soit sélectionné.
- La taille de l’échantillon est une variable aléatoire notée nS .
- Écrire nS en fonction des variables indicatrices de Cornfield.
- Que vaut l’espérance et la variance de nS ?
- Quelle est la probabilité pour que l’échantillon ait une taille au moins égale à 1 ?
On supposera dans la suite que l’échantillon a une taille au moins égale à 1.
a. Vérifier que Y estime le vrai total sans biais.
b. Quelle est la variance de Y ? Comment peut-on l’estimer sans biais ? c. Que valent les probabilités d’inclusion d’ordre 2 ?
4. Comparer à un plan général de taille fixe n de mêmes probabilités d’inclusion. Quelles sont les inconvénients d’un plan de taille non-fixe ?
Table des matières
I. Rappels de probabilités et de statistique inférentielle.............3
Rappels sur les lois de probabilités 5
Rappels sur les intervalles de confiance 7
II. Sondage aléatoire simple ....................11
Rappels sur le sondage aléatoire simple 16
III. Plans à probabilités inégales ......................18
Rappels sur les plans à probabilités inégales 20
IV. TP1 : Simulations de tirage d’échantillons ..................21
V. Plans stratifiés....................24
Rappels sur les plans stratifiés 29
VI. Plans par grappes ......................31
Rappels sur les plans par grappes 35
VII. Plans à plusieurs degrés...................37
Rappels sur les plans à plusieurs degrés 40
VIII. Redressements ........................42
Rappels sur les redressements 44
IX. TP2 : Calage sur marges ....................49
X. TP3 : Correction de la non-réponse.............49
XI. Compléments et révisions..................49