Travaux dirigés en statistique inférentielle
Exercice 1 : Maîtrise Statistique des Procédés
Une entreprise de construction mécanique fabrique de pièces de moteur de voiture pour un grand constructeur automobile. Les exigences du client sont les suivantes : les pièces doivent faire 20cm de diamètre.
Une fois le procédé bien calibré, la fabrication démarre. Le processus est alors supposé, lorsqu’il est en fonctionnement normal, fabriquer des pièces dont le diamètreXsuit une loi normale de moyenne 20cm, et d’écart-type 0.1mm. Nousdirons que le processus est alors en fonctionnement normal.
Afin de suivre le bon déroulement de la fabrication, le contrôleur qualité prélève 5 pièces toutes les heures, en mesure le diamètre et calcule la moyenne des 5 diamètres. Voici les résultats trouvés sur une journée complète de 24h : 19.993, 19.993, 19.994, 19.995, 20.004, 19.985, 19.990, 19.990, 19.996, 19.993, 20.000, 20.006, 19.991, 19.992, 19.995, 19.992, 20.002, 20.002.
Exercice 2 : comparaison des statistiques S2 et V2 pour estimer la variance
Soit X1, . . . , Xn un échantillon de variables aléatoires de loi parente d’espérance µ inconnue et de variance σ2 également inconnue. Considérons les statistiques
Vµ2 = n1!(Xi − µ)2
i=1
Calculer son espérance. Comparer alors les deux estimateurs Vµ2 et S2. 3. Sachant que la variance de V 2 est
V (V 2) = nn−31 [(n − 1)µ4 − (n − 3)σ4],
où µ4 = E[(Xi −µ)4] est le moment centré d’ordre 4, calculer la variance de Vµ2 et S2. Conclure quant au choix d’un estimateur pour σ2 lorsque l’espérance µ est connue.
Exercice 3 : estimation du paramètre d’une loi de Poisson
Une entreprise de vente à distance s’intéresse au nombre de commandes hebdomadaires d’un nouveau modèle de pantalon. On suppose que ce nombre de commandes suit une loi de Poisson de paramètre λ. Un relevé effectué sur 5 semaines choisies au hasard donne les nombres de commandes suivantes : 2, 4, 1, 0, 3.
On veut estimer le paramètre λ en construisant l’estimateur du maximum de vraisemblance.
x2 = 4, x3 = 1, x4 = 0, x5 = 3.
Exercice 4 : Détection de valeurs aberrantes
Soit X1, . . . , Xn un échantillon de fonction de répartition F (x) et de densité f (x). Soit (Y1, . . . , Yn) la version ordonnée croissante de l’échantillon X1, . . . , Xn . Soient Hk(x) et hk(x) les fonctions de répartitions et de densité de Yk.
Soit les deux extrêmes Y1 = inf Xi et Yn = sup Xi.
Parmi les résultats, deux laboratoires ont retourné des mesures plus éloignées que les autres : le laboratoire L1 a mesuré une teneur de 6 mg/l (plus petite de toutes les mesures), et le laboratoire L2 a mesuré une teneur de 13 mg/l (plus grande de toutes les mesures).
Pouvez-vous dire, avec une probabilité de 99%, que ces mesures sont cohérentes où alors s’agit-il de valeurs aberrantes (erreur de saisie, dérèglement de l’appareil de mesure...) ?
Exercice 5 : détermination d’une statistique exhaustive
Soit X une variable aléatoire de loi γ de paramètre θ. La fonction de densité de X est :
fX (x) = Γ(1θ) e−xxθ−1.
1. Montrer que la densité de X peut s’écrire sous la forme
fX (x) = exp[a(x)α(θ) + b(x) + β(θ)]
Une telle densité est dite de la famille exponentielle.
2. En déduire une statistique exhaustive pour le paramètre θ fonction d’un échantillon X1, . . . , Xn.
TD 2 : Estimation par intervalle de confiance
Exercice 1
On a pesé 10 palettes de briques de la même fabrication ; et on a obtenu les résultats suivants (kilogrammes)
759, 750, 755, 756, 761, 765, 770, 752, 760, 767
On admet que ces résultats sont issus d’une population distribuée selon une loi normale d’espérance µ et de variance σ2.
Exercice 2
Le laboratoire SIMTECH, firme d’expertises en contrôle des matériaux, a été mandaté par une société de gérance de projets de construction pour évaluer la qualité d’un mélange bitumineux provenant de deux usines. Il a été convenu d’effectuer une vérification par 115 mètres cubes de béton et d’évaluer la résistance à la compression, à l’âge de 3 jours, sur des cylindres standards. Les résultats de la résistance à la compression en kg/cm2 pour les deux usines se résument comme suit.
Usine 1 | Usine 2 | |
Nombres de cylindres | n1 = 25 | n2 = 23 |
Résistance moyenne de l’échantillon | x¯1 = 90, 6 | x¯2 = 94, 4 |
Variance de l’échantillon | v12 = 65, 42 | v22 = 58, 24 |
On suppose que la résistance à la compression est distribuée normalement quelque soit l’usine de fabrication.
Exercice 3
Lors d’un sondage précédant les élections présidentielles, 500 personnes ont été interrogées. Bien que ce ne soit pas le cas en pratique, on suppose pour simplifier les calculs que les 500 personnes représentent un échantillon indépendant et identiquement distribué de la population française.
Sur les 500 personnes, 150 ont répondu vouloir voter pour le candidat C1, et 140 pour le candidat C2.
Exercice 4
Pour juger de la teneur en magnésium d’une eau minérale, on a effectué 10 mesures :
248 246 246 247 247 249 247 250 248 245 (mg pour 10 litres).
La teneur étudiée est supposée être une variable aléatoire normale d’espérance µ et de variance σ2.
Exercice 5
Une firme nationale de sondages d’opinion a effectué pour le compte d’une compagnie d’assurance, une étude sur les besoins financiers et la satisfaction des clients. Dans la section du questionnaire concernant les fonds communs de placement, on demande aux clients de donner la valeur (en euros) de tous les fonds communs de placement qu’ils possèdent. Voici les résultats pour un échantillon aléatoire de 20 clients :
Fond commun de placement
93850 | 121500 | 166675 | 173000 | 81580 |
172450 | 80515 | 191000 | 105630 | 192100 |
151975 | 148000 | 173400 | 138330 | 142500 |
149660 | 120225 | 149375 | 131170 | 85600 |
On suppose que la valeur actuelle des fonds communs de placement est distribuée normalement.
TD 3 : Tests sur une population
Exercice 1
Une entreprise SupMetal fournit à un client de la région Nord Pas De Calais, l’entreprise LilTech, des supports métalliques. L’entreprise LilTech exige que les supports aient, en moyenne, une longueur de 70mm. Ce support est fabriqué par une machine, mais il y a des petites variations de longueur dans les pièces qu’elle produit. On admet que la longueur des supports est distribuée normalement et que la dispersion de la fabrication est de σ = 3mm. Cette entreprise fournit egalement´ les mêmes pièces à l’entreprise PariTech, concurrent direct de LilTech, mais qui commande de beaucoup plus grandes quantités, et qui exige elle une longueur de 67mm.
Les employés de l’entreprise LilTech ayant souvent des problèmes pour monter ces supports, soupc¸onnent SupMetal de fournir à LilTech les mêmes pièces qu’`a PariTech, afin d’éviter d’avoir à régler la machine à chaque commande de PariTech ou de LilTech. Pour vérifier cela, LilTech prélève un echantillon´ aléatoire de 25 supports. Les mesures obtenues (x1, . . . , x25) ont pour longueur moyenne de x¯ = 68mm.
1. | Formuler les hypothèses d’un test statistique permettant de tester l’honnêtet´ de SupMetal. | |
2. | ´ | , . . . , x25), autrement dit la vraisemblance, sous chaque hypothèse H0 et H1. |
Ecrire la probabilité de l’échantillon (x1 |
Exercice 2
Un ingénieur risque crédit, employ´ dans une sociét´ spécialisée dans le crédit à la consommation, veut vérifier l’hypothèse selon laquelle la valeur moyenne des mensualités de ses clients est de 200 euros. Un echantillon´ aléatoire de 144 clients, prélev´ aléatoirement dans la base de données, donne une valeur moyenne estimée à 193.74 euros et un ecart´-type estim´ à 48.24 euros.
Exercice 3
Pour comparer les proportions de personnes atteintes par la grippe en ville et à la campagne, deux echantillons´ ont eté´ mesur´ :
– sur 100 personnes habitant une grande agglomération, on a observ´ une proportion f0 = 0.24 de sujets ayant eu la grippe,
– sur 80 personnes habitant à la campagne, on a observ´ une proportion f1 = 0.20 de sujets ayant eu la grippe.
Les citadins sont-ils plus atteints par la maladie que les ruraux ? (α = 0.05)
Exercice 4 :
Une machine est réglée pour fabriquer des plaques de chocolats d’un poids ’moyen’ de 250g. Soucieux de ce problème, le service de contrˆole de qualité demande une vérification de la machine. Le poids de 10 plaques de chocolats est observ´. On obtient les mesures suivantes qui vous sont immédiatement transmises :
poids observés 256 245 253 250 295 251 248 247 252 249 Quelle est votre conclusion ?
Exercice 5 :
Une sociét´ de vente à distance demande à l’un de ses ingénieurs marketing de modéliser le nombre d’appels téléphoniques par heure rec¸us sur le standard dédi´ aux commandes, dans le but d’optimiser la taille de celui-ci. Les nombres d’appels, relevés
sur une période de 53 heures, ont et´ les suivants : | ||||||||||
Nb d’appels xi | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 et plus |
Occurence Ni | 1 | 4 | 7 | 11 | 10 | 9 | 5 | 3 | 2 | 1 |
Exercice 6 :
Sur 2000 personnes interrogées dans le Nord, 1040 disent acheter régulièrement des vêtements sur le site internet de VetiLille. Sur 1500 interrogées dans le reste de la France, 615 disent acheter sur ce site. Est-ce que ces résultats permettent de soutenir que ce site séduit autant les habitants du Nord que du reste de la France (risque de 5%) ?
Exercice 7 :
Un ingénieur statisticien d’une sociét´ d’assurance est chargé d’étudier l’impact d’une campagne de publicité réalisée dans 7 régions dans lesquelles la sociét´ est déj`a implantée. Pour ceci, il a extrait de la base de donnée, pour un certain nombre d’agents généraux de chaque région, le nombre de nouveaux clients récoltés :
Région | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
Nb d’agents généraux | 9 | 7 | 7 | 6 | 7 | 6 | 6 |
Nb moyen de nouveaux clients | 26.88 | 22.34 | 19.54 | 18.95 | 27.17 | 25.87 | 25.72 |
Variance du nb de nouveaux clients | 13.54 | 12.59 | 12.87 | 13.42 | 13.17 | 12.56 | 12.64 |
L’ingénieur statisticien décide alors de réaliser une analyse de variance afin de tester si le facteur région a une influence sur le nombre de nouveaux clients récoltés.
On appelle Xki le nombre de nouveaux clients du i-eme` agent général de la région k. Soit nk le nombre d’agents généraux de la région k, et K le nombre de régions (K = 7). Nous supposons que les variables aléatoires Xki sont normales, de moyenne µk et de variance σ.
Le problème consiste donc à tester
H0 : µ1 = . . . = µK = µ contre H1 : ∃1 ≤ i, j ≤ K t.q. µi ≠ µj.
…
TD-TP 4 : Tests sur plusieurs populations
Exercice 1
En prélevant un échantillon (supposé représentatif) de 41 étudiants de Polytech-Lille, on constate que la taille moyenne de cet échantillon est de x¯1 = 1.7m avec un ecart-type de v1 = 8cm. En faisant de même pour un échantillon de 61 étudiants d’une école voisine on trouve une taille moyenne de x¯2 = 1.68 m avec un ecart- type de v1 = 9cm. En supposant que ces deux échantillons sont distribués normalement, peut- on affirmer que les étudiants de ces deux écoles sont semblables (α = 5%) ?
Exercice 2 (R)
On souhaite mesurer l’influence de l’alcool sur le temps de réaction au volant. Sur un échantillon aléatoire de 30 chauffeurs, le temps de réaction a été observé en laboratoire avec et sans consommation d’alcool (les 30 chauffeurs ont été réparti aléatoirement). Les temps de réactions en secondes ont été rapportés dans le tableau suivant :
Sans | 0.68 | 0.64 | 0.68 | 0.82 | 0.58 | 0.80 | 0.72 | 0.65 | 0.84 | 0.73 | 0.65 | 0.59 | 0.78 | 0.67 | 0.65 |
Avec | 0.73 | 0.62 | 0.66 | 0.92 | 0.68 | 0.87 | 0.77 | 0.70 | 0.88 | 0.79 | 0.72 | 0.60 | 0.78 | 0.66 | 0.68 |
Exercice 3 (R)
On désire tester l’effet d’un médicament censé réduire le taux de le cholesterol. On a mesuré le taux de cholesterol (g/l) chez 10 patients, avant la prise de ce médicament, et une semaine après l’avoir pris. Voici les taux obtenus :
Avant | 0.1 | 0.2 | 0.15 | 0.3 | 0.34 | 0.16 | 0.09 | 0.24 | 0.17 | 0.29 |
Après | 0.8 | 0.18 | 0.12 | 0.2 | 0.3 | 0.21 | 0.12 | 0.16 | 0.17 | 0.22 |
Le médicament a-t-il un effet (α = 5%) ?
Exercice 4 (R)
Deux populations de 42 et 50 individus sont utilisées pour étudier un traitement dont on ignore a priori l’effet possible (augmentation ou diminution de performances). Les mesures sont faites indépendamment les unes des autres,
Classement | mauvais | moyen | bon | excellent |
et sont réparties en quatre classes : Groupe traité | 4 | 6 | 17 | 15 |
Groupe contrôle | 10 | 13 | 16 | 11 |
TP 1 : Statistique Exploratoire
1Préliminaires et indications
Avant tout, veuillez lire attentivement l’introduction au logiciel SAS qui vous a été distribuée.
Connexion Connectez-vous sur vos comptes sous environnement LINUX.
Loguez-vous sur weppes par l’instruction : ssh -X weppes.studserv.deule.net
Une fois connecté, lancez SAS par l’instruction : /usr/local/SAS/SASFoundation/9.2/sas
Répertoires Créer sur votre compte un répertoire TP_Stat_SAS.
Dans ce répertoire, créer 3 sous-répertoires : librairies, donnees, programmes. Vous enregistrerez vos programmes SAS en .sas dans le dossier programmes, vos fichiers de données (.dat ) dans donnees. Suivez la note d’introduction à SAS pour créer une librairie dans laquelle vous enregistrerez les tables que nous utiliserons dans ce TP.
Exécution différé Il est possible d’exécuter des programmes SAS sans ouvrir le logiciel SAS. Cela peut êtreutile notamment lorsque les programmes nécessitent un temps d’exécution long. En pratique, cela diminue aussi les ressources demandées à l’ordinateur pour gérer l’affichage graphique des différentes fenêtres SAS.
Pour cela, il suffit d’enregistrer votre programme sous le nom mon_prog.sas, et de lancer son exécution à l’aide de la commande suivante dans un terminal :
/usr/local/SAS/SASFoundation/9.2/sas mon_prog.sas -fsdevice x11.motif
A noter qu’il est nécessaire de s’être au préalable loguer sur le serveur weppes.
Les résultats sont alors regroupés dans un fichier mon_prog.lst tandis que le compte-rendu de l’exécution ainsi que les messages d’erreurs se trouvent dans le fichier mon_prog.log.
Consignes
– Chaque exercice devra faire l’objet de l’écriture d’un programme SAS. Pensez à toujours avoir un éditeur de texte dans lequel vous écrivez et sauvez votre code, que vous transférez ensuite à l’éditeur SAS par copier/coller.
– Vous rédigerez un compte rendu détaillé de votre TP, sous Open Office, en incluant vos programmes SAS commenté, les résultats, vos interprétations et commentaires.
2Exercices de statistique exploratoire
Les jeux de données étudiés sont disponibles sur http ://math.univ-lille1.fr/∼jacques/
Exercice 1 : Manipulation de données
La procédure sql en SAS permet de gérer les bases de données à l’aide du langage SQL. Même si ce n’est pas la seule possibilité pour faire cet exercice, son utilisation est conseillée.
Rencontrez-vous des problèmes dans cette étape ? Pourquoi ?
Exercice 2 : Statistiques descriptives, premiers graphiques
Récupérez le fichier de données Employes.dat. Ce fichier contient pour 12 employés d’une entreprise, le numéro d’identification, l’âge, le sexe, le salaire annuel en euro, l’ancienneté et la situation familiale.
4. Représenter le salaire en fonction de l’ancienneté (proc plot) en différenciant les hommes et les femmes, puis les célibataires des mariés. Ce graphique vous suggère-t-il une constatation ?
Exercice 3 : Analyse d’un jeu de données bancaires
Le jeu de données GermanCredit.data comporte des renseignements sur 1000 clients d’une banque allemande, chaque client étant décrit par 20 variables.
Exercice 4 : Simulation de Monte-Carlo (logiciel R)
On cherche dans cet exercice à approcher l’intégrale I = de Monte-Carlo (vue en TD de probabilité). Soit X1, . . . , Xn! 2x2
0 e−2 dx. Pour cela nous utilisons une méthode
un échantillon de variables aléatoires uniformes sur
[0, 2], et soit Yi = e− X2 i2 pour tout i = 1, n.
1. Quelle est la limite, au sens de la convergence en probabilité, de Y¯n = n1 n"i=1 Yi lorsque n → ∞?
Exercice 5 : Calcul de vraisemblance (logiciel R)
TP 2 : Estimation et tests
Exercice 1 (SAS): Test sur l’espérance
On cherche à estimer le temps d’attente moyen au guichet d’une grande banque aux heures de forte affluence. On a observé 26 clients choisis au hasard et on a obtenu les temps d’attente suivants: 6,1; 4,7; 5,6; 4,5; 5,5; 6,8; 2,1; 2,1; 3,5; 2,5; 6,7; 4,4; 4,5; 6,5; 4,9; 3,8; 2,5; 4,0; 6,5; 5,6; 2,7; 3,4; 5,6; 3,5; 4,8; 4,4
On suppose que ces temps d’attente sont distribués normalement.
Peut-on affirmer au risque α = 5% que le temps moyen d’attente au guichet est égal à 4 minutes ?
Indication : dans les options de la procédure means, il faut indiquer t pour indiquer que l’on veut calculer la statistique du test de Student de nullité de la moyenne, et prt pour calculer la p-value relative à ce test.
Exercice 2 (R): Estimation de densité
Exercice 3 (R): Puissance de test
…
Programmer cette fonction puissance.
Exercice 4 (R): Calcul du nombre de sujets pour atteindre une puissance de test
On considère le test H0 : µ = µ0 contre H1 : µ = µ0 + δ. On suppose σ = 0.5.
Exercice 5 (SAS et R): Test de l’aléatoire d’un échantillon et d’adéquation à une loi donnée
Dans l’exercice 1, nous avons supposé que les temps d’attente au guichet de la banque sont distribués normale-ment.
Travaux pratiques de Statistiques Inférentielles sous SAS et R - GIS 3
TP 3 : Tests
Exercice 1 (SAS): Tests de comparaisons moyenne et variance
Afin de sélectionner des candidats qui ont postulé à un emploi, le directeur d’une entreprise a fait passer un test d’aptitude aux candidats, et il a noté le temps (en minutes) nécessaire à chacun des candidats pour répondre au test. Parmi les 27 candidats, 15 étaient des hommes et 12 des femmes. Les résultats obtenus sont les suivants:
Hommes | 8,6 | 10,9 | 7,3 | 9,2 | 8,5 | 9,2 | 9,1 | 8,9 | 10,7 | 8,2 | 7,1 | 9,4 | 8,3 | 9,7 | 9,2 |
Femmes | 8,3 | 7,2 | 8,7 | 6,7 | 10,3 | 6,8 | 9,8 | 8,9 | 9,6 | 8,6 | 6,7 | 7,5 |
Nous supposons que les temps de réponse sont distribués normalement.
Indication : utiliser la procédure ttest (α= 5%).
Exercice 2 (SAS): Test d’indépendance de variables qualitatives
Sur 2000 personnes interrogées dans le Nord, 1040 disent acheter la marque de dentifrice X. Sur 1500 interrogées dans le reste de la France, 615 disent acheter la marque X.
Est-ce que ces résultats permettent de soutenir que les parts de marché de la marque X sont les mêmes dans le Nord que dans le reste de la France, au seuil de risque de 5%?
Indication : une solution peut être d’utiliser un test d’indépendance du χ2 entre les deux variables région et achat. Ceci peut être réalisé à l’aide de la procédure freq .
Exercice 3 (SAS ou R): ANOVA
Le fichier orge.dat contient les valeurs de rendements de six engrais azotés pour 4 types de sols (dans l’ordre traite-ment, bloc, rendement). Les engrais sont les suivants :
1 : (NH4)2 SO2, 2 : NH4NO3, 3 : CO(NH2)2, 4 : CA(NO3)2, 5 : NaNO3, 6 : Rien.
Exercice 4 (SAS)
Récupérer le fichier GermanCredit.data.
En s’inspirant des méthodes statistiques vues en cours, répondre aux questions suivantes en justifiant et illustrant vos réponses :