Manuel sur la statistique echantillonnage
Manuel sur la statistique échantillonnage
INTRODUCTION
Pour évaluer les programmes de Sécurité Alimentaire, et en premier lieu pour cibler les populations vulnérables auprès desquelles venir en aide, il convient de mener différentes enquêtes sur le terrain, auprès des populations, pour récolter des informations spécifiques (production, consommation, dépenses, …) au niveau national, régional, local et familial.
Un recensement de l’ensemble de la population concernée est la plupart du temps irréalisable. Bien souvent la population est trop vaste pour être enquêtée dans sa totalité (ex : camps de 100 000 réfugiés), s’ajoutent aussi les moyens limités (ex : nombre d’enquêteurs restreints, zones enclavées), et le manque de temps (le temps consacré aux enquêtes chez ACF varie entre 24h et 4 semaines).
Dans de tels cas, les enquêtes de sondage permettent d'obtenir des informations sur une population en n'interrogeant qu'une fraction de celle-ci, l’échantillon. Plus celui-ci ressemble à la population d’étude, plus il est possible d’extrapoler à cette population les résultats obtenus pour l’échantillon.
Le graphique suivant illustre le principe employé pour ce faire :
Pour effectuer des enquêtes par sondage appréciées pour leurs données détaillées, leur précision et leur représentativité, il convient de sélectionner soigneusement l’échantillon d’étude. Cette étape est primordiale pour être en mesure d’interpréter les résultats de l’étude sur l’échantillon au niveau de la population totale. Il s’agit tout d’abord d’opter pour la technique d’échantillonnage la plus adaptée compte tenu des objectifs majeurs de l’étude menée, des caractéristiques de la population d’étude (taille, groupes différenciés), ainsi que des contraintes rencontrées sur le terrain. Au delà de cette notion de « représentativité », le principe de l’échantillonnage implique que tous les individus ou « unités » de la population considérée doivent avoir, au mieux, la même probabilité de faire partie de l’échantillon choisi, du moins, une probabilité connue.
Le présent module décrit précisément la méthodologie à adopter et propose des outils répondant à de nombreuses questions liées au thème de l’échantillonnage, tant au niveau pratique que technique.
QU’EST-CE QU’UN ECHANTILLON REPRESENTATIF ?
La notion d’échantillon étant associée à la fiabilité des résultats obtenus, celui ci doit posséder les mêmes caractéristiques que la population que l’on souhaite étudier, c'est-à-dire permette d'estimer avec une marge d'erreur acceptable les caractéristiques de la population qui nous intéressent à partir des résultats de l’analyse de celles de l’échantillon. On parle alors d’ « échantillon représentatif » de la population d’étude. Il va de soi que la précision de cette estimation nommée « inférence » dépendra de la diversité et de la ressemblance de la population composant l’échantillon proportionnellement à la population totale au niveau géographique, social, démographique, « agro-économique », etc...
Il conviendra donc de déterminer au préalable les caractéristiques1 essentielles de la population, selon les intérêts de l’évaluation menée, pour s’assurer d’obtenir un échantillon dit « représentatif ».
La figure suivante schématise le principe pour l’obtention d’un échantillon représentatif. Sur le schéma introductif (p.2) , l’échantillon était simplement une réduction de la population, tirée au hasard. Désormais, la population est scindée en amont en plusieurs sous-groupes, selon les caractéristiques intéressantes pour les besoins de l’étude, et l’échantillon respecte cette répartition de la population par sous-groupes.
Pour mieux comprendre l’intérêt de choisir un échantillon représentatif, penchons nous sur les deux exemples suivants. Le premier présente les trois principales techniques d’échantillonnage utilisées sur le terrain, le second se focalisera sur la plus-value opérationnelle de la technique dite de stratification.
Exemple 1 : Nous désirons déterminer la production moyenne de riz dans les fermes d’une région ravagée par une inondation, faisant l’objet d’une action de distribution de kit Seeds&Tools initiée par ACF, à partir d'un échantillon de 10 fermes. La production moyenne pour la population totale des 86 fermes, est de 0.75 tonnes par hectares (T/HA). Il est aussi connu que les fermes du Sud produisent plus de riz que celles du Nord.
Dans un souci d’équité, sachant que les exploitations du sud produisent en général plus de riz que celles du nord, nous choisissons de construire un échantillon contenant autant de fermes du Sud que de fermes du Nord, soit 5 exploitations de chacune de ces régions au hasard:
Guide Méthodologique : Enquêtes de terrain - 3 - Sécurité Alimentaire
1.3, 2.9, 1.5, 2.2, 0.6, 0.36, 0.7, 0.26, 0.36, 0.98
Module 1 Echantillonnage
La production moyenne de cet échantillon de 10 fermes est de 1.5 T/HA, soit 0.75 T/HA (i.e. +100%) de plus que la valeur exacte ! Cette technique intuitive ne semble donc pas être la plus appropriée.
Nous savons que l’ensemble des 86 fermes de l’étude est réparti géographiquement comme suit : 69 au Nord , 17 au Sud.
Sachant que les fermes du Sud produisent plus que celles du Nord, l’échantillon a été biaisé en faveur des fermes du Sud. En effet chaque ferme du Sud avait 5 chances sur 17 (soit une probabilité de 5/17=0.27) de faire partie de l’échantillon, tandis que chaque ferme du Nord avait 5 chances sur 69 (soit une probabilité de 5/69=0.07) d’être choisie. Il n’est donc pas surprenant d’obtenir une production moyenne trop élevée à partir de cet échantillon.
La technique appropriée pour que chaque ferme ait la même probabilité (p=10/86=0.12) d’appartenir à l’échantillon est de choisir 10 fermes au hasard, sans considération géographique (Nord/Sud).
Un tel tirage au hasard à donné les mesures de production suivantes (en T/HA):
Tirage 1 :
La moyenne pour cet échantillon est de 1.12 T/HA ; elle est plus proche de la valeur réelle (+0.37) que pour le premier échantillon. Néanmoins, la moyenne aurait pu être totalement différente (moyenne plus élevée, moyenne plus proche de la valeur réelle, moyenne plus faible), si l’échantillon tiré avait été différent (cf trois tirages suivants) :
Tirage 2 : 1.3, 2.9, 1.5, 2.2, 0.6, 0.36, 0.7, 4.2, 0.36, 0.98 -> moyenne : 1.51
Tirage 3 : 0.36, 0.5, 1.5, 0.19, 2.3, 0.23, 0.5, 0.56, 0.27, 0.98 -> moyenne : 0.74
Tirage 4 : 0.36, 0.5, 1.5, 0.19, 0.3, 0.23, 0.5, 0.56, 0.27, 0.98 -> moyenne : 0.54
Les échantillons obtenus par tirage aléatoire simple étant très petits, le hasard peut donner des estimations très différentes les unes des autres et parfois très éloignées du résultats réel, même lorsqu’une seule valeur diffère. On parlera de variance élevée (cf chapitre sur l’échantillonnage aléatoire simple). Ce phénomène de variabilité est beaucoup moins important pour des échantillons de grande taille.
Une autre technique, donnant toujours à chaque ferme la même probabilité d’être choisie, est de s’assurer que l’échantillon soit fidèle à la répartition en catégories observée dans la population totale, relativement à la production de riz dans notre cas précis. La localisation géographique et la production de riz des fermes étant intimement liées (production plus élevée au Sud), nous allons effectuer un tirage aléatoire dans chacune des deux sous populations des fermes (Sud et Nord) comme suit :
- 20% des fermes sont au Sud : nous choisissons 20%*10, soit 2 fermes parmi les 17 fermes du Sud
- 80% des fermes sont au Nord : nous choisissons 80%*10, soit 8 fermes parmi les 69 fermes du Nord
Cette technique dite de stratification, respecte le principe que chaque ferme a la même probabilité d’être choisie pour faire partie de l’échantillon (p=2/17=0.12 au Sud et p=8/69=0.12 au Nord) :
1 La nature de ces caractéristiques sera définie dans la partie « 1ère étape : POPULATION D’ETUDE »
La moyenne pour cet échantillon est de 0.89 T/HA ; c’est la valeur la plus proche de la valeur réelle (+0.14) comparativement aux deux premiers échantillons tirés auparavant. Cette amélioration s’explique par le fait que la stratification réduit le risque d’erreur d’échantillonnage, i.e. elle empêche les combinaisons « extrêmes » qui peuvent être obtenues par un tirage aléatoire simple (trop de fermes du Sud ou trop de fermes du Nord qui biaisent le résultat lors du calcul de la moyenne, car les fermes du Sud produisent plus que celles du Nord).
Le second exemple qui suit illustre à nouveau le bénéfice d’utiliser la stratification, notamment lorsque la taille de l’échantillon est petite:
Exemple 2 : Imaginons maintenant que nous cherchons à estimer la moyenne de production de riz dans 4 fermes distinctes, 2 étant situées dans le Sud, deux autres dans le Nord. Des contraintes de temps nous empêchent de nous rendre dans ces 4 fermes, nous devons donc nous contenter de deux d’entre elles. Voici les informations dont nous disposons sur ces 4 fermes :
Quelle est la technique d’échantillonnage à adopter compte tenu des contraintes de l’enquête ?
La méthode de tirage aléatoire simple donne la même probabilité à chaque ferme d’être choisie parmi les quatre de notre population d’étude (p=2/4=1/2). Les combinaisons possibles, au nombre de 6, sont les suivantes :
La moyenne des 6 tirages aléatoires simples donne la vraie valeur de la production moyenne (1.3T/HA). On remarque ici que les moyennes associées aux 6 tirages sont très dispersées (moyenne allant de 0.45 à 2.15). De plus, les productions dans chacune des deux régions retenues ici sont très différentes entre elles (production moyenne élevée au Sud=2.15, production moyenne faible au Nord=0.45), mais très homogènes en leur sein.
Si l’on se rend dans deux fermes d’une même région, la production moyenne associée sera très éloignée de la production moyenne réelle, compte tenu du fait que les comportements en terme de production diffèrent énormément d’une région à l’autre. Ces combinaisons « extrêmes » sont au nombre de 2 (Tirages 1 et 6) , i.e. il y a une chance sur trois (2/6) d’obtenir une estimation biaisée de la moyenne.
L’échantillon aléatoire simple peut donc se révéler peu précis quand il existe des groupes fortement différenciés dans la population. Cela est d’autant plus vrai lorsque la taille de l’échantillon est petite.
La méthode de stratification, tenant compte de l’effet « région » (en terme de production), donne également à chaque ferme du Sud (p=1/2) et chaque ferme du Nord (p=1/2) la même probabilité d’être choisie. Les 4 combinaisons possibles sont les suivantes :
Ici encore, la moyenne des 4 tirages donne la vraie valeur de la production moyenne (1.3T/HA), mais désormais, les moyennes associées aux 4 tirages sont très rapprochées (moyenne allant de 1.2 à 1.4). Cela est lié au fait que l’on effectue un tirage aléatoire dans chacune des catégories retenues (une ferme dans le Sud, une autre dans le Nord), empêchant ainsi la possibilité de combinaisons « extrêmes » (deux fermes d’une même région).
Cette méthode est d’autant plus efficace que la population est composée de sous-groupes très hétérogènes entre eux et très homogènes en leur sein, toute la difficulté résidant dans le choix des variables d’intérêt2 entrant dans la construction de ces sous-groupes.
Notons que cette technique est à privilégier, surtout lorsque la taille de l’échantillon est petite, mais elle nécessite deux conditions majeurs :
- l’objectif de l’étude est bien établi (ici, calcul de la production de riz),
- vous disposez de variables d’intérêt chiffrées (proportion de la répartition géographique Nord/Sud) qui sont suffisamment discriminantes relativement à l’objet de l’étude (les fermes du Sud produisent plus que les fermes du Nord).
Le choix de l’échantillon influe sur la qualité des résultats finaux du travail d’enquête. Si votre méthode d’échantillonnage est biaisée ou votre échantillon est trop restreint, vos estimations imputées à la population totale risquent d’être elles aussi biaisées et ainsi mener à des interprétations erronées et de mauvais ciblages. Pour minimiser ces risques vous aurez besoin d’ outils statistiques pour déterminer la représentativité de vos données et la fiabilité de l’information résultant de vos études.
La suite du document vous fournit ces outils et décrit la méthodologie à adopter pour l’obtention de l’échantillon optimum compte tenu des contraintes de terrain rencontrées, de la prise en compte des objectifs, à la définition de la population d’étude et de la taille de l’échantillon, en passant par le choix de la méthode d’échantillonnage adaptée, pour finir par le type de tirage aléatoire pour lequel opter.
Les questions essentielles devant être posées lors de ce processus sont :
- quelle est la population ciblée pour cette enquête et pourquoi ces données sont-elles collectées ?
- quels sont les intérêts de l’étude menée ?
- quel est l’échantillon représentatif choisi ?
A noter que les premières étapes nécessaires lors du processus d’échantillonnage sont également indispensables lors de la phase d’élaboration des questionnaires d’enquête (cf module 2) ; les effectuer avec rigueur permettra donc de gagner du temps (et de l’énergie !) dans le processus d’enquête.
Pour faciliter la compréhension de la méthodologie d’échantillonnage avancée, nous allons nous appuyer sur le cas pratique suivant que l’on traitera au fur et à mesure des étapes abordées.
CAS PRATIQUE
La zone d’action ACF considérée est composée de deux villages (A et B) à vocation pastorale (élevage de chameaux, vaches) et semi-pastorale (culture du sorgho et du maïs). Le bétail et la production animale sont les principales sources de revenu, dont le niveau est conditionné par les deux principales ressources naturelles que sont le pâturage et l’eau. La culture de sorgho et de maïs, irriguée par les eaux de pluie, permet des revenus complémentaires. Dans cette zone, le bétail et les conditions de vie sont affectés par des variations climatiques saisonnières qui, couplées avec des conditions politiques et démographiques difficiles, ont des conséquences humanitaires sérieuses et durables sur la population de fermiers, installant une situation d’urgence depuis quelques années : ils modifient leurs habitudes de migrations qui deviennent anarchiques, créant parfois des conflits, et amenuisent les ressources et revenus.
Une étude de la situation a permis de dégager les 4 problèmes majeurs auxquels la population de fermiers est confrontée :
- des variations considérables des ressources naturelles, saisonnières et spatiales (vagues de périodes de grandes sécheresses empêchant le pâturage de se renouveler, augmentant la vulnérabilité du bétail face à la maladie et empêchant la culture de sorgho et de maïs)
- un contexte politique instable (conflits armés qui durent depuis 20 ans et affectent les conditions de vie, ayant obligé jadis, certaines familles à se retrancher dans des camps de réfugiés)
- une augmentation de la densité de la population (causée par le retour des familles de réfugiés et l’assistance accrue en terme d’aide alimentaire)
- des capacités limitées pour faire face à ces changements (Pour faire face aux contraintes naturelles, les bergers sont forcés de se déplacer avec leurs troupeaux à la recherche de pâturage et d’eau ; seule la culture de sorgho et de maïs permet des revenus supplémentaires, mais les deux systèmes agricoles utilisés sont soit hasardeux compte tenu de la tendance à la sécheresse (irrigation par les eaux de pluie) soit peu rentables compte tenu des contraintes techniques et environnementales (pas de bon systèmes d’irrigation des eaux issues des inondations)).
Parmi les 18000 fermiers cultivant les céréales le long de la rivière , trois sous-catégories ont été répertoriées : Foyers agropastoraux de longue date: fermage, culture et élevage depuis longtemps
Anciens réfugiés : Essayent de combiner fermage et élevage
Pasteurs destitués : fermage pour retrouver des ressources suffisantes de bétail pour faire face à la sécheresse
Beaucoup de contraintes empêchent la population agricole d’optimiser ses ressources et l’adaptation aux incidents climatiques récurrents :
- Un service de santé animale efficace et peu coûteux, mais inexploité (les pasteurs continuent à soigner leur bétail tous seuls)
- Un faible pouvoir commercial des fermiers lié à la forte variation des prix des récoltes qui oblige les fermiers à adhérer au système de crédit (ils empruntent de l’argent lorsque le sorgho commence à pousser, le prix de la nourriture étant haut à cette période, et doivent rembourser au moment des récoltes, lorsque le prix de la nourriture est au plus bas. Les plus vulnérables sont endettés sur plusieurs années.
- la culture irriguée par les eaux des inondations fait face à des contraintes techniques et d’organisation (travail intensif, semences et insectes, invasion de mauvaises herbes)
Les recommandations exprimées après l’étude préalable sont synthétisées dans la Matrice du Cadre Logique (Logical Framework Matrix). Ainsi, pour permettre d’améliorer la résistance à la sécheresse de populations pastorales et agropastorales dans les deux zones, les deux objectifs assignés au projet sont les suivants :
1- Soutien des foyers en augmentant la valeur des céréales produites par le biais d’un service de Banque de Céréales (sans déranger ou concurrencer le traditionnel système de crédit qui fait partie des mécanismes d’adaptation). Pour cela ACF s’assurera que l’action soit menée à petite échelle et cible les plus vulnérables.
2- Travail d’irrigation des terres par le biais d’une aide de Cash For Work qui aura un double impact :développer un système d’irrigation bénéficiant à la communauté et aider pécuniairement les plus vulnérables, en échange de main d’œuvre. Ces derniers, endettés, pourront ainsi rembourser leurs crédits.
Décrire, vérifier, comprendre et projeter : avoir recours à des données issues d’une enquête de terrain ne signifie pas s’intéresser à l'échantillon lui-même, mais à ce qu'il est possible d'apprendre à partir de l'enquête et à la façon dont on peut appliquer cette information à l'ensemble de la population.
La plupart des programme d’aide ACF font l’objet d’enquêtes de terrain pour récolter des informations soit pour déterminer la population bénéficiaire, soit pour suivre l’impact de l’aide apportée. Dans les deux cas, et avant même de déployer une opération de terrain grandeur nature, il est important de bien cerner les objectifs du projet pour mener à bien ces enquêtes complémentaires.
La plupart du temps, des documents issus d’une première évaluation de la situation et une programmation établie sont disponibles et recèlent d’informations importantes sur les raisons du déploiement de l’aide, sa nature et ses objectifs, les critères de vulnérabilité, la définition et la taille des populations ciblées, etc...
Le responsable sur le terrain, qui est le plus apte à juger des conditions sur place, doit donc s’approprier les résultats de cette première évaluation et capitaliser les informations contextuelles disponibles pour amorcer sa réflexion sur la justification, les objectifs et les modalités de l’enquête à mettre en œuvre.
Justification de l’enquête
La décision de mener une enquête intervient lorsqu’il y a nécessité de récolter des informations supplémentaires non disponibles. Mettre en œuvre une enquête implique une mobilisation de temps et de ressources humaines et financières importantes. Il faut donc s’assurer que l’information recherchée apporte une réelle valeur ajoutée pour l’avancement du projet. Trois types de raisons sont avancées pour justifier le besoin d’une enquête de terrain dans le cadre des programmes ACF:
- Avant l’aide : déterminer les caractéristiques des populations vulnérables lorsque la situation de crise alimentaire est observée. Ce type d’enquête répond essentiellement aux questions « où ? » , « qui ? », « combien ? ».
Ex : zones dans lesquels une inondation, une sécheresse un embargo ont été signalés, mais les répercussions alimentaires ne sont pas connues ; il est visible que les enfants d’une zone sont malnutris, mais l’âge et le poids critiques ne sont pas connus ; identifier le besoins et la taille des terres des fermiers dont les semences ont été ravagées pour la distribution de kits Seeds&Tools…
- Juste après la distribution : vérifier que l’aide bénéficie effectivement aux populations ciblées.
Ex : les bénéficiaires d’une distribution de nourriture sont bien les enfants ciblés et non des adultes ; les compléments de vitamines n’ont pas été revendus au marché ; les kits de semence n’ont pas été volés ou échangés contre d’autres articles…
- Après l’aide :étudier l’impact de l’aide apportée et le qualifier/quantifier. Ce sont les résultats de l’action menée, donc indisponibles dans des documents ou base de données anciennes.
Ex : évolution des caractéristiques de santé des enfants bénéficiaires d’une distribution de nourriture; utilisation correcte et régulière des compléments de vitamines et évolution de la santé des populations bénéficiaires ; utilisation optimale des kits de semence, quantité de récoltes et de revenus correspondants …
Cas pratique : Deux phases d’enquête et d’échantillonnage distinctes seront nécessaires :
: Identification. Il s’agit de détecter les caractéristiques des fermiers les plus vulnérables qui bénéficieront de
l’aide.
: Suivi/évaluation. Il s’agit de surveiller l’ impact de l’aide apportée aux fermiers bénéficiaires et s’assurer de l’atteinte des objectifs du projet.
Objectifs de l’enquête
L’enquête doit permettre de compléter les données secondaires déjà disponibles (et exploitées) avec de nouvelles données (primaires), en récoltant des informations utiles à la mise en place du programme en cours, auprès d’un échantillon de la population, Plusieurs types de programmes sont développés par le département de Sécurité Alimentaire d’ACF (cf documents de capitalisation et PAD pour plus de détails). Ils ont l’objectif principal d’améliorer les conditions alimentaires des populations vulnérables et des objectifs propres à chacun d’entre eux, très diversifiés.
Ex : délivrer la quantité de semence adéquate aux catégories d’agriculteurs dont les récoltes ont été dévastées par une inondation ; effectuer une distribution de vitamines auprès d’enfants malnutris ;distribuer des kits de pêche aux pêcheurs les plus sinistrés par un tsunami pour permettre la relance de l’activité dans la région…
Cas pratique : Les objectifs particuliers du projet sont :
* d’améliorer la résistance à la sécheresse de populations pastorales et agropastorales dans les deux villages d’étude A et B. L’action est ciblée sur les pasteurs les plus vulnérables cultivant les céréales le long de la rivière. L’indicateur le plus pertinent
pour déterminer le niveau de vulnérabilité semble être la taille du cheptel qui, lorsqu’elle est petite, oblige les fermiers à augmenter leurs activités de culture pour subvenir à leurs besoins. Les actions à déployer sont :
- installer un service de Banque de Céréales qui permettra d’augmenter la valeur marchande des céréales
- proposer un système d’aide Cash for Work pour effectuer des travaux d’irrigation pour les cultures tout en permettant aux plus démunis de gagner de l’argent qui leur permettra de rembourser leurs dettes et d’améliorer leur condition alimentaire.
* de vérifier qu’il s’agit d’une action efficace pour augmenter les revenus des fermiers (une étude similaire a permis d’estimer la hausse de revenu liée à ce type d’aide à environ +30%).
* de proposer d’étendre ce type d’aide à d’autres populations similaires si elle s’avère efficace
Les objectifs de l’enquête doivent répondre aux objectifs du programme. Selon l’état d’avancement du projet, les objectifs de l’enquête sont différents si l’on effectue le ciblage des populations vulnérables et/ou le suivi des actions d’aide en cours :
- Avant l’aide : « définir » : (a) les caractéristiques particulières qui définissent la population vulnérable, (b) des sous-groupes spécifiques dans cette population cible qui feront l’objet d’aides diversifiées.
Ex : trouver les facteurs communs aux populations pâtissant le plus des effets d’une inondation, d’ une sécheresse ou d’un embargo en terme de sécurité alimentaire, mais les répercussions alimentaires ne sont pas connues ; il est visible que les enfants d’une zone sont malnutris, mais l’âge et le poids critiques ne sont pas connus ;
- Juste après la distribution : « vérifier » : savoir si les quantités ont été respectées selon le plan établi et si l’aide n’est pas détournée ou utilisée à mauvais escient.
Ex : distribution de nourriture : les bénéficiaires sont bien les enfants ciblés et non des adultes ; les compléments de vitamines n’ont pas été revendus au marché ; les kits de semence n’ont pas été volés ou échangés contre d’autres articles…
- Après l’aide : « comprendre/projeter » : étudier l’impact de l’aide apportée, auprès d’un échantillon, la qualifier/quantifier, pour l’extrapoler à la population et être en mesure de rectifier ou implémenter les actions menées, selon
Ex : évolution des caractéristiques de santé des enfants bénéficiaires d’une distribution de nourriture; utilisation correcte et régulière des compléments de vitamines et évolution de la santé des populations bénéficiaires ; utilisation optimale des kits de semence, quantité de récoltes et de revenus correspondants …
Cas pratique : Les objectifs des enquêtes sont donc de :
: Identification. Définir la population vulnérable. Le Cette enquête permettra donc de :
- s’assurer que les critères sont pertinents et déterminer un seuil pour discriminer les plus vulnérables
- déterminer le nombre exact de vulnérables et les identifier selon les critères de sélection validés
: Suivi/évaluation. Effectuer le suivi de l’aide apporté. L’enquête menée doit permettre de :
- s’assurer de la bonne implémentation de l’aide apportée et la rectifier sinon
- savoir si l’augmentation de 30% des revenus escomptée est effective une fois l’aide déployée
- savoir si la combinaison CW+BC est plus efficiente que l’action unique de CW
Modalités d’enquête
Le type d’enquête mise en place dépend en grande partie des contraintes rencontrées sur place. Les outils permettant de déterminer ces modalités d’exécution sont délivrés en PAD et sont résumés dans le module introductif de ce guide (cf. Introduction, partie 2, page 5 et tableau en annexe). Il existe deux types d’enquêtes, les enquêtes rapides et les enquêtes auprès d’un échantillon représentatif (assessments).
Informations récoltées : qualitatives
Lorsque nous sommes dans une situation d’urgence, c’est le seul moyen d’obtenir rapidement de l’information supplémentaire avant de lancer l’action d’aide compte tenu des contraintes observées (manque de temps, de moyens, zones inaccessibles…). C’est à l’issu de ces entretiens que l’on prendra les décisions concernant l’action à mener. Il est donc essentiel de bien organiser ces entrevues pour récolter les informations les plus pertinentes (cf module 3 : Opérations de terrain, partie XX).
Lorsque l’objectif est de décrire une population ou une situation, on fait parfois appel à une pré-enquête rapide pour améliorer la qualité de l’enquête de terrain à venir. Il s’agit là de définir des caractéristiques qui différencient les populations vulnérables des autres populations, et des caractéristiques qui différencient les vulnérables entre eux, en terme de comportement en sécurité alimentaire. A la fin des entretiens, l’enquêteur est capable de catégoriser la population en quelques sous-groupes distincts (jamais plus de dix) différenciés par deux ou trois indicateurs clés (cf partie suivante : zonage/typologie). Ce travail de synthèse sera très utile pour la suite et facilitera le choix de l’échantillon à enquêter.
Interlocuteurs : population d’étude ou échantillon représentatif de celle-ci Informations récoltées : quantitatives et qualitatives
Les enquêtes par sondage sont nécessaires lorsque nous voulons analyser plus finement les comportements d’une population face à un événement (ex : mécanismes d’adaptation développées au sein d’une population de pêcheurs dont les pirogues ont été détruites par un ouragan ->crédit pour reprendre l’activité ? petits commerces ? envoi des enfants dans la famille ? autres ?), ou étudier l’impact d’une action déployée par ACF (ex : les récoltes des fermiers ayant reçu des kits Seeds&Tools permettent-elles d’améliorer leur condition alimentaire (consommation personnelle et/ou vente) ? ; la distribution de compléments vitaminés au sein des familles les plus vulnérables permet-elle une amélioration de leur condition alimentaire (regain de poids, moins de maladies) ?). Ce processus d’enquête par sondage est beaucoup plus lourd que l’enquête rapide, mais les données récoltées sont plus nombreuses, plus précises et informatisées ce qui permet des analyses statistiques poussées. Il convient donc de réfléchir au niveau de précision des informations que l’on désire recueillir, pour ne pas se lancer inutilement dans une enquête de grand envergure.
Cas pratique : Le type d’enquêtes menées dans notre cas seront :
: Identification : Enquête rapide auprès d’informateurs clés et de groupes de personnes pour s’informer sur les effectifs de bétail (combien pour les plus vulnérables, combien pour les autres,…), sur la force de travail disponible pour les actions de CW et d’autre informations utiles pour la mise en place de l’aide.
: Suivi/évaluation : Enquête par sondage auprès d’un échantillon représentatif des bénéficiaires du programme par le biais de questionnaire. Ce type d’enquête nécessite la mise en place du processus entier d’enquête de terrain décrit dans le présent guide.
Dans le cas d’un sondage, lorsque la population est trop grande (>1000), il est d’usage d’enquêter un échantillon représentatif de celle ci. Il doit être le plus représentatif possible de la population ciblée pour garantir l’obtention d’analyses et d’interprétations valables. L’étape suivante permet d’étudier les caractéristiques la population d’étude et ainsi établir un échantillon à l’image de son « modèle ».
2ème étape :
DEFINITION DE LA POPULATION
La connaissance de la population de référence est primordiale pour établir le plan d’échantillonnage optimal, garant de la qualité des analyses menées.
La population d’étude
Une population peut être générale ou très restreinte, passant d’une définition large (ex : tous les pêcheurs d’un pays; l’ensemble des fermes de la région étudiée ; la population totale d’un camp de réfugiés) à une définition parfois très précise(ex : les pêcheurs d’une région particulière dévastée par un cyclone dont les pirogues ont été endommagées; les fermiers de la région dont le foyer est composé de plus de 6 personnes, et dont le revenu total est inférieur à 75UM ; les enfants malnutris enregistrés dans un centre de soin ACF du camps de réfugiés).
Unité d’étude
Selon le degré d’avancement du projet et l’intérêt de celui-ci, la population d’étude peut être différente. Dans certains cas, nous nous intéresserons à des types d’individus particuliers, comme les enfants ou les femmes. Ex : l’aide cible les enfants de moins de 5 ans d’une population atteinte de malnutrition (les enfants plus fétiches sont plus sujets aux maladies) ; le projet veut injecter de l’argent dans une société pour promouvoir les activités non-agricoles génératrices de revenu (la population cible sera les femmes en charge des activités de petit commerce).
Toutefois, dans la majeur partie des actions initiées par ACF, surtout pour les programmes de Sécurité Alimentaire, on s’intéresse le plus souvent à l’entité foyer (qui peut être assimilé à la famille, ou encore à l’exploitation agricole). Celui ci représente une unité alimentaire plus facile à observer, car les revenus et la nourriture sont disponibles pour l’ensemble des personnes le constituant et sont ensuite distribués plus ou moins également en son sein. La norme internationale retenue par le PAM est de 5 individus par foyers. (ex : lorsque l’on parle d’une population de 1000 foyers bénéficiaires, il s’agit in fine de 5000 individus auxquels l’on fournit de l’aide).
Cas pratique : Ici le fermier est assimilé à son foyer, car on considère que le fruit des travaux de fermes (élevage, culture, travaux d’irrigation) est la principale ressource permettant de subvenir aux besoins du foyer concerné.
: Identification :Les fermiers des villages A et B (ceux qui élèvent du bétail et cultivent le sorgho au bord de la rivière). : Suivi/évaluation : L’ensemble des fermiers (foyers) des villages A et B bénéficiaires de l’aide ACF.
Taille de la population
Il est important dans le processus d’échantillonnage de connaître la taille de la population d’origine car cette grandeur permet de calculer la taille et le degré de précision de l’échantillon désiré (cf partie suivante) et effectuer correctement l’interprétation des résultats lorsque l’on applique à la population totale les conclusions faites sur l’échantillon d’étude (phase d’inférence).
Plus la mise en place d’un projet ACF est avancée, plus la taille des populations considérées s’amenuise. Ainsi on commence par étudier une population globale, puis on se cantonne à l’étude d’une population particulière pour trouver les plus vulnérables, pour finir par l’analyse d’un échantillon de la population des bénéficiaires. (cf graphique p.XX Introduction, partie 2 : « étapes successives de récolte d’information ») :
Au moment de la programmation, la population de départ est souvent l’ensemble de la population nationale, ou une (des) région(s) où l’on a connaissance de problèmes graves en sécurité alimentaire (ex : population d’un pays où règnent des conflits armés – 7M d’habitants).
Cas pratique : l’ensemble de la population de la région qui subit la sécheresse depuis plusieurs années (3M de personnes).
La détection de problèmes alimentaires permet ensuite de se focaliser sur quelques zones géographiques particulières (ou parlera de zones d’intervention prioritaires). Le projet ACF s’installera là où les besoins sont les plus importants, en fonction de la capacité d’intervention (critères de sécurité, existence ou non d’autres projets similaires, niveau de couverture…). La population devient alors l’ensemble de la population de la zone ACF (ex : population totale d’un camps de réfugiés d’un pays en conflit – 150 000 personnes).
Cas pratique : Population d’étude pour la phase : Identification : l’ensemble des 18 000 fermiers des villages A et B couverts par la base ACF. Il s’agit des villages accessibles (les conflits empêchent de pouvoir agir partout) où l’insécurité alimentaire était la plus grave dans la région subissant la sécheresse, et où réside une communauté de pasteurs ayant du mal à développer des stratégies d’adaptation (les bêtes sont affaiblies (plus de pâturage) et les cultures secondaires mal irriguées). Ainsi les pasteurs sont obligés d’avoir recours à un système de crédit pour subvenir à leurs besoins alimentaires, et n’arrivent pas à rembourser leurs dettes compte tenu des périodes de sécheresse répétées.
Une fois la base ACF installée, la phase d’identification permet de détecter les populations les plus vulnérables (au niveau géographique et selon des critères bien définis). Elles constituent la nouvelle population de référence (ex : les enfants malnutris enregistrés dans les centres de santé d’un camp de réfugiés d’un pays en conflit – 50 000 enfants).
Cas pratique : La phase d’identification a permis de déterminer un seuil critique pour cibler les plus vulnérables parmi les fermiers qui élèvent du bétail et cultivent le sorgho au bord de la rivière :
- ceux dont l’effectif du troupeau est inférieur à 4 bêtes sont incapables de faire face à une sécheresse pour maintenir leur troupeau rentable. Ils sont au nombre de 4000.
- parmi ces 4000 fermiers, une partie peut fournir de la main d’œuvre pour construire un système d’irrigation plus efficace qui bénéficiera à toute la communauté. Ce travail complémentaire permettra aux plus démunis de rembourser leurs dettes.
La population ciblée
C’est auprès de cette population des plus vulnérables que sera déployée l’aide, la population d’étude devient donc l’ensemble des bénéficiaires du projet ACF. Parfois, par manque de moyens logistiques ou financiers, il sera impossible de venir en aide à toutes les personnes dans le besoin. Dans ce cas précis, la population des bénéficiaires sera donc plus petite que la population définie comme vulnérable. (ex : les enfants malnutris enregistrés dans les centres de santé où n’agissent pas d’autres ONG d’un camps de réfugiés d’un pays en conflit – 30 000 enfants).
Cas pratique : Taille de la population des bénéficiaires = 4000 fermiers (20000 individus), dont :
- 2500 qui bénéficieront uniquement du service de Banque de Céréales, permettant de vendre leur sorgho à un prix plus élevé que celui pratiqué sur le marché
- 1500 fermiers bénéficieront d’une aide couplée BC+CFW ;
Critères d’échantillonnage
Une fois l’aide déployée, un système de suivi est mis en place. La population des bénéficiaires est souvent trop vaste pour être enquêtée dans sa totalité (ex : 30 000 enfants). Une partie seulement de cette population, l’échantillon, fera l’objet d’une enquête après la distribution de l’aide (ex : 500 enfants parmi les 30 000 bénéficiaires). L’échantillon doit avoir les mêmes caractéristiques que la population d’étude pour que l’on soit en mesure d’inférer à la population d’étude les résultats obtenus pour l’échantillon.
Cas pratique : : Suivi/évaluation : Un échantillon représentatif des 4000 fermiers bénéficiaires sera choisi.
Pour choisir l’échantillon d’étude, on peut effectuer un tirage totalement aléatoire, sans aucune autre considération que les critères de vulnérabilité qui définissent la population ciblée (cf graphique 1).
Graphique 1 : tirage aléatoire simple
Néanmoins, il existe des procédés préalables au tirage, telle que la stratification qui, en assurant représentativité de l’échantillon, donne une meilleure précision des sondages aléatoires. La recherche des populations vulnérables pour un projet de sécurité alimentaire est l’application directe de la stratification (Food Economy Zones et Typologies :cf partie XX Introduction). Cette technique permet de diviser la population en un nombre de groupes homogènes (strates) définis selon des variables d’intérêt (ex : terres irriguées/non irriguées, revenus existants/inexistants, famille nombreuse/un seul enfant, activités de commerce supplémentaire oui/non, 1 /plusieurs repas par jour…). Le tirage de l’échantillon sera effectué indépendamment, groupe par groupe, afin de diminuer les fluctuations d'échantillonnage. Lorsque une répartition chiffrée des différentes strates est disponible (exacte ou approximative, ex : 30% mangent plusieurs repas par jour, 70% un seul), il est alors possible de tirer un échantillon stratifié proportionnel assurant une meilleure représentativité de la population d’étude que celle obtenue par tirage aléatoire simple (cf graphique 2) :
Graphique 2 : tirage stratifié proportionnel
Variables d’intérêt
Pour les besoins de la phase de suivi d’un projet d’aide en sécurité alimentaire, il est d’usage d’enquêter un échantillon de la population des bénéficiaires. Une stratification de cette population de bénéficiaires permet de dégager les sous-groupes (strates) susceptibles de réagir différemment face à l’aide apportée. Le secret d’un bon échantillonnage réside dans le choix des variables, en lien avec les objectifs de l’étude, qui vont différencier au mieux les strates d’études. Une analyse approfondie des informations disponibles, notamment par le biais d’entretiens de groupes auprès de la population, permet de dégager les strates de la population étudiée (ex : Chez les enfants malnutris de moins de 5 ans, les variables susceptibles d’influencer le résultat des compléments vitaminés apportés sont: 1. Structure familiale (deux parents, monoparentale, … ; 2. Nombre d’enfants dans la famille (moins de 4, plus de 4) ; 3. Première visite dans le Centre de Nutrition thérapeutique (oui/non)…).
Cas pratique : : Suivi/évaluation : les trois types de fermiers bénéficiant de l’aide sont soit de « longue date » (vivant de culture et d’élevage depuis longtemps), soit des « anciens réfugiés » (combinant culture et élevage depuis leur retour) soit des « pasteurs destitués » (complètent leurs activités d’élevage par de la culture depuis les vagues de sécheresse). Cette hiérarchie ne permet néanmoins pas de classer automatiquement les uns et les autres selon leur degré d’adaptation aux sécheresses des dernières années. A ces trois types de fermiers, on retient trois variables différenciant ces fermiers en terme de vulnérabilité :
1. Taille du bétail (ils ont tous moins de 4 bêtes, mais on différencie ceux qui en ont 0 et ceux qui en ont entre 1et 3)
2. Durée d’autonomie alimentaire rendue possible par les récoltes (soit elle est supérieure à 6 mois, et les foyers peuvent subsister aux sécheresses, soit elle est inférieure à 6 mois, et les foyers doivent avoir recours au crédit).
3. Endettement (cette variable permet d’estimer les bénéfices entraînés par la vente de récoltes : selon le seuil arrêté à 75 UM, les fermiers sont capables ou non de rembourser leurs crédit, et donc de faire face à la sécheresse d’une année sur l’autre
Arbre de décision
L’arbre de décision, qui se présente comme suit, se trace à l’aide des variables d’intérêt retenues. Cette étape est utile pour récolter les effectifs associés selon les critères discriminants retenus, dans la mesure du possible. Chaque variable discriminante est binaire ; Si un seuil de convergence a été retenu, alors elle prend la valeur 0 lorsqu’elle est en dessous du seuil retenu et 1 lorsque la valeur est au delà de la variable seuil (ex : le seuil critique du revenu des foyers est de 75 UM/personne, pour l’arbre de décision associé : Revenu=0 si le revenu < 75 UM/personne &- Revenu=1 si le revenu > 75 UM/personne).
N.B. : L’absence d’effectifs nous servira pour argumenter le choix d’une méthode d’échantillonnage non probabiliste (sans liste quantifiable d’unités le tirage aléatoire est impossible).
Cas pratique : L’arbre de décision pour notre cas est à développer pour les trois catégories des fermiers bénéficiaires (« longue durée », « anciens réfugiés », « pasteurs destitués »), chacune ayant ses propres mécanismes d’adaptation. Les trois variables d’intérêt retenues sont représentées par les trois logos suivants :
: Bétail. Prend la valeur 0 si le fermier n’a aucune bête ; prend la valeur 1 s’il en possède entre 1 et 3. :Récolte permettant une autonomie alimentaire. Prend la valeur 1 si l’autonomie > 6mois ;0 sinon
: Récolte permettant une autonomie alimentaire et des bénéficies issus de la vente. Prend la valeur 1 si oui ; 0 sinon. La combinaison bénéficie sans autonomie alimentaire>6mois n’est pas possible ( dans l’arbre)
Cas pratique : l’arbre de décision est le suivant :
L’arborescence est retranscrite dans un tableau Excel que l’on cherche à remplir par les effectifs observés dans la population, catégorie par catégorie. L’effectifs total des colonnes est toujours égal à l’effectif total
(N) de la population.
Variable 1 Variable 2 Variable 3
0 xx 0 xx
0 xx 1 xx
1 xx 0 xx
1 xx
0 xx 0 xx
1 xx 1 xx
1 xx 0 xx
1 xx
Total N Total N Total N
Souvent il est difficile d’obtenir les effectifs exacts ; il convient alors de les estimer à partir des répartitions approximatives (ex : une population de 500 enfants malnutris compte environ 30% d’enfants atteints de diarrhée (nous ne disposons pas des effectifs exacts). La variable Maladie est discriminante pour différencier les enfants. Cette variable prendra la valeur 1 pour 30%*500=150 enfants ; elle prendra la valeur 0 pour le reste, i.e. 350 enfants (70%). Ensuite on sait que parmi ces enfants malades, 80% fréquentent le centre de santé pour la première fois. Cette information permet de compléter le tableau au niveau supérieur (variable 1ère visite CNT). On appliquera ce taux de 80% non pas à la totalité des 500 enfants, mais aux 150 enfants ayant été classés dans la catégories Malade :
150
Total 500
Selon les informations disponibles (effectifs réels, estimations), le remplissage du tableau sera plus ou moins rapide. Pour compléter les informations manquantes, il est judicieux de construire un premier tableau d’échantillonnage AVANT les entretiens de groupes lors du ciblage de la population des bénéficiaires, à l’aide des variables discriminantes à priori. Les entretiens permettrons d’affiner la qualité de la stratification. Il convient alors de le remplir avec les données disponibles et de récolter les informations manquantes lors des divers entretiens. (cf utilisation de l’outil lors des entretiens chap. XX partie .. p.xx)
Cas pratique : Les effectifs des types de fermiers sont connus et leurs répartition selon les critères de stratification retenus ont été estimées lors des différents entretiens de groupe (cf techniques d’estimation chap. XX p. xx). La population des bénéficiaires est donc répartie comme suit :
A l’aide de ces indications, nous sommes en mesure de renseigner les effectifs de la dernière colonne dans le tableau d’échantillonnage correspondant (l’effectif total est bien égal à 4000 fermiers) :
Le tableau peut être complété aux niveaux de stratification supérieurs (« Autonomie alimentaire>6mois » et « Bétail ») :
Strates retenues
Une fois le tableau d’échantillonnage rempli, on peut comptabiliser le nombre de sous-groupes détectés dans la population étudiée, selon les critères de stratifications retenus. Ce nombre équivaut au nombre de cellules renseignées et différentes de 0 dans la dernière colonne.
Cas pratique : 18 strates distinctes sont renseignées (cf colonne Strate dans le tableau précédent).
Pour chacun de ces sous-groupes on obtient son poids (représentativité) dans la population totale en calculant le rapport entre l’effectif de la strate et celui de la population totale (ex :PoidsStrate1=n1/N). La somme des poids est égale à 1 (=100%).
Cas pratique : Le poids de la Strate « fermiers de longue durée, avec bétail, et avec récoltes permettant une autonomie alimentaire de plus de 6 mois et des bénéfices liés à leur vente » est égal à 984/4000 =0.25. Cela signifie que 25% des bénéficiaires appartiennent à cette Strate (cf colonne PoidsStrate du tableau précédent pour les autres poids).
Il peut arriver que certaines strates soient très peu représentées. Cela est vérifié lorsque le poids est inférieur à 5%. Si l’intérêt de l’étude ne porte pas spécifiquement sur ces strates particulières, il convient alors de les regrouper pour former des sous-groupes moins détaillées, mais assez grandes pour que l’on soit en mesure d’émettre des conclusions après l’analyse de leur caractéristiques spécifiques. Une strate trop petite (<5%) ne peut faire l’objet d’interprétations à grande échelle statistiquement correcte. Plus l’échantillon est petit, moins le nombre de strates doit être élevé. En règle générale, il vaut mieux se restreindre à des échantillons comportant au plus 10 strates différentes (en Sécurité Alimentaire, les échantillon ont rarement une taille supérieure à 2000 individus).
Cas pratique : Parmi les 18 strates, celles à petits effectifs ont été regroupées, selon la logique de l’arborescence retenue, pour n’en former plus que 10 (cf regroupements par les cercles dans le tableau précédent) :
Tableau d’échantillonnage
Une fois ces considérations de poids et de nombre de strates, le plan d’échantillonnage peut être ébauché. Ce plan contient les informations suivantes :
NumStrate : Numéro de la strate. Il permettra de retrouver un individu (ou un foyer) selon les caractéristiques d’échantillonnage retenues (lorsque la base de données sera disponible, chaque individu sera affecté du numéro de strate auquel il appartient)
LibStrate : libellé de la strate associée
NbBénéf: nombre d’individus faisant partie de la strate parmi la totalité des bénéficiaires (ou des foyers faisant partie de la strate associée) ayant les caractéristiques de la strate associée
PoidsStrate : représentativité en terme de nombre d’individus (ou de foyers) de la strate dans la population totale (rapport de l’effectif de la strate sur l’effectif total)
NbEchant : nombre d’individus à tirer dans chaque strate pour faire partie de l’échantillon
Cas pratique : Le plan d’échantillonnage est le suivant :
Pour compléter le tableau nous devons d’abord déterminer la taille de l’échantillon. La partie suivante traite spécifiquement de cet aspect.
3ème étape :
LA TAILLE DE L’ECHANTILLON
« Quelle est la taille de l’échantillon que je dois tirer pour qu’il soit valable ? » Cette question est fréquemment posée lorsque l’on parle d’échantillonnage.
Pour déterminer la taille de l’échantillon à tirer et ainsi permettre des interprétations valables des analyses qui seront effectuées à partir de celui-ci, outre la taille de la population d’étude, il est nécessaire de prendre en compte certains critères statistiques pour calculer la taille de l’échantillon souhaité, par le biais de formules mathématiques éprouvées. Le choix de la taille d’un échantillon dépend aussi des contraintes de terrain observées et des questions auxquelles on désire répondre par le moyen de l’enquête :« S’agit-il simplement de calculer des statistiques descriptives (moyenne, fréquences), ou d’effectuer une analyse approfondie d’une population composée de plusieurs sous-groupes ayant bénéficié de plusieurs types d’aide ? » Plus les objectifs de l’étude sont pointus et la diversité des individus enquêtés est grand, plus la taille minimale requise sera grande. Au delà, il existe des cas particuliers qui nécessitent une attention particulière lors du calcul de la taille de l’échantillon comme celui des enquêtes rapides, de la comparaison de moyennes ou lorsque la population est enquêtée par grappes ». Toutes ces considérations sont importantes pour effectuer un choix optimum.
Critères statistiques
Niveau de précision
Le niveau de précision, encore appelé erreur d’échantillonnage, estime l’intervalle de confiance dans lequel on va situer la valeur réelle de la population. La valeur prise par la population sera comprise en deçà et au-delà de la valeur estimée pour l’échantillon, selon le niveau de précision voulu. Ce dernier est exprimé en points de pourcentage (ex : +/- 5%). Si la valeur estimée est un pourcentage alors la valeur réelle est comprise entre « la valeur estimée - le niveau de précision » et « la valeur estimée + le niveau de précision ». (ex : si le gain de l’Indice de Poids/Taille des enfants malnutris de l’échantillon est de 20% avec un degré de précision de +/- 5%, alors on peut dire que ce gain se situe entre 15% et 25% pour la population totale des enfants malnutris). Si la valeur estimée est un nombre, la largeur de l’intervalle se calcule en multipliant la valeur estimée par le niveau de précision adopté ; la valeur réelle de la population est alors [ « valeur estimée – largeur de l’intervalle » ; « valeur estimée + largeur de l’intervalle »]. (ex : la moyenne de des revenus pour la population des fermiers enquêtés est de 85 UM. La moyenne pour la population totale se situera dans l’intervalle suivant [85-(85x5%) ; 85+(85x5%)]=[81 ;89] avec un degré de précision de +/-5%). Plus le degré de précision est élevé, plus l’intervalle sera étendu (ex : niveau de précision : +/- 6,6% -> l’intervalle de confiance sera [79 ;91]) :
En règle générale, le niveau de précision retenu pour les enquêtes en Sécurité Alimentaire est de +/-5%, mais il peut être plus large selon les grandeurs estimées et surtout l’homogénéité de la population (cf degré de variabilité). Lorsque l’on effectue une comparaison des moyennes par exemple, il faut s’assurer que le niveau de précision est assez fin pour détecter les différences si elles existent.
Guide Méthodologique : Enquêtes de terrain - 19 - Sécurité Alimentaire
Module 1 Echantillonnage
Niveau de confiance
Il y a toujours un risque que l’échantillon sélectionné ne représente pas la population étudiée. Le niveau de confiance (ou marge d’erreur) permet d’indiquer le pourcentage de chances que l’échantillon sélectionné a d’être représentatif de la population étudiée.
Imaginons que l’on puisse répéter la mesure d’une valeur (ex :moyenne du revenu des foyers) auprès d’un grand nombre d’échantillons de la population étudiée. La moyenne des valeurs obtenues (ex :84;85;84;86;… ;87;83;84;84;… ;83;81;87;… ;86;82;79 ;…;85;85;86;85;89;84: moyenne=85UM) sera égale à la moyenne réelle de la population étudiée (ex : revenu moyen=85UM). Les valeurs obtenues pour ces échantillons suivent une distribution normale autour de la moyenne réelle. Certaines sont proches de la valeur réelle (ex :84;85;86), d’autres sont plus éloignées (ex :79;81;89…). La déviation standard (ou écart-type3 , noté σ) mesure la largeur de la distribution (dispersion des valeurs obtenues autour de la moyenne).
Dans le cas d’une distribution normale, la théorie montre que 95% des valeurs obtenues gravitent autour de la valeur réelle de la population avec une différence de moins de deux écart-types. En d’autres termes, un niveau de confiance de 95% assure que, parmi 100 échantillons tirés aléatoirement, 95 donnent une valeur estimée égale à la valeur réelle de la population totale (selon un certain niveau de précision). Au delà (dans 5% des cas) les valeurs dépassent la moyenne de plus de deux écart-types. Elles sont considérées comme trop éloignées de la moyenne réelle et les échantillons correspondants ne sont pas représentatifs de la populations d’étude (ex : on retrouve ces 5% de cas extrêmes dans les « queues » (zone orange) de la cloche du graphique ci-dessus).
Ainsi, plus le niveau de confiance retenu est fort, moins le risque de tirer un échantillon éloigné de la population étudiée est élevé. L’écart type n’étant pas connu lorsque l’on tire l’échantillon, il est d’usage de retenir un niveau de confiance égal à 95%, caractérisant toute distribution normale. La probabilité t associée, permet de déterminer l’écart correspondant pour la distribution de la loi de Student (proche de la loi normale lorsque le nombre d’individus dans l’échantillon est >200). Ainsi, lorsque le niveau de confiance est de 95% et la taille de l’échantillon assez grande, t=1.96. C’est cette valeur qui sera utilisée dans les formules permettant de calculer la taille optimum de l’échantillon. La table statistique en Annexe II (p45) donne les valeurs de t équivalentes selon les tailles et niveaux de confiances désirés.
Degré de variabilité
Ce critère détermine la ressemblance (degré d’homogénéité) des individus de la population selon leurs caractéristiques communes. Moins les individus d’une population se ressemblent, plus l’échantillon doit être grand pour atteindre un même degré de précision. Inversement, plus la population est homogène, plus petit sera l’échantillon. Une proportion de