Apprendre les fondamentaux de la statistique bayésienne cours de base avec exemples et exercices
…
Chapitre 2 Représentation probabiliste des connaissances : données et expertise
Prologue
Tous les exemples du chapitre précédent présentent des situations stochas¬tiques. Si on ne traduit pas le caractère stochastique de ces situations, on ne peut pas faire la distinction entre un bon résultat et une bonne règle de décision. Dans un contexte risqué, décider se présente comme l’action de prendre un pari et on ne peut exclure qu’une décision sensée mène à un résultat indésirable ou, qu’a contrario, il soit possible qu’un mode de comportement irrationnel mène, par chance, à une issue heureuse. L’objet de la théorie de la décision statistique est de rechercher un comportement décisionnel cohérent minimisant les chances d’occurrences de telles situations. La cohérence nécessite de quantifier, même de façon très simplifiée, l’éventail des conséquences aléatoires d’une décision et en s’appuyant le cas échéant sur une expertise qualitative a priori. Toute la gamme des informations quantitatives et qualitatives que peut recevoir un décideur est formalisée à travers un couple comprenant d’une part le modèle statistique de représentation du phénomène étudié et d’autre part le modèle de représentation des connaissances a priori. Ici, l’outil mathématique essentiel est le modèle. Un modèle est une construction mentale qui a pour but la traduc¬tion opérationnelle d’un ensemble de connaissances à des fins de déduction. Par traduction opérationnelle, on entend la possibilité de régénérer la distribution de résultats possibles conditionnellement à un nombre restreint de coefficients caractéristiques, encore appelés paramètres.
2.1 Le modèle bayésien d’incertitudes assemble modèle statistique et modèle d’expertise
2.1.1 De l’utilité des représentations probabilistes
Observons le comportement stochastique de tous les exemples du chapitre précédent :
– Exemple 1 : En ce qui concerne la météo, on sait bien que les prévisions (donnant les informations délivrées au public) ne sont pas fiables à 100 %. En d’autres termes, il peut se produire que des prévisions identiques pour deux événements soient suivies de conditions météorologiques réelles différentes ou que des jours connaissent un temps identique quoique la météo ait pronostiqué des prévisions différentes.
– Exemple 2 : Quant à la pollution bactériologique, la variabilité d’échantillonnage est forte : plusieurs ordres de grandeur séparent le volume hebdomadaire qui transite sur le réseau et le volume des prélèvements effectués pour analyse. En conséquence, un prélèvement peut ignorer une concentration en coliformes importante ou, à l’inverse, une concentration mesurée forte peut tout à fait n’être qu’un avatar sans importance d’une situation bactériologique globale sous contrôle.
– Exemple 3 : Les poissons sont de longueurs variables. Les chances sont sûrement très faibles, mais on ne peut pas exclure que l’on n’ait capturé que les gros en aval de la pisciculture et les petits en amont, ou bien l’inverse...
– Exemple 4 : La fortune sourit parfois aux sportifs. Tout passionné de football pourra citer le cas de rencontres où une équipe i intrinsèquement bien moins forte qu’une équipe j a arraché le match nul ou même la victoire et on doit prendre en compte l’idée que si l’on rejouait un match dans les mêmes conditions, le résultat de la rencontre puisse être différent de la première fois.
– Exemple 5 : Les rivières sont capricieuses. Même dans le cadre d’un régime hydrologique stationnaire (on supposera ici que le réchauffement climatique global n’affecte pas le cours d’eau que l’on étudie, que l’urbanisation ne change pas les caractéristiques du cours d’eau, etc.), les débits fluctuent naturellement et comme les amplitudes de variations naturelles peuvent être fortes, l’échantillon de débits enregistrés dont on dispose (généralement assez court) peut laisser croire à un régime plus humide (ou plus sec) qu’il n’est en réalité.
Les connaissances que l’on doit représenter (et quantifier grâce au calcul des probabilités) concernent les observables et les inconnues.
Note 2.1 Dans la suite du document, la notation [ ] désigne une loi de pro¬babilité : il s’agira de la fonction de densité de probabilité pour les variables aléatoires continues et de la fonction de répartition pour les variables discrètes.
Note 2.2 Nous utiliserons indifféremment le signe d’intégration f pour le calcul d’intégration avec des mesures discrètes ou continues (diffuses). La loi des probabilités conditionnelles s’écrira [A, B] = [A |B ] [B] et le calcul des probabilités totales s’exprime par [A] = fz [A Iz] [z] dz que z soit une grandeur conditionnante à support discret partitionnant l’espace de définition ou une grandeur aléatoire à support continu.
Note 2.3 Les paramètres sont notés conventionnellement par une lettre grecque (dans la suite nous utiliserons de façon générique la notation θ) et les observations par des lettres latines minuscules (généralement x ou y).
2.1.2 Les observables X et les observées x
Certaines connaissances portent sur les grandeurs observables. En pratique, on veut fournir un mécanisme aléatoire de (re)génération des résultats expérimentaux, c’est-à-dire imaginer avant qu’elles ne se produisent quelles valeurs possibles peuvent prendre les informations, en utilisant un modèle statistique paramétrique de représentation du phénomène. Ce procédé stochastique s’appuie en effet sur un certain nombre de paramètres qui décrivent un état récapitulatif des propriétés du phénomène étudié. Ces paramètres inconnus forment l’état de la nature.
Conditionnellement à une valeur possible de l’état de la nature θ, le modèle va permettre de déduire la prédiction quantifiée du risque engagé par chacune des décisions potentielles en compétition. Un modèle fait généralement intervenir trois éléments clés. Tout d’abord, il explicite des hypothèses fondatrices qui organisent une représentation simplifiée du phénomène adaptée aux objectifs assignés. On y trouve ensuite une formulation quantifiée des relations possibles entre grandeurs d’intérêt, la valeur attribuée à chacun des paramètres devant nécessairement se trouver à l’intérieur de la gamme permise par les hypothèses fondatrices. Enfin, tout modèle statistique comprend une partie probabiliste qui sert à représenter les influences échappant au savoir actuel. En effet, toute représentation simplifiée de phénomène à des fins de décision impose la prise en compte des inévitables écarts par rapport à la réalité. Ces écarts aléatoires seront décrits par des distributions de probabilité. La conséquence importante de cette opération est de doter l’ensemble X des informations d’une structure probabiliste, décrite par une famille de lois de probabilités indexée par le paramètre θ. Par abus de notations, on notera encore X l’observable.
Note 2.4 On fera à partir de maintenant la distinction entre X, la grandeur aléatoire (notée toujours ci-après par une majuscule latine), c’est-à-dire la grandeur observable et x la réalisation de X qui s’est produite, c’est-à-dire la valeur observée.
Correspondante fait référence à la valeur observée, valeur numérique produite par l’expérience. On note [x |B] la densité de probabilité, s’il s’agit d’une loi diffuse ou la probabilité d’un événement {X = x |B 1 si on travaille avec des probabilités discrètes. Le modèle statistique [x |B] traduit l’aléa naturel associé à la grandeur observable X sachant que le paramètre inconnu est fixé à une valeur donnée B : la probabilité, dite objective dans ce cas, représente alors la fréquence limite de l’occurrence d’un même événement X = x, pour peu qu’on puisse répéter - au moins en pensée -, l’expérience de mesure associée à cet événement aléatoire.
2.1.3 Les inconnues θ
D’autres connaissances, en général de nature plus qualitative et provenant d’une expertise, portent sur des grandeurs non observables. Pour qu’en pra¬tique ces connaissances aient trait au problème, il faut bien sûr qu’elles soient liées à l’état de la nature B. Une distribution de probabilité [B], dite loi a priori ou prior, traduit la plus ou moins grande incertitude associée aux grandeurs non observables B : la probabilité, dite alors subjective, est une mesure de l’engagement personnel en termes de pari à miser sur telle ou telle valeur de l’événement incertain. Dans ce cas, il s’agit d’un modèle d’expertise, la proba¬bilité s’interprète comme un degré de crédibilité des valeurs que peut prendre la grandeur incertaine B. Par conséquent, elle ne possède de sens que si elle est définie conditionnellement à un niveau fixé de connaissance et peut changer quand l’état de connaissance change. Deux individus différents peuvent bien sûr ne pas partager le même prior.
Note 2.5 On notera conventionnellement [B] au lieu de [B |H ] le prior de la quantité incertaine B en omettant, de façon à alléger les notations, le condi¬tionnement sur l’état de connaissance initial H de l’homme d’étude.
2.2 Modèles statistiques paramétriques d’occur¬rence des observables et états de la nature
Les statisticiens classiques tirent beaucoup moins parti des connaissances a priori et désignent sous le nom de modèle tout court la représentation formelle des seules grandeurs observables, c’est-à-dire le modèle statistique d’occurrence des données. Pour comprendre et utiliser ensuite ce point de vue par lequel nous commençons, il suffit de se mettre dans la situation où l’état de la nature B prend une valeur unique et précise. Pour mieux cerner cette hypothétique existence d’une telle grandeur inconnue, nous essaierons tant que possible de donner un sens phénoménologique à la grandeur B, bien qu’elle soit non obser-vable! Le résultat de ce travail conceptuel est la loi de probabilité [x |B ] qui a reçu le nom de modèle statistique (d’occurrence des observables). Cette loi donne, conditionnellement à une valeur fixée du paramètre B, la probabilité de
temps annoncé→ x1 =soleil x2 = pluie x3 = orage
Le temps 0 qu’il fait↓
01 = beau temps [x |0 = soleil] 0, 94 0, 05 0, 01
02 = pluie [x |0 = pluie] 0, 10 0, 78 0, 12
03 = orage [x|0 = orage] 0, 20 0, 15 0, 65
Table 2.1 – Construction d’un modèle empirique de fiabilité des prévisions mé¬téorologiques.
l’événement {X = x} (ou la densité de probabilité de la variable aléatoire X au point x, sachant 0 ).
2.2.1 Exemple 1 : un modèle probabiliste à variable dis¬crète
En ce qui concerne la météo, il va falloir distinguer les informations, précé¬demment notées x de l’état vrai 0 mais inconnu (au moment où les prévisions sont délivrées au public) de la nature. Ici, l’état de la nature s’identifie au temps qui se manifestera effectivement pour la journée. Pour simplifier, on suppose que l’ensemble O des états de la nature ne prend que trois modalités: O = { 01 : belle journée ensoleillée, 02 : ondées, 03 : orage }. Qu’est-ce qu’un modèle pour ce cas particulier? C’est une structure mathématique qui permet de régénérer des informations plausibles compte-tenu de la connaissance de l’état de la na¬ture. C’est donc ici l’ensemble des probabilités conditionnelles [X = xi |0 = 0j ].
Comment fait-on pour construire un tel modèle? Une façon pragmatique (voir tableau 2.1) est de compter parmi les jours de beau temps (sachant 01 = beau temps) la proportion de ceux qui avaient été annoncés par la météo dans la catégorie soleil (94 %), pluie (5 %), orage (1 %). En situation opérationnelle, la simulation des modèles de la Météorologie nationale associée à des méthodes de perturbations des conditions initiales permet d’établir ces probabilités de façon plus théorique.
2.2.2 Exemple 2 : un modèle binomial de pollution bac¬tériologique
Définissons l’état du système comme la concentration en coliformes O dans le volume hebdomadaire qui transite sur le réseau. On appelle V, le volume des prélèvements effectués pour analyse. En général, on prélève des éprouvettes de contenance V = 200 mL, qui, en moyenne, présentent un nombre OV de coliformes.
Le modèle le plus simple se rattache au modèle d’urne. Chaque station de mesure i d’une collection de n stations est supposée associée à une marque aléatoire Xi qui prend la valeur 1 si au moins un coliforme est présent ou la valeur 0 si le prélèvement ne présente pas de coliforme à l’analyse. Le nombre
On admet ici que la probabilité de présence de coliformes ne varie pas d’une station à l’autre ni au cours de la semaine et que chaque Xi est une variable dite de Bernoulli telle que :
[Xi = 1|θ] = 1 − θ [Xi = 0|θ] = θ
où θ est la probabilité de ne pas détecter de coliforme dans l’échantillon prélevé, qui prend la forme θ = e−eV .
La probabilité de l’ensemble des observations, ou vraisemblance s’écrit donc:
[x|ψ, V ] = [x|θ] = θn−3(1 − θ)3 (2.1)
On constate que cette vraisemblance ne dépend des observations que par la somme s, dont on sait qu’elle est la réalisation d’une variable binomiale :
[S = s |ψ, V ] = [S = s |θ] = s!(n − s)!θn−3(1 − θ)3
n! (2.2)
résultat qui sera utilisé plus loin.
Cette modélisation s’appuie sur trois hypothèses (simplificatrices) fonda¬mentales :
– la concentration en coliformes reste constante au cours de l’opération de contrôle : pas de source (naissances) ni de puits (morts) dans le système, ni de variation spatiale ou temporelle;
– les mesures sont réalisées de façon indépendante;
– les coliformes sont uniformément répartis dans le volume du réseau.
Ces conditions imposent des précautions à prendre au cours de la mise en œuvre de la mesure telles que la limitation de la durée des opérations ou la vérification de l’homogénéité de fonctionnement du réseau.
2.2.3 Exemple 3 : un modèle décrivant les longueurs de saumons
Des histogrammes sur les données de saumons (juvéniles d’un an) échan¬tillonnés par pêche électrique sur toute la rivière au cours du mois de septembre 2000 mettent en évidence une variabilité des longueurs des poissons (voir fi¬gure 2.1). Pour représenter cette répartition, on peut faire appel à un modèle courant et parcimonieux, le modèle normal qui résume la situation grâce à un paramètre de position μ et un paramètre de dispersion σ. Cette forme nor¬male est choisie faute de mieux, grâce à la connaissance du modélisateur qui, connaissant le terrain et les données recueillies, postule que la répartition nor¬male est bien adaptée. D’ailleurs, si on réalisait trois histogrammes avec les seules données disponibles autour de la pisciculture, cette répartition normale
…
Chapitre 3 Risque et aide bayésienne à la décision
Prologue
Statistique indérentielle d’un côté et analyse des décisions de l’autre côté ont longtemps été séparées dans les préoccupations des chercheurs et des ingénieurs. On cherchait d’abord à estimer, au mieux, les paramètres incertains des modèles : l’expression au mieux signifiait selon des critères de valeurs choisis de façon arbitraire car même si ce choix obéissait à une certaine logique du mathématicien, les considérations décisionnelles n’y avaient guère leur part. Le choix des décisions opérationnelles se faisait dans une phase ultérieure, séparée de l’inférence, et comme si les paramètres des modèles étaient parfaitement connus. Dans l’approche bayésienne, la distribution a posteriori du ou des paramètres récapitule tout le savoir mobilisé pour porter un jugement à partir des données expérimentales et du savoir a priori. Le choix d’une décision basée sur cette distribution a posteriori doit faire intervenir ses conséquences, évaluées au moins sommairement (DeGroot, 1970). Une telle évaluation peut paraître difficile ou prématurée, pourtant aucun modélisateur ne travaille jamais sans idée des suites de ses jugements et propositions. Il suffit bien souvent de prendre en compte une fonction de coût forfaitaire donnant une indication très qualitative des conséquences. C’est le lien entre le jugement sur échantillon (celui qu’on a sous la main) et la prise de décision finale avec ses coûts qui fait d’ailleurs l’efficacité de la démarche bayésienne. Formellement, le choix d’une décision a dans un ensemble possible A implique de supporter des conséquences incertaines. Celles-ci s’expriment par une fonction de coût C(a, θ) conditionnée à la fois par la décision a et l’état de la nature θ. Dans ce chapitre, la théorie de la décision en avenir incertain développe ce concept en l’articulant avec les éléments du modèle bayésien présenté dans le chapitre précédent. Deux exemples illustrent sa mise en œuvre pratique.
3.1 Le cadre décisionnel théorique
Ce qui intéresse un décideur c’est de savoir si, ayant adopté une décision a, son incertitude sur θ ne « risque » pas d’entraîner des conséquences désagréables et dans ce cas s’il importe de choisir une autre décision mieux appropriée. Mais alors quelle décision choisir ? Tout ingénieur est familier des études de sensibilité et le réflexe classique est d’analyser la fonction C(a, θ), qui traduit naturellement les conséquences des décisions, pour différentes valeurs de θ. On va supposer que la fonction C est suffisamment régulière pour que à θ connu - c’est-à-dire en situation d’information parfaite -, il existe une décision optimale unique a∗(θ) qui minimise C(a, θ). Mais θ n’est pas connu quand on prend la décision a. Par rapport à la décision a∗(θ) qu’il faudrait prendre, on encourt donc un écart u(a, θ) = C(a, θ) − C(a∗(θ), θ). Cet écart est appelé regret (opportunity loss en anglais). Il indique, comme son nom l’exprime, ce qu’il en coûte en supplément au décideur de prendre pour chaque θ possible, la décision a au lieu de l’optimum. En fait, le décideur sera éventuellement amené à prendre a en lieu et place de a∗(θ) parce qu’il ignore la valeur de θ. La considération de la fonction de regret est donc un élément essentiel de l’étude de sensibilité. Maintenant plutôt que d’évaluer terme à terme plusieurs valeurs de regret pour plusieurs valeurs de θ (ce que ferait une étude de sensibilité traditionnelle), l’approche bayésienne décisionnelle fournit ici une vision intégrée grâce à une méthode plus systématique. Distinguons l’analyse extensive et l’analyse normale.
3.1.1 Analyse extensive (ou a posteriori )
Ici les données ont été observées : le décideur connaît l’information x (il dispose des données déjà enregistrées). Les incertitudes sur les inconnues θ sont décrites par la loi a posteriori [θ |x]. Chaque décision a donnée débouche sur une perspective aléatoire formée de la répartition des regrets u(a, θ) affectée de la répartition de probabilité a posteriori [θ |x]. La décision optimale s’obtient en cherchant l’optimum de la fonction du regret moyen a posteriori U(a) (expected opportunity loss en anglais) :
U(a) = θ sachant x u(a, θ)[θ |x]dθ
On réalise ainsi une analyse de sensibilité intégrée où l’on pondère l’écart à l’idéal (calculable en situation d’information parfaite) par la probabilité de cet écart, évaluée de façon conditionnelle à l’information x obtenue
3.1.2 Analyse normale (ou prédictive)
Ici la donnée x n’a pas encore été observée et le décideur doit d’abord choisir le type d’expérimentation e (qui lui fournira xe)
Apprendre les fondamentaux de la statistique bayésienne cours de base avec exemples et exercices
…
Chapitre 2 Représentation probabiliste des connaissances : données et expertise
Prologue
Tous les exemples du chapitre précédent présentent des situations stochas¬tiques. Si on ne traduit pas le caractère stochastique de ces situations, on ne peut pas faire la distinction entre un bon résultat et une bonne règle de décision. Dans un contexte risqué, décider se présente comme l’action de prendre un pari et on ne peut exclure qu’une décision sensée mène à un résultat indésirable ou, qu’a contrario, il soit possible qu’un mode de comportement irrationnel mène, par chance, à une issue heureuse. L’objet de la théorie de la décision statistique est de rechercher un comportement décisionnel cohérent minimisant les chances d’occurrences de telles situations. La cohérence nécessite de quantifier, même de façon très simplifiée, l’éventail des conséquences aléatoires d’une décision et en s’appuyant le cas échéant sur une expertise qualitative a priori. Toute la gamme des informations quantitatives et qualitatives que peut recevoir un décideur est formalisée à travers un couple comprenant d’une part le modèle statistique de représentation du phénomène étudié et d’autre part le modèle de représentation des connaissances a priori. Ici, l’outil mathématique essentiel est le modèle. Un modèle est une construction mentale qui a pour but la traduc¬tion opérationnelle d’un ensemble de connaissances à des fins de déduction. Par traduction opérationnelle, on entend la possibilité de régénérer la distribution de résultats possibles conditionnellement à un nombre restreint de coefficients caractéristiques, encore appelés paramètres.
2.1 Le modèle bayésien d’incertitudes assemble modèle statistique et modèle d’expertise
2.1.1 De l’utilité des représentations probabilistes
Observons le comportement stochastique de tous les exemples du chapitre précédent :
– Exemple 1 : En ce qui concerne la météo, on sait bien que les prévisions (donnant les informations délivrées au public) ne sont pas fiables à 100 %. En d’autres termes, il peut se produire que des prévisions identiques pour deux événements soient suivies de conditions météorologiques réelles différentes ou que des jours connaissent un temps identique quoique la météo ait pronostiqué des prévisions différentes.
– Exemple 2 : Quant à la pollution bactériologique, la variabilité d’échantillonnage est forte : plusieurs ordres de grandeur séparent le volume hebdomadaire qui transite sur le réseau et le volume des prélèvements effectués pour analyse. En conséquence, un prélèvement peut ignorer une concentration en coliformes importante ou, à l’inverse, une concentration mesurée forte peut tout à fait n’être qu’un avatar sans importance d’une situation bactériologique globale sous contrôle.
– Exemple 3 : Les poissons sont de longueurs variables. Les chances sont sûrement très faibles, mais on ne peut pas exclure que l’on n’ait capturé que les gros en aval de la pisciculture et les petits en amont, ou bien l’inverse...
– Exemple 4 : La fortune sourit parfois aux sportifs. Tout passionné de football pourra citer le cas de rencontres où une équipe i intrinsèquement bien moins forte qu’une équipe j a arraché le match nul ou même la victoire et on doit prendre en compte l’idée que si l’on rejouait un match dans les mêmes conditions, le résultat de la rencontre puisse être différent de la première fois.
– Exemple 5 : Les rivières sont capricieuses. Même dans le cadre d’un régime hydrologique stationnaire (on supposera ici que le réchauffement climatique global n’affecte pas le cours d’eau que l’on étudie, que l’urbanisation ne change pas les caractéristiques du cours d’eau, etc.), les débits fluctuent naturellement et comme les amplitudes de variations naturelles peuvent être fortes, l’échantillon de débits enregistrés dont on dispose (généralement assez court) peut laisser croire à un régime plus humide (ou plus sec) qu’il n’est en réalité.
Les connaissances que l’on doit représenter (et quantifier grâce au calcul des probabilités) concernent les observables et les inconnues.
Note 2.1 Dans la suite du document, la notation [ ] désigne une loi de pro¬babilité : il s’agira de la fonction de densité de probabilité pour les variables aléatoires continues et de la fonction de répartition pour les variables discrètes.
Note 2.2 Nous utiliserons indifféremment le signe d’intégration f pour le calcul d’intégration avec des mesures discrètes ou continues (diffuses). La loi des probabilités conditionnelles s’écrira [A, B] = [A |B ] [B] et le calcul des probabilités totales s’exprime par [A] = fz [A Iz] [z] dz que z soit une grandeur conditionnante à support discret partitionnant l’espace de définition ou une grandeur aléatoire à support continu.
Note 2.3 Les paramètres sont notés conventionnellement par une lettre grecque (dans la suite nous utiliserons de façon générique la notation θ) et les observations par des lettres latines minuscules (généralement x ou y).
2.1.2 Les observables X et les observées x
Certaines connaissances portent sur les grandeurs observables. En pratique, on veut fournir un mécanisme aléatoire de (re)génération des résultats expérimentaux, c’est-à-dire imaginer avant qu’elles ne se produisent quelles valeurs possibles peuvent prendre les informations, en utilisant un modèle statistique paramétrique de représentation du phénomène. Ce procédé stochastique s’appuie en effet sur un certain nombre de paramètres qui décrivent un état récapitulatif des propriétés du phénomène étudié. Ces paramètres inconnus forment l’état de la nature.
Note 2.4 On fera à partir de maintenant la distinction entre X, la grandeur aléatoire (notée toujours ci-après par une majuscule latine), c’est-à-dire la grandeur observable et x la réalisation de X qui s’est produite, c’est-à-dire la valeur observée.
Correspondante fait référence à la valeur observée, valeur numérique produite par l’expérience. On note [x |B] la densité de probabilité, s’il s’agit d’une loi diffuse ou la probabilité d’un événement {X = x |B 1 si on travaille avec des probabilités discrètes. Le modèle statistique [x |B] traduit l’aléa naturel associé à la grandeur observable X sachant que le paramètre inconnu est fixé à une valeur donnée B : la probabilité, dite objective dans ce cas, représente alors la fréquence limite de l’occurrence d’un même événement X = x, pour peu qu’on puisse répéter - au moins en pensée -, l’expérience de mesure associée à cet événement aléatoire.
2.1.3 Les inconnues θ
Note 2.5 On notera conventionnellement [B] au lieu de [B |H ] le prior de la quantité incertaine B en omettant, de façon à alléger les notations, le condi¬tionnement sur l’état de connaissance initial H de l’homme d’étude.
2.2 Modèles statistiques paramétriques d’occur¬rence des observables et états de la nature
Les statisticiens classiques tirent beaucoup moins parti des connaissances a priori et désignent sous le nom de modèle tout court la représentation formelle des seules grandeurs observables, c’est-à-dire le modèle statistique d’occurrence des données. Pour comprendre et utiliser ensuite ce point de vue par lequel nous commençons, il suffit de se mettre dans la situation où l’état de la nature B prend une valeur unique et précise. Pour mieux cerner cette hypothétique existence d’une telle grandeur inconnue, nous essaierons tant que possible de donner un sens phénoménologique à la grandeur B, bien qu’elle soit non obser-vable! Le résultat de ce travail conceptuel est la loi de probabilité [x |B ] qui a reçu le nom de modèle statistique (d’occurrence des observables). Cette loi donne, conditionnellement à une valeur fixée du paramètre B, la probabilité de
temps annoncé→ x1 =soleil x2 = pluie x3 = orage
Le temps 0 qu’il fait↓
01 = beau temps [x |0 = soleil] 0, 94 0, 05 0, 01
02 = pluie [x |0 = pluie] 0, 10 0, 78 0, 12
Table 2.1 – Construction d’un modèle empirique de fiabilité des prévisions mé¬téorologiques.
l’événement {X = x} (ou la densité de probabilité de la variable aléatoire X au point x, sachant 0 ).
2.2.1 Exemple 1 : un modèle probabiliste à variable dis¬crète
En ce qui concerne la météo, il va falloir distinguer les informations, précé¬demment notées x de l’état vrai 0 mais inconnu (au moment où les prévisions sont délivrées au public) de la nature. Ici, l’état de la nature s’identifie au temps qui se manifestera effectivement pour la journée. Pour simplifier, on suppose que l’ensemble O des états de la nature ne prend que trois modalités: O = { 01 : belle journée ensoleillée, 02 : ondées, 03 : orage }. Qu’est-ce qu’un modèle pour ce cas particulier? C’est une structure mathématique qui permet de régénérer des informations plausibles compte-tenu de la connaissance de l’état de la na¬ture. C’est donc ici l’ensemble des probabilités conditionnelles [X = xi |0 = 0j ].
Comment fait-on pour construire un tel modèle? Une façon pragmatique (voir tableau 2.1) est de compter parmi les jours de beau temps (sachant 01 = beau temps) la proportion de ceux qui avaient été annoncés par la météo dans la catégorie soleil (94 %), pluie (5 %), orage (1 %). En situation opérationnelle, la simulation des modèles de la Météorologie nationale associée à des méthodes de perturbations des conditions initiales permet d’établir ces probabilités de façon plus théorique.
2.2.2 Exemple 2 : un modèle binomial de pollution bac¬tériologique
Définissons l’état du système comme la concentration en coliformes O dans le volume hebdomadaire qui transite sur le réseau. On appelle V, le volume des prélèvements effectués pour analyse. En général, on prélève des éprouvettes de contenance V = 200 mL, qui, en moyenne, présentent un nombre OV de coliformes.
On admet ici que la probabilité de présence de coliformes ne varie pas d’une station à l’autre ni au cours de la semaine et que chaque Xi est une variable dite de Bernoulli telle que :
[Xi = 1|θ] = 1 − θ [Xi = 0|θ] = θ
où θ est la probabilité de ne pas détecter de coliforme dans l’échantillon prélevé, qui prend la forme θ = e−eV .
La probabilité de l’ensemble des observations, ou vraisemblance s’écrit donc:
[x|ψ, V ] = [x|θ] = θn−3(1 − θ)3 (2.1)
On constate que cette vraisemblance ne dépend des observations que par la somme s, dont on sait qu’elle est la réalisation d’une variable binomiale :
[S = s |ψ, V ] = [S = s |θ] = s!(n − s)!θn−3(1 − θ)3
n! (2.2)
résultat qui sera utilisé plus loin.
Cette modélisation s’appuie sur trois hypothèses (simplificatrices) fonda¬mentales :
– la concentration en coliformes reste constante au cours de l’opération de contrôle : pas de source (naissances) ni de puits (morts) dans le système, ni de variation spatiale ou temporelle;
– les mesures sont réalisées de façon indépendante;
– les coliformes sont uniformément répartis dans le volume du réseau.
Ces conditions imposent des précautions à prendre au cours de la mise en œuvre de la mesure telles que la limitation de la durée des opérations ou la vérification de l’homogénéité de fonctionnement du réseau.
2.2.3 Exemple 3 : un modèle décrivant les longueurs de saumons
…
Chapitre 3 Risque et aide bayésienne à la décision
Prologue
3.1 Le cadre décisionnel théorique
Ce qui intéresse un décideur c’est de savoir si, ayant adopté une décision a, son incertitude sur θ ne « risque » pas d’entraîner des conséquences désagréables et dans ce cas s’il importe de choisir une autre décision mieux appropriée. Mais alors quelle décision choisir ? Tout ingénieur est familier des études de sensibilité et le réflexe classique est d’analyser la fonction C(a, θ), qui traduit naturellement les conséquences des décisions, pour différentes valeurs de θ. On va supposer que la fonction C est suffisamment régulière pour que à θ connu - c’est-à-dire en situation d’information parfaite -, il existe une décision optimale unique a∗(θ) qui minimise C(a, θ). Mais θ n’est pas connu quand on prend la décision a. Par rapport à la décision a∗(θ) qu’il faudrait prendre, on encourt donc un écart u(a, θ) = C(a, θ) − C(a∗(θ), θ). Cet écart est appelé regret (opportunity loss en anglais). Il indique, comme son nom l’exprime, ce qu’il en coûte en supplément au décideur de prendre pour chaque θ possible, la décision a au lieu de l’optimum. En fait, le décideur sera éventuellement amené à prendre a en lieu et place de a∗(θ) parce qu’il ignore la valeur de θ. La considération de la fonction de regret est donc un élément essentiel de l’étude de sensibilité. Maintenant plutôt que d’évaluer terme à terme plusieurs valeurs de regret pour plusieurs valeurs de θ (ce que ferait une étude de sensibilité traditionnelle), l’approche bayésienne décisionnelle fournit ici une vision intégrée grâce à une méthode plus systématique. Distinguons l’analyse extensive et l’analyse normale.
3.1.1 Analyse extensive (ou a posteriori )
U(a) = θ sachant x u(a, θ)[θ |x]dθ
On réalise ainsi une analyse de sensibilité intégrée où l’on pondère l’écart à l’idéal (calculable en situation d’information parfaite) par la probabilité de cet écart, évaluée de façon conditionnelle à l’information x obtenue
3.1.2 Analyse normale (ou prédictive)
Ici la donnée x n’a pas encore été observée et le décideur doit d’abord choisir le type d’expérimentation e (qui lui fournira xe)