Ebook sur la statistique bayésienne
Chapitre 1 Introduction
L’eau constitue une ressource énergétique majeure pour l’économie du Québec et de la France. L’énergie produite au Québec est environ à 95% d’origine hydroélectrique; en France, 75% de l’électricité est d’origine nucléaire, mais le turbinage hydroélectrique confère au système l’indispensable souplesse pour s’adapter aux variations de la demande. Sous l’effet de facteurs naturels et socio-économiques (évolution climatique, augmentation de la demande, contraintes économiques et environnementales, déréglementation des mar chés de l’énergie, etc.) cette ressource devient rare et onéreuse. Une gestion efficace repré— sente donc des enjeux considérables. Elle requiert toutefois une connaissance adéquate des observations hydrométéorologiques, notamment en ce qui concerne le caractère incertain de leur évolution temporelle. Ces données et les modèles qui les représentent conditionnent le processus décisionnel. Actuellement, ce type d’incertitude n’est pas considéré de manière rigoureuse dans le processus décisionnel pour l’aménagement de structures hydrauliques et la gestion des réserves déjà constituées: on fait généralement l’hypothèse que la struc ture des aléas d’aujourd’hui reste la même que celle d’hier. En effet, les hydrologues, qui interviennent à titre de conseil en matière de risque auprès du gestionnaire, s’appuient souvent sur des outils statistiques conventionnels qui supposent la stationnarité des séries de débits. Or, de nombreuses études récentes concluent de manière convergente à l’exis tence de changements climatiques qui peuvent avoir un impact sur la disponibilité de la ressource en eau. Nous nous intéressons au cas particulier d’un seul changement dans les paramètres de la distribution de débits annuels qui survient subitement à un instant inconnu. Cette thèse, essentiellement méthodologique, a pour objet de développer des outils statistiques afin de quantifier l’incertitude de changement dans la structure aléatoire des séries de dé bits annuels et de démontrer leur intérêt opérationnel dans un contexte décisionnel. Pour ce faire, nous adoptons l’approche bayésienne. Nous verrons que la statistique bayésienne, avec l’échantillonnage de Gibbs, permet de résoudre les difficultés associées à l’estima tion des paramètres de modèles de changement et à la détection de ruptures. De plus, nous montrons que les résultats obtenus peuvent ensuite être intégrés dans le processus décisionnel et conduire ainsi au développement d’une approche rationnelle complète pour tenir compte de l’effet des incertitudes de rupture lors de la prise de décision.
La suite de ce document est divisée en cinq chapitres. Le Chapitre 2 a pour objet de donner les premiers éléments de formalisation de la question de recherche. On verra que cette dernière se situe à la frontière de la statistique mathématique et de l’hydrologie opérationnelle et qu’elle est issue de l’insuffisance des méthodes employées actuellement par l’hydrologue pour analyser la non-stationnarité des séries hydrométéorologiques. Le Chapitre 3 établit dans un premier temps le cadre statistique de la thèse. On y décrit le modèle général ainsi que les hypothèses sous-jacentes. Nous faisons également une revue de synthèse des principaux acquis concernant l’analyse bayésienne d’une rupture dans une seule séquence de variables aléatoires. Nous décrivons ensuite la mise en oeuvre de l’analyse bayésienne et l’illustrons en considérant deux types de changement dans une séquence de variables aléatoires indépendantes et distribuées selon une loi normale. U s’agit de la rupture simultanée en moyenne et en variance (modèle M3) et de la rupture en variance seulement (modèle M2). Le premier modèle permet une dérivation analytique des lois a posteriori si l’on considère des lois a priori conjuguées. Le second, par contre, n’admet pas de solution explicite. Nous montrons que l’échantillonnage de Gibbs est particulièrement adapté pour résoudre ce type de problème.
Dans le Chapitre 4, nous mettons en doute le fait qu’une seule configuration de chan gement peut survenir dans une série d’observations hydrométéorologiques. On y développe une procédure permettant de tester l’existence d’un changement et, le cas échéant, d’en identifier le type. Notre approche repose sur la sélection bayésienne de modèles. Pour illustrer la méthode, nous confrontons les deux modèles de changement de variance avec le seul modèle actuellement considéré en hydrologie (la rupture en moyenne, modèle M1) et l’hypothèse de stationnarité (modèle M0). Les développements théoriques présentés dans les chapitres 3 et 4 ont fait l’objet de publications scientifiques. Ainsi, nous insistons seulement sur les aspects conceptuels et sur les principaux résultats des applications. Le lecteur intéressé par les détails techniques est invité à consulter les articles I et II qui se trouvent en Annexe A et B de la thèse. Au Chapitre 5, nous proposons trois modèles multidimensionnels permettant l’ana lyse régionale multisite d’une rupture. Le premier modèle (modèle MM1) suppose que le changement survient simultanément pour l’ensemble des séries. Il s’agit d’une simple gé néralisation du modèle M1, et seuls les idées essentielles et les principaux résultats y sont présentés. Les détails sont décrits dans un article publié qui figure en Annexe E (Article III). Les deux autres modèles régionaux (modèles MM2 et MM3), moins restrictifs et plus réalistes, supposent que la date de rupture varie d’une série à l’autre. De structures plus complexes, ces modèles hiérarchiques ne permettent pas d’évaluer explicitement les dis tributions a posteriori des paramètres. Nous avons donc recours à l’échantillonnage de Gibbs.
Au Chapitre 6, nous adoptons le point de vue du gestionnaire en montrant comment les procédures statistiques proposées peuvent être utiles pour la planification d’un projet hydroélectrique. Le cas d’étude considéré est le problème de l’aménagement d’une centrale hydroélectrique d’Hydro-Québec. Il s’agit de la centrale de Touinustouc dont la construc tion devrait débuter en 2002. Enfin, dans le dernier chapitre, nous présentons la synthèse des principaux résultats, nous discutons des limites d’application de nos méthodes et explorons certaines pistes de recherche qui nous apparaissent prometteuses.
Chapitre 2
Et si les régimes hydrologiques etaient en cours de changements?
L’insuffisance des méthodes statistiques employées actuellement par l’hydrologue pour mettre en évidence et caractériser la non-stationnarité des séries hydrométéorologiques a motivé ma question de recherche. En effet, l’hydrologue ne peut alors fournir au ges tionnaire tous les éléments rationnels nécessaires à la prise en compte, lors du processus décisionnel, d’un éventuel changement de régime dans les observations. Ma problématique de recherche se situe donc à l’interface de la statistique mathématique et de l’hydrologie opérationnelle. Ce chapitre en donne les premiers éléments de formalisation.
2.1 Les phénomènes hydrométéorologiques peuvent être non stationnaires
À notre connaissance, Cobb (1978) a été le premier à diagnostiquer une rupture la moyenne de ces observations survenant en 1898. Puisque le barrage Assouan a été mis en service en 1902, cet auteur a suggéré que la rupture serait davantage due à un changement de climat qu’à l’effet de la mise en place de la structure hydraulique. La Figure 2.1 présente les débits annuels du Nil pour la période allant de 1871 à 1970.
…
La polémique entourant la hausse brutale du niveau moyen du lac Victoria au début des années 60 est revenue à l’ordre du jour récemment. En effet, cette rupture dans les réserves du lac Victoria, étudiée notamment par Kite (1981) et Piper et al. (1986), est maintenant au centre d’un débat concernant l’ajout d’équipement de production hydroélectrique à son embouchure à Owens Fails. Alors que de part et d’autre de la date de changement la moyenne des débits du Nu demeure relativement stable, il semble qu’après la rupture de régime la moyenne des niveaux annuels du lac Victoria décroisse linéairement. On aurait donc ici une combinaison des deux types de changements: une rupture à la hausse suivie d’une tendance à la baisse. Enfin, l’étude de la stationnarité des séries hydrométéorologiques africaines a permis d’évaluer les caractéristiques de la grande sécheresse qui affecte l’Afrique de l’Ouest depuis la fin des années 60.
En Europe, Carbonnel et Hubert (1994) se sont intéressés aux séries pluviométriques rou maines et bulgares pour lesquelles une baisse de moyenne au début des années 80 serait survenue. En Amérique du nord, ce sont les séries de précipitations, de débits et de niveaux des Grands Lacs qui ont suscité les études et les débats les plus importants concernant les changements depuis plus d’une décennie (Slivitzky et Mathier (1994), Chao et Hobbs (1997), Venkatesh et Hobbs (1999), Perreault et al. (1999)). La Figure 2.4 montre à titre d’exemple l’évolution des précipitations annuelles des lacs Ontario et Erié depuis le début du siècle. Les précipitations sur ces deux lacs semblent admettre non seulement une rupture de moyenne au début des années 70, mais peut-être aussi une augmentation de la variabilité depuis le milieu des années 20. Remarquons que la rupture de moyenne n’est pas aussi marquée que celle observée dans les séries africaines, à cause de la variabilité plus importante de ces observations.
Certaines séries de débits annuels à des stations canadiennes situées au nord-est du pays présentent une baisse marquée dans leur débit annuel vers 1984, qui pourrait résulter de l’augmentation du NAO (Rasmussen et al. (1999)). A l’examen de la Figure 2.5, on remarque que depuis le milieu des années 70 les valeurs de NAO du mois de mars (l’inten sité du phénomène est particulièrement prononcée de janvier à mars) sont presque toutes positives. La Figure 2.6 présente le tracé des apports naturels annuels de 1950 à 1997 observés à Churchill Falis. Ce site se trouve au Labrador dans la province de Terre-Neuve. On remarque effectivement une baisse du niveau moyen des apports annuels vers le début des années 80. Cette baisse d’hydraulicité semble aussi accompagnée d’une diminution de la variabilité
…
2.2 Le gestionnaire doit prendre ses décisions dans un contexte risqué
Table des matières
Résumé III
Remerciements y
Table des figures xv
Liste des tableaux xviii
1 Introduction 1
2 Et si les régimes hydrologiques étaient en cours de changements? 5
2.1 Les phénomènes hydrométéorologiques peuvent être non stationnaires . . 5
2.2 Le gestionnaire doit prendre ses décisions dans un contexte risqué 11
2.3 L’hydrologue est démuni face à l’incertitude de changement 13
2.4 Le statisticien peut construire des solutions en cohérence avec la demande
du gestionnaire 17
2.4.1 Ma stratégie: adopter la perspective bayésienne 17
2.4.2 Les choix qui définissent le cadre d’étude de ma thèse 20
3 Mettre en oeuvre l’analyse bayésienne dans un modèle de rupture en variance 23
3.1 Modèle à une seule rupture 24
3.1.1 Représentation des quantités observables 24
3.1.2 Représentation des quantités non observables: lois a priori conjuguées 26
3.2 Estimation des paramètres conditionnelle à l’existence d’une rupture en variance 28
3.2.1 Changement simultané de moyenne et de variance 28
3.2.2 Changement de variance seulement 34
3.3 Application à l’analyse locale d’une rupture dans une séquence d’apports énergétiques annuels 36
3.3.1 Application au complexe de Churchill Falls 39
3.3.2 Application au complexe de l’Outaouais 41
3.3.3 Discussion 43
X ANALYSE BAYÉSIENNE D’UNE RUPTURE EN HYDROLOGIE
4 Mettre en doute l’existence et le type de la rupture 45
4.1 Détection d’une rupture et identification de son type .. 46
4.2 Application aux séries d’apports énergétiques annuels de Churchill Falis et de l’Outaouais 50
4.3 Discussion 54
5 Et s’il y a changement climatique, n’y aurait-il pas impact régional? 57
5.1 Modèle multisite à rupture simultanée (MM1) 58
5.1.1 Modèle et résultats techniques 58
5.1.2 Application du modèle MM1 à des séries d’apports naturels pour des sites du nord-est québécois 62
5.2.1 Echangeabilité des instants de rupture 69
5.2.2 Modèle hiérarchique de rupture et stratégie d’estimation 70
5.3 Modèle multisite à rupture variable sans effet de covariation spatiale (MM2) 75
5.3.1 Modèle et notation 75
5.3.2 Lois conditionnelles complètes 77
5.3.3 Application du modèle MM2 à des séries d’apports naturels pour des sites du nord-est québécois 79
5.4 Modèle multisite à rupture variable avec effet de covariation spatiale (MM3) 85
5.4.1 Modèle et notation 86
5.4.2 Lois conditionnelles complètes 87
5.4.3 Application du modèle MM3 à des séries d’apports naturels pour des sites du nord-est québécois 89
5.5 Discussion 96
6 De l’inférence à la prise de décision: l’aménagement d’une centrale hydroélectrique 97
6.1 Problématique étudiée: la centrale de Touinustouc. . 98
6.2 Fonctions économiques 100
6.2.1 Fonction de coût 100
6.2.2 Fonction des revenus anticipés 100
6.2.3 Fonction des bénéfices et des pertes 103
6.3 Analyse bayésienne complète 104
6.3.1 Analyse décisionnelle déterministe 104
6.3.2 Analyse décisionnelle avec prise en compte des incertitudes 105
6.4 Discussion . . . 108
7 Conclusions et perspectives :iii
Bibliographie 116
Annexe 122
A Article I 123
A.1 Introduction 123
A.2 Bayesian analysis of normal sequences with an unknown change-point . . . 126
A.2.1 A single change in the mean (Model M1) 127
A.2.2 A single change in the variance (Model M2) 128
A.3 Implementation of the Gibbs sampler for model M2 130
A.4 Applications 132
A.4. 1 Specifying prior distributions 132
A.4.2 Churchill Fails power system. . . 134
A.4.3 Outaouais power system 137
A.5 Discussion and conclusions 139
B Article II 145
B.1 Introduction 145
B.2 Inference for univariate single change-point models 147
B.3 Entertaining a range of possible models for change-point analysis 149
B.3.1 Definitions 149
B.3.3 Accounting for model uncertainty when forecasting 152
B.4 Evaluations of predictive densities 153
B.4. 1 Posterior predictive density 153
B.4.2 Prior predictive density 154
B.5 Applications assuming normal change-point models 155
B.5.1 The data 155
B.5.2 Specifying prior distributions 156
B.5.3 Inference about the existence and the configuration of a change . 157
B.5.4 Predictive analysis 160
B.6 Discussion and conclusions 163
C Densités de probabilité et principaux moments 171
D Échantillonnage de Gibbs 175
D.1 Algorithme de Gibbs 175
D.2 Estimation à partir de l’échantillonnage de Gibbs 176
D.3 Éléments d’analyse de la convergence pour les modèles MM2 et MM3 . . . 177
E Article III 185
E.1 Introduction 185
E.2 The multivariate normal change-point model 186
E.3 Detection of a change-point 189
E.4 Application 191
E.4.1 Specifying prior distributions 193
E.4.2 Resuits and discussion 194
E.5 Conclusion 196