Tout compte fait, qu’est-ce qu’une probabilité ?

Traduction

Cet article a été traduit depuis le site Statsbites

Écriture (anglais) : Sara Stoudt
Traduction : Pierre Marrec
Relecture scientifique : Thomas Merly-Alpa
Relecture de forme : Eléonore Pérès

Difficulté :
Temps de lecture : environ 5-6 minutes.
Thématique : Statistique & Probabilités (Mathématiques)

Publication originale : Freedman D.A. & Stark P.B., What is the Chance of an Earthquake? Earthquake Science and Seismic Risk Reduction, 2003. DOI : 10.1007/978-94-010-0041-3_5.
La prépublication est en accès libre ici.

Si je dis qu’un événement à 70 % de chance d’arriver, qu’est-ce que ça signifie ? Est-ce que les interprétations changent en fonction de l’événement ? 

Quand on découvre les probabilités, on pense souvent à des lancers de pièces, de dés ou à des boules qu’on tire d’une urne. On peut aussi associer une probabilité à des phénomènes plus complexes, comme la chance qu’il pleuve demain. Mais est-ce que notre intuition probabiliste peut fonctionner sur des problèmes encore plus complexes ? Par exemple, comment interpréter : « Quelle est la chance qu’il y ait un séisme d’une magnitude d’au moins 6,7 dans la Baie de San Francisco avant 2030 ? ». L’Institut d’Enquête Géologique des États-Unis (The U.S. Geological Survey) estime cela à 0,7 ± 0,1, soit 70 % plus ou moins 10 % [1].

Philip Stark et David Freedman utilisent cet exemple pour discuter de l’interprétation que l’on peut donner à la valeur 0,7, à son incertitude (± 0,1) et à la probabilité dans ce contexte. Ils remarquent assez vite que l’approche naïve ne fonctionne pas dans ce cas précis : il n’est pas question de tenter plusieurs fois l’expérience comme on lancerait des dés pour calculer des probabilités ! Il est donc nécessaire d’utiliser une approche différente de ce qu’est une probabilité. Celle qui est retenue est l’approche mathématique : la probabilité devient une caractéristique d’un modèle qui prédit des séismes en se basant sur le fonctionnement géologique et physique du sol. Le modèle étant théorique, il est possible de répéter l’expérience un grand nombre de fois. Il subsiste néanmoins de l’incertitude : comme le modèle est aléatoire, le répliquer un grand nombre de fois n’est pas suffisant pour connaître exactement ses propriétés. Par ailleurs, d’autres sources d’approximations, voire d’erreurs, existent dans la structure du modèle qui simplifie le fonctionnement d’un sol et qui est basé sur des données elles-mêmes approximatives. Comprendre la probabilité qu’un événement complexe se réalise est donc tout sauf évident !

Pour en arriver à ces conclusions, les deux chercheurs ont commencé par étudier les différentes interprétations des probabilités en essayant de voir lesquelles fonctionnent bien avec les séismes. La première interprétation des probabilités que l’on rencontre souvent est issue des jeux de chance, c’est ce qu’on appelle la symétrie et l’égalité des résultats. Pour comprendre cette interprétation, prenons une pièce de monnaie. Si elle est bien équilibrée, après un lancer, il y a autant de chance qu’elle tombe sur face que sur pile. On dit que les deux possibilités sont équiprobables La probabilité est donc de 1/2 pour chaque face. C’est la même chose pour un dé non pipé. Comme les 6 faces sont équiprobables, la probabilité de tomber sur chaque face est 1/6. Cette interprétation ne fonctionne plus dès lors qu’il n’y a pas de symétrie. Par exemple, lorsque deux dés sont lancés, le résultat fait plus souvent 7 que 12 car il y a davantage de combinaisons de faces dont la somme fait 7. Il n’y a pas de bonne raison de supposer qu’observer un séisme ou une absence de séisme soient deux événements symétriques, avec la même probabilité ; cette approche ne fonctionne donc pas.

Une autre interprétation naturelle des probabilités est d’imaginer pouvoir répéter beaucoup de fois une expérience. On lance deux dés un grand nombre de fois : on observe qu’obtenir une somme de 2 arrive une fois sur 36, ce qui nous donne sa probabilité. De façon générale, on calcule la proportion d’apparition du résultat étudié : cette proportion est sa probabilité d’apparaître. On appelle cette méthode l’approche fréquentiste. Dans le cas des séismes, elle n’est toujours pas très pertinente car ça ne fait pas grand sens ; il faudrait pouvoir répéter de nombreuses fois la période jusqu’à 2030 pour observer si un séisme s’est produit ou non. 

Ensuite, on peut utiliser le principe de la raison insuffisante. Elle affirme que s’il n’y a pas de raison de croire que les résultats ne sont pas équirépartis, alors on peut supposer qu’ils le sont ; c’est souvent une approche utilisée dans les statistiques dites bayésiennes. En effet, dans les approches bayésiennes, l’estimation d’un modèle repose sur la combinaison d’un a priori (l’information dont on dispose en amont sur le phénomène) et des observations que l’on en fait dans la réalité. Lorsque l’on ne dispose pas de connaissances préalables précises, on peut faire le choix d’un a priori équiprobable. Dans notre exemple, les séismes peuvent apparaître dans une infinité de moments temporels entre aujourd’hui et 2030. La manière de définir les intervalles peut changer les probabilités : il peut y avoir une chance sur deux toutes les années, ou tous les jours, ou toutes les secondes. Finalement, la probabilité change en fonction de la manière dont on a défini les résultats potentiels, et non pas en fonction d’une propriété fondamentale des séismes ; cette interprétation n’est donc pas adaptée.

Une dernière possibilité d’approche est l’interprétation purement mathématique des probabilités. En séparant la réflexion entre le monde très théorique des mathématiques dans lequel on peut définir exactement des probabilités, et celui de la réalité, on obtient une définition de probabilité qui a un sens précis, même si celui-ci reste théorique. Il reste ensuite à définir un modèle mathématique qui soit autant que possible proche de la réalité.  

Comment s’assurer que notre modèle colle bien avec le phénomène qu’il cherche à illustrer ? On peut définir coller avec l’approche fréquentiste. C’est-à-dire que si on simule beaucoup de fois le modèle mathématique (comme il s’agit d’une construction théorique, on peut le faire !), la proportion d’apparition de l’événement doit être proche de la vraie proportion. Cependant, les séismes sont rares et très éloignés les uns des autres donc il y a peu de données pour construire et vérifier l’adéquation du modèle à la réalité. Souvent, les modèles ne collent pas bien avec la réalité et sont en partie faux. Mais certains sont utiles malgré tout car ils permettent de mieux comprendre différents paramètres.

Maintenant que nous avons ces interprétations en tête, revenons à la prédiction de l’Institut d’Enquête Géologique des États-Unis. Un modèle mathématique a été construit et à partir de ce modèle, la probabilité qu’un séisme apparaisse avant 2030 est de 0,7 ± 0,1. Le modèle créé a été simulé un grand nombre de fois. 0,1, l’incertitude, représente la variabilité dans les résultats des simulations utilisées pour arriver à la valeur moyenne de 0,7. En fait, parfois les chercheurs obtenaient 0,702 et parfois 0,6904. Finalement, ils ont obtenus des valeurs entre 0,69 et 0,71. 

Toutefois, Freedman et Stark ont démontré qu’il y avait beaucoup plus de sources d’incertitudes qui devraient être ajoutées que seulement celle liée à la répétition du modèle. Le modèle est lui-même une représentation imparfaite du processus générant un vrai séisme. Il est, en fait, composé d’une multitude de petits modèles géologiques qui peuvent être imprécis et de données possédant des incertitudes. Pour être réaliste, l’incertitude donnée par l’Institut d’Enquête Géologique des États-Unis devrait être bien plus grande. Sauf qu’on ne connaît pas cette incertitude puisqu’il nous manque des données…

En conclusion, interpréter une probabilité est un exercice compliqué, en particulier pour des événements rares et complexes. De plus, les probabilités résultantes des modèles d’interprétations probabilistes doivent inclure des sources d’incertitudes envers les données mais surtout envers le modèle. 


[1] « Working Group on California Earthquake Probabilities. Earthquake Probabilities in the San Francisco Bay Region: 2000-2030 – A Summary of Findings ». Technical Report Open-File Report 99-517, 1999, USGS, Menlo Park, CA.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.