Des corrélations trompeuses aux causes cachées du réel.

La recherche de la causalité est l’essence même de la science. Qu’est ce qui a effet sur quoi? Et comment différencier une réelle causalité entre deux choses avec la simple corrélation entre ces deux choses? La réponse semble évidente dans les cas simples: toute personne mangeant des tomates finit par décéder. Corrélation parfaite, mais nous savons par expérience que le fait de manger des tomates n’est pas un facteur de décès. Plus précisément, nous savons que les principaux facteurs de décès n’ont rien à voir avec les tomates, même s’il n’est pas impossible que manger trop de tomates industrielles chinoises réduise l’espérance de vie.

Autre exemple, dans les années 90 un algorithme appliqué à la gestion hospitalière détermina que les gens admis à l’hôpital atteints de pneumonie seule, survivaient moins que ceux atteints de pneumonie et d’asthme. Les statistiques étaient sans appel, et pourtant tout médecin savait que cela ne pouvait être vrai.

La solution à cette apparente incohérence résidait dans le fait que les patients asthmatiques atteints de pneumonie étaient immédiatement transférés en unité de soins intensifs, leur garantissant de ce fait un meilleur taux de survie que les patients non asthmatiques, soignés en environnement hospitalier normal.

C’est donc l’expérience et le bon sens qui, le plus souvent, nous permettent de différencier corrélation et causalité.

L’exemple de la polémique autour du Dr Raoult et la chloroquine.

On pourra rapporter cet exemple à l’affaire des soins anti Covid-19 par la combinaison d’hydroxychloroquine et d’azythromycine, popularisée par le Dr Raoult, et source d’une incroyable polémique dans un contexte pourri par la corruption, la surenchère médiatique et les intérêts financiers de certains acteurs et actrices de l’affaire: établir des liens de causalité (effectivité, ou non, du traitement) à partir de corrélations observées n’a aucun sens tant que tous les paramètres ne sont pas pris en compte, y compris les biais de procédure, y compris le contexte au sein duquel sont générées les données.

Nous savons aujourd’hui, du fait de méta-études (études des études) qui tentent de reproduire les résultats d’études passées, que de nombreuses « causalités » relèvent en réalité de mauvaises analyses, des liens établis entre (réelles) corrélations et (fausses) causalités. Une cause de ceci est que la statistique classique, développée à partir du début du 20 ème siècle, est mal outillée pour différencier causalité et corrélation.

Limites de la statistique et effet cigogne.

La statistique cherche surtout à déterminer les degrés de corrélation entre différents événements à partir des données dont elle dispose, et une corrélation élevée est souvent considérée comme indicatrice d’un lien causal, mais ce n’est « évidemment » pas le cas. En zététique on parle « d’effet cigogne »:

Une erreur courante est de croire qu’un coefficient de corrélation élevé induit une relation de causalité entre les deux phénomènes mesurés. En réalité, les deux phénomènes peuvent être corrélés à un même phénomène-source : une troisième variable non mesurée, et dont dépendent les deux autres. Le nombre de coups de soleil observés dans une station balnéaire, par exemple, peut être fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n’est probablement la cause de l’autre.

https://fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques)

La fameuse valeur p, souvent citée afin de valider la « réalité » d’une nouvelle découverte ou confirmation d’une hypothèse scientifique, est un calcul de corrélation, pas de causalité. Dans le contexte médical, son utilisation parfois abusive a été remise en cause par, notamment, le statisticien John Ioannidis, une problématique présentée dans ce précédant article (1).

Dans le contexte de la physique, on parle des 3 sigmas ou des 5 sigmas, un calcul statistique donnant une valeur à la probabilité qu’un résultat soit en fait non pas dû à une relation causale, mais à une coïncidence ou toute autre erreur non identifiée. Quand on dit qu’un résultat a passé le test des 5-sigmas, par exemple, on dit en fait que la probabilité qu’il s’agisse d’une erreur est de 1 sur 3,5 million.

Cela semble rassurant, mais cela reste une mesure de corrélation, pas une mesure de causalité en tant que telle car, en effet, un tel outil de pure mesure causale n’existe pas vraiment, du moins pas au sein des boîtes à outils mathématiques habituelles.

Une théorie de l’inférence causale.

Ce problème de fond fut abordé dans les années 90 par, notamment, un mathématicien de l’université de Californie, Judea Pearl, visant à ajouter à cette boîte à outils un opérateur « faire « (doing), un instrument permettant de clairement différencier causes et effets.

Par exemple, appliquer l’opérateur « faire » sur une pression va modifier la mesure du baromètre, mais appliquer « faire » sur le baromètre ne modifie pas la pression. Le principe est de simuler, avec le « faire », ce que l’on pourrait obtenir d’un essai randomisé parfait, mais à partir de données observationnelles, donc non randomisées. Ce qui nous ramène à l’exemple de la chloroquine et au débat sur la nécessité, ou non, des essais randomisés.

En matière médicale il est difficile, à partir de patients réels, d’effectuer des essais randomisés car ceci impliquerait de soumettre certains patients à un placebo, et d’autres à un « vrai » médicament. Le Dr Raoult s’y est toujours refusé, et ceux qui prétendaient le faire y introduisaient des biais en faveur de leurs propres hypothèses. Voir le scandale de l’étude Surgisphere publiée par le Lancet, glorifiée par l’actionnariat de Big Pharma, avant d’être retirée par ce même Lancet pour graves manquements méthodologiques (2).

« Faire », de la théorie à la pratique.

L’opérateur « faire » de Pearl s’adresse spécifiquement à ce type de problème, ce qui lui a valut le Turing Award, ou l’équivalent du Prix Nobel pour les sciences de l’information, en 2011 (3). Un travail qui fonda la théorie de l’inférence causale (4). La nécessité de s’assurer des liens de cause à effet est fondamentale au sein du monde moderne, et ce dans tous les domaines: santé, politique fiscale, écologie etc.., d’où l’important intérêt généré par les travaux de Pearl mais, malheureusement, l’exercice mathématique devient terriblement compliqué dès lors que la situation devient un tant soi peu complexe.

Le lien entre taxation du tabac et santé, par exemple, est perturbé par une panoplie de cofacteurs liés à l’âge, au genre, au mode de vie etc.. Evaluer le lien causal entre le niveau de taxes sur le tabac et la santé publique revient à identifier un ensemble de données où tous les cofacteurs restent stables alors que l’on varie le niveau de taxes, ce qui réduit tellement la taille de l’échantillon final qu’il n’est plus représentatif de grand chose.

Qui plus est, ce calcul d’inférence causale ne peut pas se passer de la connaissance préalable d’un lien de cause à effet. On sait que tel médicament a un effet, mais on a besoin du « faire » pour évaluer son effet indépendamment d’autres facteurs ou biais, conscients ou non. Ce qui rend très difficile l’application de cette méthode sur les cas complexes car on ne sait tout simplement pas si une telle relation causale existe.

Face à cela, certains chercheurs sont partis à la chasse causale via le Big Data: l’application de techniques de data mining sur de vastes bases de données, par exemple sur l’ensemble des études médicales ayant chacune démontré l’existence de liens de causalités entre tel produit et tel effet.

Relier ces études ensemble permet de trouver de nouveaux liens: en simplifiant fortement, si une étude démontre un lien entre A et B, une autre entre B et C, cette technique permet d’établir l’existence d’un lien entre A et C. On peut donc, à partir de cela, appliquer la méthode d’inférence causale afin d’évaluer la force de ce lien et, le cas échéant, en tirer de nouvelles applications.

A la recherche des causes cachées.

En allant plus loin encore, d’autres cherchent des causalités non identifiées au sein des masses de données observationnelles, médicales ou autres, via l’identification de motifs. On sait, par exemple, que le fait de monter la pression atmosphérique fait monter le baromètre, peu importe le lieu de la mesure ou le type de baromètre. L’universalité de certains motifs de ce genre pourrait alors signaler la présence de liens de causalité.

Un test porte sur ce qui pourrait causer tel ou tel pays à avoir tel ou tel taux de natalité (fertility rate). Ce test confirme scientifiquement ce qui est généralement supputé, c’est-à-dire que le taux de natalité dans un pays donné dépend essentiellement du taux de mortalité infantile. L’élévation du second cause l’élévation du premier.

Cette approche de détection de motifs et d’inférence causale trouve une application immédiate et naturelle dans l’étude du changement climatique. L’identification des causes réelles, et la mesure de leurs effets, reste complexe. Par exemple dans quelle mesure la corrélation observée, entre niveau de CO2 et température de l’atmosphère, reflète le lien causal entre les deux phénomènes? En effet l’augmentation de température cause aussi, par elle-même, une augmentation du CO2 du fait de l’évaporation ainsi engendrée.

Si nous acceptons l’idée que nous vivons dans un monde causal, où tout phénomène est l’effet d’une cause, et cause d’un effet futur, le développement d’outils scientifiques permettant d’identifier des causes profondes et cachées indépendamment de simples observations de corrélation, serait de nature presque révolutionnaire. Un domaine dans lequel l’intelligence artificielle jouerait un grand rôle. Mais jusqu’où cela peut-il aller?

Digression sur le fondement du rapport causal.

La question me ramène à deux auteurs, et deux articles traitant du rapport causal. D’abord, la proposition du physicien Lee Smolin visant à remplacer l’espace-temps d’Einstein (où la causalité relève essentiellement de l’illusion) par un univers causal reproduisant l’illusion de l’espace-temps:

Autrement dit ce sont les événements issus d’interactions entre événements « parents » (telles les collisions entre particules à l’échelle quantique), ayant eu lieu dans un certain temps et ce de manière irréversible, qui construisent au fil de ce même temps ce que nous appelons aujourd’hui l’espace-temps.

La clé pour comprendre ce modèle est la notion d’horizon: l’horizon, c’est tout ce qui existe dans le passé d’un événement donné. C’est tout ce que nous voyons derrière nous. Pour que deux événements puissent interagir, pour que nous puissions interagir avec quelqu’un d’autre, il faut qu’il y ait un point de contact, un recouvrement entre les deux horizons car si cela n’est pas le cas aucune information ne peut passer de l’un à l’autre.

https://zerhubarbeblog.net/2019/12/01/de-lunivers-spatial-a-lunivers-causal/

Ensuite, la proposition du mathématicien Stephen Wolfram qui suggère, lui, que la cause de tout soit la répétition ad infinitum d’un ensemble de règles simples qui, au fil du temps, génèrent une complexité énorme que nous nommons la nature, la vie, l’Univers:

Il est possible, en principe, de créer des modèles d’univers basés sur la répétabilité de règles simples (on retrouve ici le principe des automates cellulaires répétant à l’infini les mêmes règles), et certains parmi ces univers feront émerger, telles les deux faces d’une même pièce, les propriétés que nous nommons « relativité » ou « mécanique quantique ».

La première décrit l’échelle macroscopique, la seconde l’échelle microscopique. Ces propriétés émergentes seraient alors deux résultats de l’immense complexité générée, au fil du temps, par la répétition d’une règle de départ excessivement simple.

https://zerhubarbeblog.net/2020/06/30/une-regle-simple-pour-lunivers/

Selon ces deux approches, très différentes mais néanmoins compatibles au sens où elles utilisent une forme de causalité ontologique se reproduisant au fil du temps pour en arriver à l’univers observable, nous sommes véritablement dans un monde causal donc, en principe, déterministe même si, toujours en principe, le niveau de complexité de la chose rend impossible toute prédiction certaine.

Autrement dit, dans un univers causal complexe, on peut savoir que le futur est prédéterminé mais on ne peut pas savoir ce qui le détermine (on ne peut pas remonter à l’état initial), ni trouver de fonction permettant de prédire son avenir. Seuls les liens de causalités simples seraient alors connaissables, ce qui n’enlève rien à leur importance mais relativise malgré tout ce que nous pouvons espérer en tirer.

Liens et sources:

(1) https://zerhubarbeblog.net/2017/10/18/la-plupart-des-articles-scientifiques-nont-aucune-valeur/

(2) https://www.lefigaro.fr/demain/sante/hydroxychloroquine-3-des-auteurs-de-l-etude-du-lancet-se-retractent-20200604

(3) https://fr.wikipedia.org/wiki/Prix_Turing

(4) https://fr.wikipedia.org/wiki/Inf%C3%A9rence_causale

Source initiale: https://www.newscientist.com/article/mg24632790-700-correlation-or-causation-mathematics-can-finally-give-us-an-answer/

A propos Vincent Verschoore

Animateur de Ze Rhubarbe Blog depuis 2008.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.