Médecine fondée sur les preuves : le grand malentendu statistique
Les tests statistiques et leur p-value apparaissent comme la garantie qu’un essai clinique apporte une vérité scientifique. Une croyance planétaire illusoire fondée sur un malentendu. Décryptage.

Cela a déjà été qualifié de « secret le plus honteux de la science », en le présentant en ces termes mesurés : « la “méthode scientifique” consistant à tester des hypothèses par analyse statistique repose sur des fondements fragiles. » Une méthode néanmoins devenue la norme utilisée de manière quasi généralisée. Elle apparaît ainsi presque constitutive d’une médecine dite fondée sur des preuves censées attester d’une scientificité qui serait synonyme de fiabilité pour déterminer l’efficacité d’un traitement, notamment un médicament. Avec comme étalon de mesure la valeur du petit p, ou p-value. Un chiffre généralement perçu comme un indice de confiance dans les résultats d’un essai clinique. A tort.
Le problème est que la p-value ne dit pas ce qu’on lui fait dire.
Le petit p est souvent compris comme le risque que l’on prend de se tromper en concluant à l’existence de l’effet d’un traitement. On le résume même volontiers ainsi : une p-value de 0,05 donnerait une confiance d’au moins 95 % que le traitement A est supérieur au traitement B, en s’accordant donc une marge d’erreur de 5 %. La marge usuelle dans ce que l’on appelle le test de significativité ou de l’hypothèse nulle, dont l’utilisation perdure malgré des critiques récurrentes. Le problème est que la p-value ne dit pas ce qu’on lui fait dire, ce qui invite à questionner, voire à remettre en cause, ce fondement statistique fragile d’une médecine considérée comme scientifique. En fait un grand malentendu, qui peut conduire à croire à l’efficacité de traitements que les tests statistiques, mal interprétés, ne permettent pas d’établir.
Un incontournable rituel
L’hiver dernier, le professeur en santé publique Nicolas Meyer, biostatisticien spécialiste de la méthodologie en essai clinique, a publié dans Journal of Clinical Medicine un article visant à clarifier la situation. « Je n’y dis rien de nouveau, tout est déjà dans la littérature scientifique, parfois depuis un siècle, mais de manière disparate, souligne-t-il. Il convient donc de marteler un message qui a du mal à passer dans le monde médical où la p-value a pris un tel poids. On se trouve devant une forme de résistance commune à ce que l’on rencontre dans tous les changements de paradigme. » En l’occurrence celui qui fait de l’utilisation de ces tests et de ce petit p un incontournable rituel à accomplir et à satisfaire. Et ce pour obtenir cette valeur inférieure ou égale à 0,05, signifiant que le risque que l’on se trompe dans l’interprétation de ses résultats est assez faible pour pouvoir juger son hypothèse validée, de façon présomptueuse.
Le test de l’hypothèse nulle résulte de la superposition de deux approches centenaires très distinctes, amalgamées et hybridées avec le temps.
Dans son article, Nicolas Meyer commence par rappeler un fait troublant mais central sur la nature de ces tests statistiques. Ils ne constituent pas un bloc cohérent, car résultent de la superposition de deux approches centenaires très distinctes. Elaborées dans des contextes différents par des auteurs qui se sont violemment affrontés par publications interposées, elles ont toutefois été amalgamées et hybridées avec le temps, de manière implicite, pour aboutir au fameux test de l’hypothèse nulle. Or, d’un côté, le test d’hypothèse de Neyman et Pearson adopte une logique de décision, conçue pour répondre à des problématiques industrielles, en permettant de classer des lots de produits selon leur conformité afin de les accepter ou de les rejeter. Avec un taux d’erreur tolérable, mais sans pour autant déterminer la probabilité de cette conformité. De l’autre, le test de signification de Fisher repose sur une logique d’évaluation de la plausibilité des données sous une hypothèse proposée. Moins sophistiqué au niveau mathématique, il a toutefois fixé le risque d’erreur à rejeter l’hypothèse nulle à cette valeur arbitraire de 5 %, correspondant au petit p de 0,05.

Une confusion désastreuse
Au cas où la différence entre décision et évaluation qui oppose ces deux tests vous paraisse quelque peu obscure, un autre biostatisticien spécialiste de la méthodologie, le professeur Bruno Falissard, m’aide à résumer la problématique : « Les deux méthodes n’ont rien à voir, mais on les a mélangées, car le petit p de Fisher est également utilisé comme intermédiaire de calcul dans les test de Neyman et Pearson. Cela induit une grande confusion, assez désastreuse. » Elle passe toutefois largement inaperçue, pour une raison toute simple, pointée par Nicolas Meyer : « Le gros problème est que les tests statistiques, bien qu’extrêmement subtils au niveau conceptuel, sont très simples à utiliser grâce à des logiciels. La plupart de ceux qui s’en servent ne comprennent rien aux statistiques et à ce qu’ils font, mais le maniement de ces logiciels est tellement facile qu’ils ne s’en rendent absolument pas compte. » Seule importe l’obtention d’un petit p qui ne dépasse pas 0,05, ce qui peut conduire à la mauvaise pratique du p-hacking. Une forme de manipulation des résultats consistant à écarter ou à inclure certaines données qui permettront de passer sous le seuil fatidique du statistiquement significatif.
« On oublie que l’on ne peut pas trancher entre le vrai et le faux. Seule a été acceptée l’hypothèse que le traitement marche, ce qui ne veut pas dire qu’elle est prouvée ! »
B. Falissard
Appliqué à un essai clinique, un petit p qui satisfait ce seuil de 5 % permet de soutenir la significativité de l’effet obtenu sur l’échantillon de patients testés. Par exemple un taux de mortalité inférieure dans le groupe qui utilise un nouveau médicament par rapport à celui observé dans le groupe contrôle auquel a été prescrit un placebo ou un traitement de référence. En clair, on considère que le médicament a fait la démonstration de son efficacité, en présumant que l’on peut extrapoler le résultat obtenu sur l’échantillon dans la population générale. Une erreur fondamentale, déjà parce qu’un échantillon livre surtout de l’information sur les personnes qui le composent. Elle est aggravée par l’association des méthodes divergentes du duo Neyman-Pearson et de Fisher. C’est-à-dire l’ajout de la logique binaire (hypothèse acceptée ou rejetée) des premiers au petit p du second, qui, pour sa part, invite à trancher entre efficace et inefficace dès lors que le seuil de 5 % est respecté. « C’est un drame absolu, car les gens pensent alors que l’hypothèse est vraie et démontrée, déplore Bruno Falissard. On oublie que l’on ne peut en réalité pas trancher entre le vrai et le faux. Seule a été acceptée l’hypothèse que le traitement marche, mais le scientisme incite à affirmer que l’on a “prouvé” son efficacité, grâce au petit p. Or accepter une hypothèse ne veut pas dire qu’elle est prouvée ! Un quiproquo planétaire. »

Démythifier le « p »
Dans un article qui va paraître dans la bien nommée revue Anesthésie et réanimation, le professeur Falissard s’attache à « démythifier le “p” ». Il explique ce que disent réellement les tests statistiques sur l’usage desquels reposent aussi bien les essais cliniques randomisés que les travaux d’épidémiologie, et rappelle ainsi que ces tests ne démontrent rien. Car ils ne relèvent pas « de la démonstration logique ». Ils ne font qu’« indiquer que les données sont plus ou moins compatibles » avec l’hypothèse testée, ce qui permet de prendre « une décision pragmatique dans un cadre conventionnel ». Par exemple une autorisation de mise sur le marché (AMM) d’un médicament quand le p laisse penser que la différence observée entre les deux groupes testés lors d’un essai clinique ne s’explique pas par le hasard.
Une surinterprétation du seuil de 5 % incite à passer du blanc ou noir selon que le p est à 0,049 ou 0,051.
Le biostatisticien prévient en outre des dangers d’une standardisation doublée d’une simplification excessive de ces tests qui font figure de rituels institutionnels encadrant la communication entre chercheurs, malgré leurs limites conceptuelles. Avec aussi deux dérives fréquentes. D’abord une surinterprétation du seuil de 5 %, qui incite à passer du blanc ou noir selon que le p est à 0,049 ou 0,051, le premier pouvant être synonyme de grande découverte tandis que le second serait forcément négatif, ce qui est trompeur, et suscite le p-hacking. La seconde dérive consiste à confondre absence de preuve et preuve d’absence quand deux traitements ne montrent pas de différence significative, ce qui ne suffit pas à conclure qu’ils sont équivalents.
Pour Bruno Falissard, le problème des tests statistiques, qu’il juge « colossal », devrait principalement se régler au niveau de leur enseignement. Il conviendrait donc de faire de l’épistémologie pour rappeler leurs limites, leurs lacunes, leurs fragilités fondatrices, tout en leur reconnaissant une certaine utilité. L’idée serait de mieux apprendre aux futurs chercheurs que « ce ne sont ni des oracles ni des machines à produire de la vérité », mais de simples « outils d’aide au raisonnement, construits sur des conventions historiques parfois conflictuelles ».

L’alternative bayésienne
Nettement plus radical, Nicolas Meyer appelle, quant à lui, à en finir avec un petit p qui ne présenterait « pas d’intérêt par rapport à la question qui devrait intéresser les médecins : connaître la probabilité pour un traitement d’être efficace. Associant deux méthodes distinctes et inadéquates en une combinaison encore pire, comme un mélange de choux et de carottes, ces tests statistiques n’auraient en fait jamais dû être utilisés. » Il faut dire que le biostatisticien préconise une méthode alternative, qui ne date, elle non plus, pas d’hier. « Neyman et Pearson disaient eux-mêmes que si l’on voulait faire de la science, il fallait utiliser le bayésien », souligne d’ailleurs le professeur Meyer en se référant à cette méthode qui lui paraît « logiquement implacable et mathématiquement indiscutable ». Grâce une approche très différente de celle des tests statistiques utilisant le petit p, également qualifiée de fréquentiste.
Le bayésien cherche à tirer le maximum de ce que l’on sait et de ce que l’on observe pour estimer à quel point il est raisonnable de penser qu’un traitement fonctionne.
Contrairement à l’approche bayésienne, la méthode fréquentiste repose entièrement sur les événements survenant dans un échantillon testé – par exemple la mort ou l’hospitalisation - pour raisonner comme si l’expérience pouvait être répétée indéfiniment avec une même fréquence de survenue des événements. Cela arriverait certes souvent si l’on refaisait sans cesse le même essai, sauf que cela ne correspond pas à la vraie vie, ni même à la réalité de la recherche clinique, où chaque essai diffère d’un autre par ses patients, ses biais et ses limites. Le bayésien aborde donc le problème autrement. Il ne cherche pas à imaginer des répétitions fictives, mais à tirer le maximum de ce que l’on sait et de ce que l’on observe. La probabilité n’est alors plus une fréquence attendue, mais un degré de crédibilité : à quel point, compte tenu des données, il est raisonnable de penser qu’un traitement fonctionne. « La probabilité que A soit supérieur à B résulte ainsi de la connaissance disponible à un temps T, et pas de la fréquence en fait incertaine d’un événement que l’on présume en fonction de résultats obtenus sur un échantillon qui est toujours un peu différent de la population dont il est tiré », précise Nicolas Meyer

Un a priori subjectif
Dans son article, l’universitaire plaide pour l’adoption des tests bayésiens qu’il estime bien plus adaptés à l’évaluation des éléments non observables que sont les effets d’un traitement en population générale, tandis que le fréquentiste s’appliquerait mieux aux éléments observables survenant lors d’un essai sur un échantillon de patients. « On cherche des résultats parfaitement objectifs pour l’ensemble de la population, mais le caractère aléatoire et variable des échantillons ne le permet pas, ajoute-t-il. Il est donc plus approprié d’utiliser les probabilités subjectives, ce que refusent les fréquentistes car ils confondent le subjectif et le doigt mouillé. Cela renvoie pourtant au contraire à ce que l’on connaît déjà d’un phénomène, qui permet d’établir ce que l’on appelle le prior. » Une sorte d’état des lieux qui précède l’expérimentation que va constituer un essai clinique. Alors que le fréquentiste part de zéro, le bayésien part du prior, un a priori qui prend ainsi en considération ce que l’on peut déjà savoir, même si c’est parfois très vague. Par exemple les résultats d’autres essais cliniques mais aussi de la pharmacologie ou de la chimie qui décrit les mécanismes d’action plausibles d’un médicament laissant présager d’une efficacité, entre autres données. « Le prior est donc la formulation scientifique de cette connaissance déjà disponible », résume Nicolas Meyer.
« Il est clair que le prior devrait souvent être plus détaillé, mais ce n’est pas parce qu’un article est mal écrit que la méthode est mauvaise. »
N. Meyer
A ce prior vont ensuite s’ajouter les données recueillies durant l’essai clinique. La part accordée à l’un et l’autre dans le résultat final dépend de chaque situation, en fonction de ce que l’on savait à l’avance d’un traitement et de l’ampleur des données qu’apporte l’essai par ses effectifs ou sa durée. Le côté subjectif, sujet à la critique, résulte ici de la composition du prior, des éléments pris en compte, choisis par ceux qui réalisent l’étude. Des données dont la pertinence pourra être jugée discutable, surtout pour un nouveau médicament. D’autant que le prior s’avère fréquemment mal défini dans les publications qui utilisent la méthode bayésienne. Le détail de son élaboration peut ne pas être divulgué, bien qu’on lui accorde une grande importance au final, ce qui relativise grandement les résultats d’un essai. Certains pourront alors trouver les dés pipés par une présumée connaissance a priori, relevant de l’arbitraire ou du préjugé. « Il est clair que le prior devrait souvent être plus détaillé, mais ce n’est pas parce qu’un article est mal écrit que la méthode est mauvaise, objecte Nicolas Meyer. Cela relève du travail des reviewers chargés de valider les articles, et comme pour n’importe quelle publication, il importe avant tout de disposer de données transparentes qui permettront de discuter et de critiquer la nature du prior ainsi que les résultats de l’essai. »

Le match fréquentiste-bayésien remporté par une troisième méthode ?
Le biostatisticien strasbourgeois note que la FDA, l’agence fédérale américaine, a recommandé en janvier dernier l’utilisation du bayésien pour les demandes de mise sur le marché des médicaments, vingt ans après l’avoir fait pour les dispositifs médicaux. Il y voit la marque d’une tendance à se tourner vers « le seul outil valide dont on dispose ». « On parle depuis 30 ans du bayésien, mais son usage reste ultra marginal », remarque pour sa part Bruno Falissard, d’accord avec son confrère sur la critique structurelle de l’usage du petit p, mais pas convaincu que l’alternative bayésienne soit la solution. Il adopte plutôt la position historique de Fisher, selon qui le préjugé scientifique d’une étude, le prior, est effectivement important à intégrer dans sa discussion pour éventuellement relativiser ses résultats, mais sans qu’il faille pour autant le mêler à ses derniers dans un même calcul. Il relève aussi que la recommandation de la FDA peut intéresser des firmes pharmaceutiques de plus en plus portées sur les thérapies de précisions et les maladies rares aux traitements hors prix de prix, pour lesquels les essais randomisés habituels sont difficiles à mener. « Le bayésien et ses priors pourraient pallier cela, mais des résistances considérables, et justifiées, se font jour », ajoute le professeur Falissard. L’opportunité de mises sur le marché accélérées facilitées par des priors enjolivés pourrait en effet stimuler une tendance à l’arbitraire et au préjugé favorable.
« Avec les essais pragmatiques, on n’aurait besoin d’aucun test statistique en raisonnant en termes d’impact de santé publique avec des critères robustes. »
B. Bégaud
Pour le pharmacologue Bernard Bégaud, ce match annoncé entre le petit p et le bayésien serait toutefois déjà dépassé à l’heure du Big data, qui pourrait consacrer comme vainqueur une troisième méthode élaborée dans les années 1960, et longtemps ignorée : les essais pragmatiques. « On évalue en conditions réelles deux stratégies attribuées par tirage au sort, et on regarde in fine la différence, explique le professeur en pharmacologie. On n’a alors besoin d’aucun test statistique, et on raisonne en terme d’impact de santé publique avec des critères pragmatiques et robustes comme la guérison, la mort, l’hospitalisation ou un autre événement binaire. » Cela fonctionnerait pour de vastes études de pharmaco-épidémiologie utilisant les bases de données publiques, mais serait aussi susceptible de remplacer les grands essais cliniques de phase 3 qui permettent la mise sur le marché de médicaments. Un quasi-monopole de l’industrie, qui pourrait ainsi, pourquoi pas, être court-circuitée par cette alternative dans laquelle des volontaires se verraient prescrire de nouvelles molécules dans des centres experts sous le contrôle d’autorités de santé qui récolteraient ainsi les données. Seules les évaluations précoces sur de petits échantillons de patients, les essais de phase 1 et 2, pourraient alors avoir encore besoin de tests statistiques.
Sortir de l’illusion scientiste
La solution évoquée par Bernard Bégaud serait révolutionnaire si elle conduisait les autorités de santé à reprendre ainsi la main sur la mise sur le marché de médicaments. Elle dépend aujourd’hui de preuves fournies par une industrie qui sait manier les statistiques et le petit p en leur faisant dire ce qu’ils ne disent pas, comme tant de chercheurs qui survendent leurs résultats. Mais si l’on prenait déjà acte qu’un grand malentendu alimente la croyance erronée qu’une p value aux fondements fragiles, voire inappropriés, apporte une garantie d’efficacité, dans les faits factice, on réaliserait une importante avancée, à laquelle œuvrent Nicolas Meyer et Bruno Falissard. Elle devrait bien sûr aller de paire avec une vraie transparence sur les données brutes des essais cliniques, afin que des analystes puissent refaire les calculs déterminant tant l’effet d’un médicament que la significativité des résultats. Et s’accompagner de priors tout aussi transparents dès lors que l’on utilise du bayésien. Sans oublier, dans tous les cas, de s’imposer une grande humilité, en gardant à l’esprit que la médecine n’est pas une science exacte, même si des résultats statistiques peuvent en donner l’illusion.



Merci pour cet article très intéressant qui permet de relativiser bien des postures…
Et si l'on prend en compte que seule l'industrie a les moyens de financer ces essais randomises, on comprend comment Big Pharma réussit le tour de force de manipuler l'information “scientifique “