Charge de la preuve scientifique

L' » affaire » Séralini rebondit avec le retrait -décidé par l’éditeur-de l’article controversé, qui se trouve donc « effacé » des tablettes de la science. Extrait du communiqué (trouvé sur retractionwatch ) :

Unequivocally, the Editor-in-Chief found no evidence of fraud or intentional misrepresentation of the data. However, there is legitimate cause for concern regarding both the number of animals in each study group and the particular strain selected. The low number of animals had been identified as a cause for concern during the initial review process, but the peer-review decision ultimately weighed that the work still had merit despite this limitation. A more in-depth look at the raw data revealed that no definitive conclusions can be reached with this small sample size regarding the role of either NK603 or glyphosate in regards to overall mortality or tumor incidence. Given the known high incidence of tumors in the Sprague-Dawley rat, normal variability cannot be excluded as the cause of the higher mortality and incidence observed in the treated groups.

Ultimately, the results presented (while not incorrect) are inconclusive, and therefore do not reach the threshold of publication for Food and Chemical Toxicology.

Donc pour résumer:

  • il n’y a ni fraude, ni erreur
  • en revanche l’interprétation des données est, désormais, considérée comme invalide

Il faut noter que les données elles-mêmes ne sont pas contestées, mais le protocole et son interprétation statistique. Ce qui aurait pu être détecté bien avant dans le processus de revue par les pairs -évidemment validé par la revue-, et ce qui me laisse donc assez dubitatif. Par exemple la question sur les souches de rats utilisée rejoint mon sentiment d’alors sur l’article.

La procédure de retrait de l’article elle-même est, je trouve, assez étrange. Pour être clair: en général il faut bien plus pour retirer « de force » un papier que des défauts d’interprétation, i.e. fraude, plagiat ou erreur manifeste (il suffit de voir les titres en une de RetractionWatch pour s’en apercevoir …). La raison est assez simple: lorsque l’on touche à des systèmes complexes, de nouveaux domaines, il n’est pas toujours évident d’avoir une réponse définitive, totalement non biaisée. Cela donne souvent lieu à des controverses, qui se règlent en général à coup de commentaires. Ainsi les sections « Communications » des différents journaux à haut facteur d’impact ne désemplissent pas d’articles mettant en cause les interprétations des auteurs d’un papier.

On a bien sûr essayé avec le temps d’objectiver tout cela, à coup de p-values et de signification statistique, mais même cette objectivation prête aujourd’hui à débat: ainsi le statisticien Valen Johnson a-t-il proposé dans un article ayant fait pas mal de bruit il y a deux semaines de baisser considérablement le seuil d’acceptation statistique des résultats scientifiques. Imaginons que cette proposition soit acceptée: faudrait-il alors retirer toutes les études les moins significatives statistiquement, vidant du jour au lendemain les CV de nombreux scientifiques dans des sciences plus ou moins molles ? Et comment juger à la même aune différents domaines, lorsque par exemple une expérience de physique des particules génère des Terabits de données à la seconde quand une expérience de toxicologie va mettre plusieurs mois pour produire une poignée de points expérimentaux ?

Sur le long terme, je pense qu’il faut pas mal de flexibilité, et accepter que certains domaines soient plus « mous » que d’autres. La science procède certes par réfutation, mais aussi par accumulation et convergence d’éléments de preuve, un peu comme une procédure judiciaire. Pour moi, les articles scientifiques représentent une photographie au temps t; c’est sur le long terme que le processus de « post revue » par les pairs infirmera ou confirmera une hypothèse. C’est pour cela que le « consensus » scientifique n’est en réalité pas facile à atteindre [1]: c’est une intégrale au cours du temps, éliminant les « fluctuations » non significatives pour faire émerger une vérité scientifique. Dans l’affaire Séralini, je trouve que le retrait de l’article est plus dommageable qu’autre chose: les données existent et sont in fine considérées comme valable par la communauté, retirer l’article est donc une perte sèche; gardons-les ou republions-les dans un autre journal (PLoS One ?). Aux scientifiques de savoir si elles seront pertinentes pour demain. Beaucoup de réactions me semblent relever en fait de bruit pas tellement scientifique, qu’on avait pu capter par exemple sur le cas des bactéries à l’arsenic: entre Schadenfreude de voir un article médiatisé se faire descendre et dénonciation des politiques des revues à fort indice d’impact. A partir du moment où l’on accepte qu’une publication n’est pas toujours la réalité révélée, on peut critiquer, avancer, et trier le bon grain de l’ivraie scientifique sans les scories médiatiques.

[1] et qu’il doit être respecté à sa juste mesure dans d’autres domaines, par exemple le réchauffement climatique.

5 réflexions au sujet de « Charge de la preuve scientifique »

  1. Merci pour ce billet. Je n’ai pas eu le temps d’écrire un billet sur mon blog, mais mon titre aurait été « Le papier de Séralini et al n’aurait pas du être publié, mais il n’aurait pas non plus du être retiré ».

    Concernant les données qui ont une valeur, deux remarques :
    – encore faudrait-il qu’elles soient disponibles. Où sont-elles ?
    – publication dans PLOS One, pourquoi pas, mais dans ce cas un critère très clair est de ne pas sur-interpréter les résultats. Donc ils pourraient publier un papier qui dit quelque chose du genre « No significant effects were observed, with contradictory tendencies according to doses and sex ».

    Finalement, je fais remarquer l’intéressante discussion chez Ariane Beldi :
    http://arianebeldi.wordpress.com/2013/11/29/commentaires-a-chaud-17-les-journalistes-du-nouvel-obs-a-la-rescousse-du-soldat-seralini/

    • Je suis entièrement d’accord avec toi. En particulier, s’il y a des effets statistiques subtils (ou pas, justement), c’est important que ces données soient vraiment disponibles…

  2. Tout à fait d’accord avec la conclusion de Valen Johnson et heureux de voir que le sujet revient à la mode.

    Dans mon domaine très « mou » des études marketing (ou sociologie appliquée, pour faire plus chic), j’ai vu le passage des « small » data aux « rather big » au début des années 90 : auparavant on décidait de croiser deux variables, on sortait le tableau et on regardait ; depuis ±1991, on prend une variable, on la croise par tout le reste de l’info disponible (100 à 10000 variables) et on regarde les plus fortes différences (Student, Chi2).

    Dans le premier cas, le test à 95% de confiance (p=0.05) était tout à fait adéquat ; en revanche, quand on fait 1000 tableaux au pif, ce test ramènerait 50 « différences significatives » par le seul effet de l’aléa d’échantillon. Concrètement je retiens souvent 4 erreurs-types comme niveau de significativité, soit p=6.10^-5 ;garantissant que sur ±10000 croisements, le hasard seul n’en sorte pas plus d’un ou deux comme « significatifs ».

    Maintenant des algorithmes balaient tout l’espace des croisements trivariés (Y croisée par X1*X2) : dans le modèle de la statistique classique, ils devraient exiger environ 6 erreurs-types (p=2.10^-9) pour considérer une différence comme significative.

  3. Ping : Somewhere else, part 96 | Freakonometrics

  4. Merci pour ce billet, je voulais aussi en écrire un mais n’ai pas pu être assez réactif cette fois.

    Bien que je trouve l’étude extrêmement faible et les conclusions clairement sur-interprétées je regrette ce retrait. Les critères avancées par les éditeurs pourraient permettre de retirer un pourcentage non négligeable d’études si on les appliquer à l’ensemble de la littérature. Pour autant ces études ne sont pas inutiles en soi, elles font partie intégrante du long processus qu’est la science.

    Plus que tout, cela montre les limites du peer review pré-publication. Cette étude n’aurait pas du être publiée telle quelle et la revue par les pairs en post publication l’a clairement démontré. Cela aurait pu être un exemple parmi tant d’autres si l’article n’avait pas engendré tant de réactions viscérales et débats biaisés par les partisans pro- et anti-OGM.

    Pour les données elles ont été transmises à des scientifiques connus seuls des éditeurs et des auteurs de l’étude. Elles ne sont pas disponibles pour tous, ce qui est d’autant plus dommageable lorsque l’on touche à un sujet aussi sensible. Cela est bien beau de critiquer Monsanto mais cela serait beaucoup plus crédible si les auteurs publiaient toutes leurs données pour justement montrer quelles sont les bonnes pratiques. Et non se content d’un puérile « si eux ils les montrent pas alors nous non plus ».
    De toute façon, on se doutait bien que les données n’avaient pas été trafiquées. Car il aurait fallu vraiment être idiot pour trafiquer les données et avoir des résultats aussi faibles au final. Le problème étant plus dans l’orientation des résultats (via l’interprétation foireuse des données et l’utilisation biaisée des photos de rats par exemple).

    Merci pour le lien aussi Marc, très intéressant.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *