Biologie Non classé Physique Recherche Sciences

On achève bien les théoriciens

Pablo (au blog disparu ?) me signale un article du philosophe des sciences Massimo Pigliucci, professeur à NYU, dans EMBO Reports, qui revient sur cette fameuse thèse comme quoi nous assisterions à la fin de la théorie en science.

Pour un rappel complet des faits, se reporter à cette note d’Alexandre Delaigue. En bref, Anderson affirme que nous sommes entrés dans un âge où il y a tellement de données qu’elles se suffisent à elles-mêmes, qu’il n’y a plus besoin de modèles pour les interpréter; bref que la théorie est condamnée à brève échéance par les « Petabytes ».
Pigliucci s’emploie à détruire cette idée dans cet article concis et intelligent. Il ouvre sa critique par une invocation de l’équivalent de Dieu le père pour un biologiste, Charles Darwin, qui avait écrit dans son style inimitable :

How odd it is that anyone should not see that all observation must be for or against some view if it is to be of any service!

Qu’il est étrange que chacun ne puisse comprendre qu’une observation doive nécessairement aller dans le sens ou à l’encontre d’une idée pour être utile !

Ou, en langage moderne : les nombres ne parlent jamais d’eux-mêmes. C’est particulièrement vrai quand on considère l’idée d’évolution : Darwin ne manquait pas de données, son idée géniale fut dans l’interprétation de celles-ci …

Anderson, en somme, dit que la corrélation suffit dans l’âge des Petabytes. Mais Pigliucci affirme d’abord (rejoignant Darwin) que même dans la collecte de données, les modèles sont importants, car il faut savoir quelles données regarder, ce qui présuppose une idée préexistante. Pour compléter ce que dit Pigliucci, et je parle d’expérience (…), quelle que soit la mesure, il y a un compromis très net entre quantité et qualité. Plus vous regardez de choses, moins vous les voyez précisément.  Les données brutes, prises sans réfléchir à ce qu’on veut regarder, à la façon dont on va les analyser, sont effectivement bonnes pour la poubelle : il faut de la théorie en amont pour bien focaliser les mesures . Anderson, lorsqu’il  parle de données en quantité illimitées, oublie que leur qualité ne va pas forcément l’être.

Apparemment, Anderson pointe du doigt dans son livre la physique des hautes énergies comme un exemple de ce qui ne va pas en science :

The reason physics has drifted into theoretical speculation about n-dimensional grand unified models over the past few decades […] is that we don’t know how to run the experiments that would falsify the hypotheses—the energies are too high, the accelerators too expensive, and so on.

La raison pour laquelle la physique a dérivé vers des spéculations théoriques sur des grands modèles unifiés à n dimensions est que nous ne savons pas comment mener des expériences qui pourraient réfuter des hypothèses – les énergies sont trop grandes, les accélérateurs trop chers, etc…

Comme Pigliucci, je ne vois pas très bien quelle est la critique d’Anderson ici. Le problème pour la physique théorique est un manque d’information, un manque d’expérience. Si on avait plus de résultats, où serait le problème ?

Anderson poursuit avec un exemple positif : la biologie moléculaire à la Craig Venter, et en particulier le « high throughput biology », la biologie PetaBytes qui génère des tas de données. L’exemple que donne Anderson est cette fameuse manip dans laquelle Venter et son équipe ont pris un seau d’eau et ont séquencé tout l’ADN qu’ils y ont vu (Oldcola l’utilise comme critère pour savoir qui « pige » et « ne pige pas « ). Pigliucci n’a pas l’air de trop piger : il affirme que Venter a répondu à une question théorique qui est « combien d’espèces y a-t-il dans un seau d’eau de mer? ». Et que ces données, pour être utiles dans le futur, doivent susciter d’autres questions théoriques, du genre : « quelle est la structure de l’écosystème ? », « quelle est la variété en termes de bactéries ? », … Et Pigliucci de conclure :

But, without those hypotheses to be tested, Venter’s data are going to be a useless curiosity, far from being the most important contribution to science in this generation.

A moins de tester ces hypothèses, les données de Venter ne sont qu’une curiosité inutile, bien loin d’être la contribution la plus importante à la science dans cette génération.

La science ne consiste pas à trouver des motifs, la science consiste à trouver une explication pour ces motifs. Pigliucci conclut justement en disant que la science sans modèle, la science catalogue, s’apparente à la collection de timbres [1] , bref, ce n’est pas de la science.

Je suis bien évidemment d’accord avec Pigliucci. Néanmoins, force est de constater que la bataille est en train d’être perdue, en biologie notamment, via en particulier les embauches dans cette période de restriction. Il est très clair que la mode est à la biologie Petabytes chère à Anderson, qui génère des données et vaut publication directe dans Science. Vous voulez du boulot ? Faites du microarray au kilo. Surtout pas de la théorie, réduite au mieux à une petite boîte de faible niveau en Supplément, comme une cerise sur le gâteau expérimental, le vrai.  Même le développement  des indispensables outils d’analyse informatique et théorique est d’une certaine façon considéré comme trop technique ou trop accessoire pour vous valoir un emploi [2]. Si la théorie risque effectivement de ne jamais faire ses preuves en biologie, et de mourir lentement, ce n’est  pas faute de qualité ou d’utilité, mais faute de combattants.

Référence

The end of theory in science? Massimo Pigliucci EMBO reports 10, 6, 534 (2009)doi:10.1038/embor.2009.111

[1] c’était le reproche essentiel que j’avais fait à Wolfram il y a très longtemps à propos de son livre A New Kind of Science

[2]Les seuls théoriciens à s’en être vraiment sortis sont les bioinformaticiens, qui ont créé leur propre discipline, autonome et quasi-indépendante des contingences expérimentales

About the author

Tom Roud

Blogger scientifique zombie

13 Comments

  • Je savais bien que ce papier te plairait 🙂
    Quand à  la première question, il est encore trop tôt pour y répondre…

  • C’est une vaste question, qui se pose dans chaque discipline (géographie, littérature… mais aussi informatique). À la base, tu pourrais la relier à l’apparition d’un nouvel outil (l’analyse des données en grande quantité), comparable à l’imprimerie pour la révolution par rapport à l’existant.

    Et le nouvel outil est très tentant, et il permet de jouer avec les données, de les étudier sous toutes les coutures et de faire plein de zoulis graphiques. Il y a déja une décennie, les SIG (Systèmes d’Information Géographiques) trustaient toutes les publications (et tous les postes) en Géographie. De même, en informatique, en ce moment, on voit beaucoup de papiers qui sont du style : « j’ai mesuré plein de données, j’ai fait une PCA/une compression en ondelettes, et j’ai un modèle du phénomène, mais j’ai rien compris à ce que je fais ».

    Ceci étant, on en revient. Certes, comme tu dis, les papiers « analyse pétabyte » permettent de faire nombre. Mais ils ne permettent pas de comprendre, et donc ils n’ont pas une durée de vie limitée. Alors qu’un papier avec une bonne analyse théorique, précisément parce qu’il permet de comprendre les choses, a un impact bien plus grand (tiens, t’as pas linké vers le billet sur les chasseurs-cueilleurs ?)

    Et puis, l’outil informatique peut être utilisé par tout le monde : une grosse théorie, plus un modèle, plus une simulation numérique qui s’approche du réel égale un gros papier avec un impact fort.

    Enfin, je me demande si une partie de ces papiers avec plein de données ne remplacent pas les cahiers de paillasse. Ça serait la version moderne de « si je mélange ça et ça, ça donne ça, et j’ai pas compris pourquoi mais je pense que ça peut vous intéresser de le savoir ».

    Autrement dit, et c’est un point important : il faut avoir une théorie pour comprendre les données, mais il faut parfois aussi accumuler les données expérimentales avant d’avoir l’intuition qui donnera naissance à la théorie (ouais, mais il faut aussi avoir une théorie pour savoir quelles sont les données expérimentales qu’il faut observer…)

  • En parlant de Wolfram, il a fait parler de lui ces derniers temps.

    http://www.wolframalpha.com/

    Je détourne un peu la citation de Rabelais, qui disait « Science sans conscience n’est que ruine de l’âme ». Il parlait plutôt de notions de bien et de mal, mais adaptée au contexte actuel… Le plus large périphérique de stockage du monde, assisté de ses milliers d’algorithmes, n’atteindra pas de but et n’aura pas de sens sans l’intuition humaine. Je dirais même, sans une intuition humaine qui s’est forgée au fur et à mesure de l’apprentissage de la théorie de sa, ou ses disciplines.

    Là où c’est intéressant, c’est que ce genre de machine, entre les mains d’un théoricien accompli qui à force de chercher sait où trouver, décuplera les possibilités d’évolution des sciences et des autres domaines. Elle pourra établir les parallèles que l’humain a occulté, fournir des milliers de listes sur demande, aider à confirmer ou infirmer une direction de recherche, le tout en une minute alors que certains cherchent des années puis se plantent à cause d’un simple maillon faible dans la chaîne de leur réflexion.

    Ca me laisse songeur…. Jusqu’où ira le concept d’unité homme/machine ?

  • @Nicolas: c’est interessant cette notion de paper comme remplacement de la paillasse, j’avais pas pense a faire le rapprochement. Je vois quand meme un probleme: le biais de selection pour les papiers rend le materiel moins interessant que le carnet de labo.

  • C’est assez déprimant. Quand je vois des collègues chercher des protocoles avec 5% d’intuition et 95% de simulations numériques, je me que je suis même pas docteur et déjà old school.

    Je retourne à ma bière.

  • @David :

    Pas d’inquiétude, je ne suis même pas encore rentré en école que je suis déjà old school. Rien de tel que l’intuition et l’intelligence humaine.

  • Bon, il ne s’agit pas de dire non plus que les simulations numériques ou la collecte de données est « inutile ». Je ne crois pas non plus à la science faite à l’intuition pure, ou au calcul pur. Et je trouve que la formation universitaire française, particulièrement en maths et en physique, n’insiste pas assez sur les aspects expérimentaux, donne un peu l’illusion que tout peut se faire sur une feuille de papier ou au tableau. Cela colle avec ce fantasme de « l’esprit pur » qu’on révère en France. Je n’ai moi aussi compris cela qu’au cours de ma thèse…

    Par contre, particulièrement en biologie, il devient tellement facile de collecter des données que cela devient une fin en soi, et qu’on va vers l’extrême inverse, en oubliant le modèle théorique ou même numérique.

  • Je disais « Rien de tel que l’intuition et l’intelligence humaine », mais je me suis mal exprimé : ce que je voulais dire, c’est que j’ai beaucoup de respect pour l’esprit humain.

    Cela dit, j’ai omis de modérer, car, à notre époque…

    Une machine sans l’esprit, c’est une voiture sans chauffeur.
    Un esprit sans machine, c’est une voiture sans essence.

    (La métaphore est pourrie et qui plus est de très très mauvais goût. Excusez !)

    Bref, la machine est un « plus » substantiel à l’application de certaines tâches et devrait être utilisée dans le but d’assister l’esprit dans ses recherches, mais sans le diminuer 🙂

    Je n’ai pas l’habitude d’aller vers les extrêmes : l’idéal, ce serait une formation égalitaire et complète. Mais en France, on est habitué au pour/contre et pas au avec. C’est con.

  • Tiens en parlant de theorie , qu est ce que tu penses du boulot de physiciens comme Barabasi en biological network physics ? Il semble que eux s’en sortent pas mal, voire mieux que les bioinformaticiens ou n’est ce qu un effet de mode ?

  • @ PhD Student : désolé pour le délai, le commentaire est resté bloqué dans le filtre à spam.

    Sur Barabasi : je pense qu’il est un très bon communiquant. C’est pour ça qu’il s’en sort bien, et c’est l’un des problèmes du domaine, car comme les biologistes ne sont pas trop familiers avec la théorie, il y a une certaine sélection de la science bling-bling. Je ne suis pas sûr que Barabasi restera dans l’histoire du domaine.

  • Les petabytes existent aussi en Physique, mais il est très dur de s’en sortir sans modèle. C’est le cas pour toutes les propriétés émergentes. Théoriquement on peut simuler et corréler sans rien y comprendre, mais dans les faits on est forcé d’élaborer un modèle pour comprendre.

    Les correlations, c’est « Mont Lepreux couvert, neige cet hiver ». Ca peut même être prédictif. Mais ce n’est pas plus explicatif qu’une explication religieuse.

    Les petabyte ont une autre incarnation : les simulations informatiques. Et là c’est un problème différent, la « réalité » de ce que l’on simule n’est pas garantie, contrairement à une expérience. Les simulations ont a été une révolution en physique. Une révolution qui irrigue de plus en plus profondément la discipline au fur et à mesure de l’augmentation de puissance des machines.

    Il y a 20 ans, on a découvert grâce aux simulation que des sphères dures, c’est à dire le modèle de particule le plus simple après le gaz parfait, cristallisaient. Ca a surpris tout le monde et la communauté n’a commencé à vraiment y croire que lorsqu’on a pu le redémontrer via un modèle expérimental de sphères dures (des colloïdes).

    Encore maintenant, on a pas une chaine logique la simulation dit que donc c’est vrai, donc publication. Un simulateur publie autant qu’un experimentateur car une simulation c’est facile mais si on découvre quelque chose de trop nouveau on ne vous croie pas, donc on n’est pas publié. En tout cas c’est ce que me dit mon collègue simulateur pour me consoler quand mes expériences foirent ^_^

Leave a Comment