Biologie Blog Divers Genetique Informatique Non classé Physique Recherche Sciences Symetries

Le meilleur des mondes scientifiques ?

Benjamin posait il y a quelques mois la question existentielle suivante : des robots pourraient-ils faire de la recherche scientifique ? Deux papiers et un commentaire dans le numéro de Science de la semaine dernière prétendent que oui. Réaction longue et à chaud, je ressens comme un malaise. (Via Anniceris notamment)

Grande nouvelle donc, un robot a fait des expériences de génétiques. Plus précisément, ADAM (c’est son petit nom) a mené un raisonnement « hypothético-déductif » de A jusqu’à Z. ADAM était chargé de découvrir de trouver les gènes encodant des enzymes « orphelines », i.e. des enzymes dont on ne savait pas où elles étaient encodées dans le génome. Pour cela, ADAM a automatiquement fait un peu de bioinformatique et de croisement de bases de données pour identifier des gènes candidats, puis il a « conçu » des expériences de génétique pour tester les hypothèses (en gros il a fait croître des souches mutées ou non dans des environnements différents, c’est assez standard), puis il a « lu » les résultats de ces expériences, a conclu et a rendu ces pauvres petites enzymes à leurs parents.
Ross King, le premier auteur du papier, résume la méthode scientifique utilisée par ADAM à la BBC :

C’est comme une voiture. Si vous retirez une pièce du moteur, et mettez le contact, vous pouvez découvrir le rôle de cette pièce particulière.

On a là un condensé en quelques phrases de l’approche génétique classique, à la base d’énormément de papiers [1]. Les travaux de King et al. sont dans la très droite ligne de la tendance de fond en biologie : plus de robots, plus de données (« high throughput »), plus de régression linéaire pour trouver des lois. La théorie se réduit en somme à trouver la bonne équation qui fitte bien les données.

C’est d’ailleurs ce que fait le deuxième robot scientifique dont parle ce numéro de Science. Schmidt et Lipson ont mis au point un algorithme pour « trouver » des quantités conservées dans un système dynamique. C’est l’idée traditionnelle en physique : aborder un problème par ses symétries qui se traduisent par une invariance, en vertu du fameux théorème de Noether (voir sur ce blog pour plus d’explications). Schmidt et Lipson ont utilisé un algorithme plus ou moins génétique, pour « trouver » des lois physiques conservées.

[Passage geeko-physique] L’astuce de leur méthode est qu’ils ont un critère pour identifier les quantités conservées non triviales (par exemple x-xy/y est une quantité triviale) : l’idée assez simple est en gros de dériver l’équation proposée par l’algorithme génétique par rapport au temps, ce qui donne une relation entre les dérivées temporelles d’un côté et x et y de l’autre, qu’on peut confronter aux donnés pour voir si l’équation de conservation est bonne [Fin du passage geeko-physique]

Ils ont appliqué cette méthode notamment à un pendule chaotique, et ont retrouvé le bon hamiltonien conservé, non sans toutefois se livrer à la petite astuce suivante :

For each system, the algorithm outputs a short list of ~10 equations. We then inspect this list manually to select the final equation.

Bon, je me moque un peu, mais les considérations d’optimisation numérique de ce papier ne sont pas du tout inintéressantes.

En revanche, j’ai un peu de mal avec le message sous-jacent de ces deux papiers, « les robots font de la science » annoncé avec tambours et trompettes par Science – il faut voir aussi les titres des articles. Oh, bien sûr, il y a les inévitables passages limitant la portée de la recherche en conclusion des deux papiers. Côté physique, on fait dans la tartine super politiquement correcte :

Might this process diminish the role of future scientists? Quite the contrary: Scientists may use processes such as this to help focus on interesting phenomena more rapidly and to interpret their meaning.

Côté biologie, c’est très amusant, très biologie en fait, sur le mode, « on respecte la théorie, mais ça ne sert pas à grand chose dans la vie de tout les jours, et rien ne vaut la paillasse » :

It could be argued that the scientific knowledge « discovered » by Adam is implicit in the formulation of the problem and is therefore not novel. This argument that computers cannot originate anything is known as Lady Lovelace’s objection : « The Analytical Engine has no pretensions to originate anything. It can do whatever we know how to order it to perform » (her italics). We accept that the knowledge automatically generated by Adam is of a modest kind. However, this knowledge is not trivial, and in the case of the genes encoding 2A2OA, it sheds light on, and perhaps solves, a 50-year-old puzzle .

Si j’avais un robot qui, en compilant bêtement les bases de données, en faisant de la bioinfo et des manips bêtes et méchantes, résolvait un problème soi-disant insoluble depuis 50 ans, j’aurais quant à moi plutôt quelques doutes sur la volonté des gens à vouloir résoudre ce problème !

En réalité, je ressens comme un malaise devant ces papiers, j’ai le sentiment d’assister à la mise à mort lente de la science, ou plutôt d’une certaine créativité scientifique. Nous avons donc un robot qui fait de la biologie…Mais n’est-ce pas plutôt une certaine forme de biologie qui tourne à la robotique ? A force de s’interdire toute spéculation, ne s’est-on pas aussi interdit toute réflexion, au point qu’un robot peut faire le boulot ? J’avais déjà parlé ici de la nécessité de développer de nouvelles approches en biologie. Il est assez frappant de voir qu’on n’en prend manifestement pas le chemin.

Si je n’ai guère plus d’illusions sur certains domaines de la biologie, je suis en revanche inquiet de voir comment cette logique diffuse par ailleurs. En biologie, et probablement de plus en plus ailleurs, on assimile théorie et modélisation, on pense que le pouvoir explicatif est dans le fit plus ou moins bon d’une courbe, et donc qu’un robot ou un biologiste familier avec MATLAB peut « faire » de la théorie. Comment expliquer que la théorie, ce n’est pas cela ? Comment expliquer que la théorie doit rebondir sur les manips, faire d’authentiques prédictions ? Comment d’ailleurs expliquer qu’il y a des prédictions plus ou moins triviales ? Le papier de Schmidt et Lipson est une bonne illustration de ce qui ne va pas : en réalité, la question scientifique n’est pas de trouver la quantité conservée. La question scientifique, c’est de savoir s’il y en a une, ou de savoir pourquoi il y en a une. Le but et l’intérêt de la théorie n’est pas forcément de répondre à une question, ce peut-être aussi d’en formuler une nouvelle pour que la réponse (qu’on peut même plus ou moins déjà connaître le cas échéant) soit intéressante.


Références :

The Automation of Science, Ross D. King et al., Science 3 April 2009: Vol. 324. no. 5923, pp. 85 – 89
Distilling Free-Form Natural Laws from Experimental Data, Michael Schmidt et Hod Lipson,Science 3 April 2009: Vol. 324. no. 5923, pp. 81 – 85

[1] la revue dans laquelle vous publierez dépendra un peu de la difficulté expérimentale et beaucoup de l’aspect sexy de l’objet d’étude

About the author

Tom Roud

Nanoblogger scientifique, associate professor incognito (ou presque). Suivi par @mixlamalice

12 Comments

  • +1

    Cela dit, la période où la théorie « précédait » l’expérience n’a peut-être été qu’une parenthèse de l’histoire des sciences…

  • david ruelle (IHES) a un chapitre ds un de ses livres, dans lequel il defend l’idee que les ordinateurs pourraient faire des mathematiques interessantes bientot…

    un ex (limité) c’est celui du jeu d’echecs. il y a 40 ans on essayait de faire des robots « intelligents » qui comprenaient ce qu’ils faisaient. tres dur!
    les succes enormets depuis 10-15 ans sont venus en fait d’approche « brute force » en calculant plus. (et pas « mieux »)
    resultat: ce qui parait a 1 etre humain comme une intuition brillante peut aussi etre trouve par l’ordinateur a la suite de calculs extremement compliques.

    bref, les ordinateurs pourraient faire de la recherche un jour, pas a notre facon (intuitive), mais avec bcp de calculs mecaniques, ils pourraient arriver a des solutions « innovantes ».

  • Jean-Claude Bradley a publié un billet intéressant qui blâme l’ego des chercheurs pour les pires côtés de la recherche (chercheurs qui s’accrochent tellement à une idée qu’ils évitent les expériences qui pourraient les détromper, ceux qui ne peuvent supporter d’avoir tort et falsifient leurs résultats…) et voit justement dans le robot une des issues de secours ! Ca se discute évidemment — la recherche serait probablement bien triste sans l’ego…

  • Un des possible avantage de ce gentil ADAM serait de lui laisser les taches fastidieuses qui consistent à trouver des gènes dans un génome et de laisser tout le temps aux chercheurs en chair et en os de théoriser comme ils veulent. Cela me fait un peu penser aux progrès techniques dans le séquençage.

  • Personnellement, je n’y vois que des outils de plus, et une nouvelle confirmation que Science et Nature ne sont pas forcement les meilleurs endroits pour communiquer la tête froide. Le robot, il faut bien les lui mettre ses algos. Du coup, il y a de la place pour le chercheur. Il faudra peut-être que les thésards soient encore un peu plus geek qu’ils ne le sont déjà , mais bon ils s’adapteront si il le faut (En parlant de ça à quand un article sur l’évolution des thésards @ Darwin ?).

    Après, c’est comme à chaque fois qu’un nouvel outil expérimental « révolutionnaire » surgit [1]. Il y a ceux qui vont l’employer pour refaire plus vite que les autres les 2000 cas d’écoles au nano plutôt qu’au micro comme un bourrin. Et ceux qui vont utiliser la nouvelle perspective de façon innovante…

    J’ai par contre du mal avec le fossé que tu places entre théorie et modélisation. On est d’accord que quelque soit la question, les réponse « parce que alpha est inférieur à 2.7, bouffon ! », « et depuis quand elle converge UNIFORMÉMENT cette série ? », « c’est linéaire au début, en loi de puissance au milieu, mais sur la fin c’est sur, c’est quadratique » sont incomplètes. Mais la modélisation reste tout de même, pour moi, une étape dans la construction d’une compréhension plus élevée de la physique d’un phénomène. Un bon modèle, dont on connait les limites et pourquoi, est l’outil par lequel une théorie fait des prédictions.

    En fait, je ne suis pas sur de saisir ce que tu veux dire par « théorie ».

    Parce que pour la plupart des « théories » que je connais, il y a un ou des modèles qui y sont associés. Dans mon domaine (la mécaflotte), la théorie c’est facile, c’est une somme de bons vieux bilans des familles. Par contre dans la pratique on ne crache pas non plus sur les modèles qui en découlent. Et comme moi, je fais plutôt de l’expé, parfois ce que je mesure j’en fais une droite bon an mal an. Puis cette droite j’en fais un modèle, j’en parle avec d’autres qui me disent soit que je me plante, soit que j’ai trop raison. Et avec d’autres modèles on se dit qu’il y a peut-être matière à se dire que finalement, l’écoulement il aime bien être comme ci ou comme çaa. Avec un peu de chance, je tombe sur un gars qui a pris le problème dans l’autre sens (pauvre théoricien) et qui s’est amusé à dériver Navier-Stokes pendant 5 ans pour arriver à un modèle qui corrèle pas si mal que ça ma demi décade expérimentale. Et on en arrive à la conclusion que la théorie l’avait prévu. Depuis longtemps en général dans mon cas.

    N’empêche que le modèle dans l’histoire il va aussi beaucoup servir à terme.

    De façon un peu crue mon message peut se résumer ainsi : faire des études paramétriques, chercher les dépendances, les symétries, les optimums, et construire des modèles c’est bourrin, mais parfois ça prend moins de temps que d’attendre que Roger le théoricien du troisième ait pondu sa théorie. Et à l’occasion ça peut l’aider à accoucher. Mais tout ça, doit fortement dépendre du domaine considéré, j’imagine.

    J’ai du mal à voir à quoi peut ressembler « faire de la théorie » en biologie, donc il est probable que je soit un peu dans les choux au niveau de ce commentaire. Je voulais juste justifier mes joyeuses années Matlab curve fitting et me dire que je peux sauver mon âme de scientifique.

    [1] je met révolutionnaire entre guillemets parce que personnellement j’ai faillit publier la même chose, mais avec des stagiaires de M1 ou même M2. Sauf qu’en plus les miens rédigeaient des rapports. Mauvais, certes, mais je m’égare.

  • Moi, développer ce genre d’outil, cela me fait penser à de la méta-recherche :
    une façon de développe des outils limités mais efficaces dans un cadre où il suffit d’avoir suffisamment de ressources pour y arriver dans un temps limité.

    valikor

  • C’est pour ça que le labo de DeGennes marchait si bien, à une époque. Deux trois big théoriciens, et une flopée de très bon expérimentateurs qui travaillaient en symbiose ou presque. En tout cas pas à 200 ans d’intervalle que ce soit « tiens y a un mec en 32 qui a fait des manipes sympas sur le caoutchouc, si j’en faisais une théorie » ou « tiens la théorie de Robert en 1912, personne ne s’y est jamais intéressé, si on essayait de faire des manipes ». Parce que c’est dans ces cas-la qu’on multiplie les pipots, parce que bon, c’est plus facile de montrer que ça marche que de dire que ça marche pas: après faut refaire des tas de manipes, ou pondre une nouvelle théorie.

    Si vous aimez les guerres d’ego dans la science, je vous conseille de lire la littérature sur les films minces de polymère et les histoires de transition vitreuse liées aux effets de confinement. Même sans tout piger, y a de quoi se marrer, tant chacun des 5-10 groupes qui font ça depuis 15 ans sont en désaccord.

  • Merci de vos commentaires

    @ pablo : je dirais que ce n’est pas tant que la théorie doit précéder l’expérience, elle doit l’accompagner, et elles doivent se parler. Ma crainte (particulièrement dans mon domaine) c’est qu’on en soit réduit à la pure modélisation car on s’interdit les approches théoriques plus spéculatives.

    @ francois : justement, je crois que fondamentalement, il y a des problèmes qui ne peuvent pas être abordés par la force brute. Mais c’est un message qui a beaucoup de mal à passer, particulièrement en biologie. Je ne crois pas qu’on aurait pu inventer la mécanique quantique ou la relativité générale par pure force brute, non ? En physique théorique, quiconque a vu un jour l’utilisation de la méthode des répliques ne peut contester qu’il faut un grain de folie et un peu de foi pour faire de la théorie…

    @ Enro : mon expérience, c’est que les gens en science les plus « successful » sont ceux qui ont le plus gros ego. Quand ils sont en plus intelligents, ça fait très mal et la science avance.

    @ Yvic :oui, mais sauf qu’ADAM fait plus ou moins ce que font tous les biologistes ! Le bio mol, c’est quand même beaucoup d’applications de recettes de cuisine et de « savoir-faire ».

    @ Ch’Tom : tu es le bienvenu pour écrire un article sur l’évolution des thésards pour le blog Darwin 😉
    Pour le gap entre modélisation et théorie, disons qu’en méca flotte, au moins, on a une très solide base mathématique (équation de Naviers Stokes, etc…). Crois-moi, si on avait un équivalent des équation de dynamique des fluides pour la biologie, on ferait un énorme progrès, ne serait-ce que parce que les biologistes seraient obligés de se mettre aux maths 😛 . C’est très difficile pour un physicien de comprendre ce qu’est une science exacte virtuellement sans maths, pourtant, c’est exactement le cas en biologie et c’est assez terrifiant. Le pire, c’est qu’en fait, il y a effectivement un peu de maths (par exemple en génétique des populations), mais l’apport de ce genre de travaux est totalement minimisé à mon sens.

    @ valikor : oui, mais il reste à prouver qu’on a besoin de ces outils; moi j’ai franchement le sentiment que ces outils peuvent même être à terme nuisibles en tuant la théorie.

    @ mix : avoir un groupe « mélangé » ainsi demande une certaine ouverture d’esprit de la part de l’institution (j’y inclus les « collègues »), d’un type influent et dynamique, et des théoriciens comme des expérimentateurs dans le groupe. C’est malheureusement assez rare

  • Le pire, c’est qu’en fait, il y a effectivement un peu de maths (par exemple en génétique des populations), mais l’apport de ce genre de travaux est totalement minimisé à mon sens.

    Toute l’interface écologie/évolution est en fait largement mathématisée, ça va bien au-delà de la seule génétique des pops (je pense que Timothée sera d’accord s’il passe par ici). Il ne faut pas oublier que la théorie des jeux doit sûrement autant à Maynard Smith qu’à Nash. Je ne pense pas que ces travaux soient minimisés par ceux qui travaillent dans le domaine, mais on les voit un peu de loin quand on est le nez dans la biologie moléculaire. Par contre, je pense que c’est un exemple qui montre que la biologie peut se mathématiser vite et efficacement quand c’est possible et utile et qu’il n’est pas impossible que ça s’étende un jour à d’autres pans de cette discipline. Paradoxalement, je ne pense pas que le peu de culture mathématique d’une grande partie des biologistes soit un obstacle vraiment préoccupant à long terme (même si d’ici-là nous serons tous morts). Encore une fois, il en était de même en génétique des populations au début (voir le débat Pearson/Bateson, où Bateson ne comprenait rien aux maths – ce qui ne l’a pas empêché d’avoir raison car l’observation qualitative compte aussi ;-)), les lignes ont bougé quand des théories suffisamment efficaces ont fait leur apparition.

    Cela dit j’imagine facilement que pour un physicien le peu de contacts de la biologie avec les maths puisse avoir quelque chose de dépaysant. Je suis tombé sur un exemple assez impressionnant il n’y a pas longtemps dans un article de De Robertis dans Nature Rev Mol Cell Biol : il parle de la capacité de l’embryon à réguler son développement après avoir été coupé en deux et montre cette image avec la légende suivante :

    Note that each twin is longer than just half the length of the intact sibling, which represents yet another effort to regulate towards the normal pattern.

    Même sans avoir fait beaucoup de maths (ce qui est mon cas), on voit que l’auteur a oublié qu’un têtard est un objet tridimensionnel, et qu’on doit s’attendre (sans régulation de la taille, qui serait d’ailleurs surprenante chez un animal qui ne s’est encore jamais alimenté) à un rapport des longueurs non de 2 mais de 2^(1/3). Juste pour voir, j’ai mesuré les têtards sur la photo et on trouve effectivement un rapport des longueurs de 1,26, soit précisément 2^(1/3). C’est totalement anecdotique, mais ça m’a amusé que non seulement l’auteur mais aussi les relecteurs du papier aient laissé passer ça.

Leave a Comment