Biologie Informatique Non classé Sciences Société

Opinion : Wikileaks, biologie des données, émergence

Le journalisme de données et la saga Wikileaks sont la transposition dans la société d’un phénomène récent en biologie : le déluge de données. Quels enseignements tirer de ce parallèle ?

Low-input, high-throughput, no-output biology

Ainsi Sydney Brenner qualifiait-il dans une conférence récente le phénomène de « biologie des données » : en somme, la génération de données brutes ne serait qu’une démarche un peu paresseuse (« low-input' »), coûteuse et n’apprenant au fond pas grand chose de neuf sur la biologie (« no output »). Brenner combat en réalité cette idée que la « science » peut émerger spontanément des données, par une analyse non biaisée et systématique, qu’au fond les données vont générer les théories scientifiques naturellement (et c’est aussi un peu le principe d’algorithmes d’analyse comme Eureka).

Emergence de la connaissance

La démarche de Wikileaks me semble relever de la même tendance : des données brutes et nombreuses, disponibles à tous, va surgir une vérité, obscure dans les détails mais éclatante vue de loin. More is different pour reprendre le titre du papier célèbre du Prix Nobel de physique Phil Anderson. Wikileaks, c’est l’émergence appliquée au journalisme, l’idée qu’un déluge quantitatif va changer la vision qualitative des faits.

Est-ce vrai ? La comparaison avec la biologie de données est éclairante à mon sens. Au-delà des critiques juridiques, sur ce que j’ai entendu, on entend que la majeure partie des « cables » de Wikileaks sont sans aucun intérêt, que cette publication met l’accent sur des épiphénomènes ou que les télégrammes qui semblent un peu « croustillants » ne nous apprennent en fait rien de vraiment nouveau ou rien dont on ne se serait douté. Allez dans une conférence de biologie, et discutez avec des critiques de la biologie des données, vous entendrez exactement le même genre de critiques, à savoir que l’analyse est trop simple, biaisée, et qu’on ne trouve rien de vraiment étonnant ou neuf. Bref, dans les deux cas, ce saut qualitatif à la Anderson ne se produirait pas, les données sont jolies mais totalement inutiles au fond.

Le retour de l’expert

Il y a néanmoins une différence de taille : si je vous donne la séquence d’ADN d’un gène, vous n’êtes pas capable de dire ce que ce gène fait dans la cellule, c’est une information intéressante mais dont on ne saisit pas la portée exacte (aujourd’hui en tous cas), tandis que si je vous dis que « Sarkozy est autoritaire et colérique », d’une part, c’est une information considérée comme signifiante par l’analyste, donc son contenu informatif est maximisé dès la collecte de celle-ci [1], d’autre part, vous êtes capable de replacer cette donnée immédiatement dans un contexte plus global, repensant au « Casse-toi pauvre con », à la brouille avec la commission européenne sur les Roms, et plus généralement à sa pratique politique globale. En d’autres termes, dans le journalisme de données, nous pouvons bien comprendre les sens individuels des atomes de données, mais nous avons déjà une idée de l’image globale, du niveau supérieur émergent, et du coup, nous sommes tout à fait à même de comprendre comment des petits détails deviennent signifiants sur la vision et l’organisation du monde. Dans ce cadre, on a besoin de nouveaux experts, des personnes ayant une bonne maîtrise de ces petits détails, capables de mettre ensemble ce qui est signifiant a priori pour bien nous aider à visualiser cette réalité (cf. cette tribune du Monde signalée par Enro sur twitter).

Où sont ces experts dans la biologie des données ? Ils sont capables de comprendre les petits faits individuels apparemment anodins, de les mettre ensemble dans un cadre plus global, de les faire comprendre à tous par une représentation adéquate. Lisez ou relisez L’origine des Espèces, et vous verrez que c’est exactement la démarche suivie par Darwin. Pense-t-on vraiment que des robots soient capables de faire cela ? Ou n’est-ce pas plutôt le boulot des théoriciens, espèce qui demeure rare en biologie ?

[1] Un exemple de contenu informatif non maximisé serait une description pièces par pièces de la garde-robe du dit Sarkozy,et je ne suis pas loin de penser que certaines données biologiques abondantes ont à peu près le même intérêt.

About the author

Tom Roud

Nanoblogger scientifique, associate professor incognito (ou presque). Suivi par @mixlamalice

6 Comments

  • Je trouve que le parallèle que tu évoquais sur Twitter entre Wikileaks et le Climategate était beaucoup plus révélateur que celui-ci. Il me semble que le principe fondamental de Wikileaks est que tout doit etre publié. Ils ont commencé par lever quelques beaux lièvres (la vidéo en Irak), puis se sont retrouvés en possession de cette immense jeu de données et fidèle au principe évoqué plus haut, l’ont rendu public. La masse de données n’est qu’une conséquence et pas un but. Si tout écrit peut etre publié, il devient tres compliqué d’établir une stratégie en interne avant une négociation, que celle-ci soit d’ordre diplomatique, ou d’ordre scientifique. Personnellement, je detesterai que mes emails soient publiés, parce qu’ils contiennent beaucoup d’erreurs, de fausses pistes, de figures érronées etc. Je veux etre jugé sur ce que je publie par le canal officiel (dans mon cas, des articles scientifiques).

    Pour ce que tu appelles la biologie de données, j’aimerai bien des sources. Peut etre l’as tu évoqué dans des billets précédents, mais vraiment: qui parmi les praticiens de ce genre d’approche prétend que la théorie va se dégager toute seule de la collection de données?

    Pour fréquenter assidûment un consortium de génomique (disons un petit neveu du Human Genome Project), je ne vois personne tenir de tels propos. En revanche, nous croyons que collecter l’information permettra de batir des explications prenant en compte l’ensemble des faits, plutot que des théories trop facilement réfutables. Spécifiquement, pour comprendre la régulation des gènes, il faut se placer au moins à l’échelle du génome (pas simplement en tant qu’ADN, mais en tant que molécules, avec ses modifications, ses histones etc). Cela implique des expériences collectant de vastes jeu de données…

    Cette idée d’émergence spontanée de la théorie a partir des données me semble en fait une idée très… théorique, et pas du tout pratique!

  • @ Pli : c’est la critique générale qu’on peut faire à mon avis sur le recueil de données « non biaisé ». Il y a évidemment le biais sur ce qu’on mesure, qui lui même en soi dépend du « modèle » qu’on a a priori. C’est l’illustration qu’il y a bel et bien une forme de théorie en amont.

    @ Nicolas : oui, je pensais revenir sur le parallèle entre wikileaks et climategate dans un prochain billet en fait, mais je suis d’accord avec toi, je ne sais pas si ça vaut le coup. Cela dit, je ne suis pas sûr que dans le cas de wikileaks, la masse de données ne soit pas un but en soi. Quand tu regardes ce qui sort, dans ce « cablegate », aucun cable « individuel »n’aurait eu autant d’impact dans les media je pense.

    Sur la biologie des données dont va émerger la science, c’est une idée défendue par des « analystes » de la science comme Chris Anderson par exemple (rédacteur en chef de Wired) qui en a fait un livre et revient régulièrement dessus. Voir aussi les tentatives récentes d’application de la stratégie google aux données biologiques :

    http://www.wired.com/magazine/2010/06/ff_sergeys_search/all/1

    Côté « vrais » scientifiques, Eureka dont je parle dans le billet est une bonne illustration de cette tendance, mais c’est vrai que c’est une idée de théoricien. Dans ce même billet, je cite l’exemple d’ADAM, le robot qui fait de la biologie tout seul, publié dans le même numéro de Science, qui est une idée d’expérimentateur

    http://tomroud.cafe-sciences.org/2009/04/09/le-meilleur-des-mondes-scientifiques/

    Maintenant, j’ai aussi mon expérience personnelle, de travail avec des vrais biologistes, donc certains se lancent dans de grandes entreprises d’array massifs, dans l’espoir que quelque chose en sortira. La plupart du temps, on a quelques résultats qualitatifs, mais rien de très surprenants ni de forcément hyper informatif. La révolution fondamentale attendue par l’analyse de ces arrays n’a pas eu tellement lieu à mon avis.

  • Il y a me semble-t-il une autre différence de taille entre le data crunching que tu décris et l’approche de Wikileaks. Même si je ne trouve pas les infos de Wikileaks toujours très intéressantes, il faut leur reconnaître qu’ils n’ont pas seulement livré l’info en vrac: ce serait oublier qu’auparavant, ils ont confié toutes ces données à cinq journaux des plus prestigieux (Le Monde, NYT, Le Guardian, le Spigel, le Bureau of investigative Journalism) précisément pour qu’ils fassent le boulot de filtrage, d’analyse et de mise en perspective des données. Bref Wikileaks a permis (ou aurait pu permettre) du vrai travail de journalisme bien classique.

  • Je suis pas sûr de bien comprendre le point de vue. Le mien, extérieur à la biologie et plutôt du côté de l’informatique, est que les données devraient, à priori, pas forcément « parler » toutes seules (objectif ambitieux), mais que les biologistes pourraient s’appuyer dessus pour faire de la recherche sur certains sujets.

    De ce que je comprends, vous considérez qu’elles ne sont pas très utiles. Est-ce parce qu’elles sont difficilement interprétables, trop biaisées ou incomplètes pour être vraiment utile et qu’une recherche efficace en nécessite en fait de bien différente ?

    L’autre solution que vous évoquez, qui va avec l’incomplétude ou l’inadéquation, serait que nous comprenons suffisamment peu des phénomènes biologiques pour les faire parler …

    Cependant, ce qui me « dérange » un peu dans ce point de vue, c’est qu’on sent en filigranne un peu une idée que ces données sont non seulement inutile mais aussi contre productive … Est-ce parce que vous considérer que des moyens financiers et des ressources seraient mieux employées d’une autre manière ? Ou parce que ça ne correspond décidément pas à votre manière de travailler et de voir la biologie ?

    A priori, de l’extérieur, je dirai que les deux manières ne sont pas antynomiques et se complètent l’une et l’autre.

  • @ Xochipilli : je suis d’accord qu’il y a ce travail de journalisme important, c’est un peu le sens de ma conclusion, qu’il faut des gens pour faire la synthèse (mais pas forcément des journalistes).

    @Thomas : en biologie, bioinformatique, etc… il y a quand même cette notion que les données doivent parler d’elles-mêmes quelque part. L’idée est que sinon, quand on traite des grosses masses de données, si on cherche quelque chose en particulier, on va être biaisé et on risque un peu de faire du cherry-picking.

    La question de l’utilité des données peut parfois se poser effectivement, notamment pour des questions financières, mais pas seulement. On a parfois le sentiment que les gens se lancent dans du high-throughput dans une espèce de fuite en avant de l’après-génétique, dans laquelle faire la liste de gènes nous dirait de plus en plus de choses (alors qu’il faudrait au contraire comprendre le niveau du dessus).

Leave a Comment