Big Data Informatique Macrotweet Non classé Physique Recherche Sciences

Macrotweet 3: Le retour de l’humain en data science

En 2008, Chris Anderson, l’ancien éditeur en chef de Wired, prédisait la « fin de la théorie ». D’après lui, les « big data » allaient caractériser ce qu’il appelait un « petabyte age », où les données « parleraient » d’elles-mêmes par la seule puissance d’algorithme d’analyses de données multidimensionnels.  Il n’y aurait alors plus besoin de faire des modèles pour prédire le monde, et l’article se terminait sur une petite provocation:

 Posons la question: qu’est-ce que la Science peut apprendre de Google ?

 
5 ans plus tard, la réponse (non définitive) à cette question semble être … pas grand chose. Rétrospectivement, l’approche la plus scientifique associée aux big data est peut-être la « Culturomics » visant à « quantifier » les tendances culturelles. Mais les data science semblent surtout se développer sous forme de statistiques plus sophistiquées sur des données personnelles auparavant inaccessibles: cercles d’amis, préférences, déplacements, réseaux en général. Il s’agit de cerner avec précision votre empreinte Digitale individuelle, mais s’attend-on vraiment à faire de la Science à une échelle si personnalisée ?

Le problème est qu’une régression linéaire ou une technique de clustering, aussi peu biaisées qu’elles soient, ne peuvent remplacer la définition d’un concept indispensable pour faire avancer la science. Ainsi les tentatives récentes de « science automatique » ne peuvent encore se passer d’un tri manuel « redécouvrant » ce qui est scientifiquement pertinent. On en arrive aussi au paradoxe que si les machines de Google peuvent reconnaître des images de chat, les ingénieurs Google n’arrivent pas à comprendre comment elles le font, ce qui sonne plutôt comme un aveu d’échec scientifique. La situation actuelle n’est en fait pas sans rappeler l’âge pré-thermodynamique au XIXième siècle: si les ingénieurs savaient fabriquer des moteurs thermiques, c’est l’idéalisation de Carnot, introduisant les concepts fondamentaux de travail et de chaleur, qui a permis d’avoir une compréhension profonde des phénomènes en jeu, et, in fine, d’ouvrir une véritable révolution scientifique comme technologique.

On ne pourra pas se passer de la réflexion humaine, et il est cocasse de voir que c’est encore Wired, version 2014 [1], qui l’affirme dans un article intitulé « Why Quants do not know everything? » (pourquoi les « Quants » ne savent pas tout ?). Pour Wired, nous entrons dans une nouvelle phase qualifiée « d’overshoot » »: un âge où les données sont disponibles, mais où du coup il devient simple de les pervertir, de tricher ou de les détourner à son profit personnel en réaction. L’exemple typique est la finance qui n’utilise plus que des algorithmes de fluctuations de court terme pour faire du profit (à défaut d’investissement de long terme). Mais plus généralement, toutes les organisations ne travaillent plus que pour améliorer les classements, et pas la qualité de ce qui est mesuré. La seule solution pour en sortir est de réintroduire du « qualitatif », une expertise humaine en complément de l’analyse faite par les machines. Une démarche en réalité déjà suivie en Science: comme le raconte Nate Silver dans son livre, dans un domaine déjà très numérisé comme les prédictions climatiques, un analyste humain permet d’améliorer le nombre de prédictions valides de 25% par rapport aux seuls modèles numériques. Bref, Google a encore probablement pas mal à apprendre de la Science …

[1] et, coincidence ?, expurgée de Chris Anderson, parti sous d’autres cieux.

About the author

tom.roud

1 Comment

  • Le problème du « big data » est particulièrement prenant en génomique avec l’attitude « Y’a qu’à séquencer pour trouver », l’idée qu’il suffirait de tout envoyer au séquenceur pour que la solution apparaisse miraculeusement. Les projets impliquant du NextGen sequencing les plus intéressants que j’ai pu voir ces derniers temps étaient ceux avec une question biologique clairement posée au début.

Leave a Comment