5 leçons scientifiques du succès de Nate Silver

La communauté scientifico-geek s’est trouvée un nouveau héros au cours de cette élection présidentielle américaine: Nate Silver, l’auteur du formidable blog 538, qui, à l’heure où je vous parle, a fait un sans faute au niveau de la prédiction des résultats état par état (la Floride restant indéterminée, ce qu’il avait d’ailleurs aussi prévu).

On peut tirer 5 leçons de ce succès de Silver:

  1. ce n’est pas la première fois que Silver réussit à prédire le résultat d’une élection présidentielle état par état. C’est en réalité la seconde fois après 2008. On dit parfois en science qu’un seul résultat spectaculaire ne vaut rien sans sa confirmation, l’élection de 2012 confirme à mon sens qu’il ne s’agit pas d’un coup de chance, et donc que ses modèles sont capables de correctement capturer une réalité.
  2. pour qu’un modèle marche, il faut se baser sur des données multiples, bonnes et moins bonnes. Dans le cas présent, tous les sondages accumulés. Le modèle de Silver pondère parfaitement tous ces sondages, et surtout permet de nuancer tous les « outliers ». Par exemple, le 18 Octobre, un sondage Gallup très commenté politiquement donnait Romney 7 points devant Obama. Silver a tout de suite dit qu’il s’agissait de bruit (« polls that look like outliers normally prove to be so »). Une approche raisonnée identifie les tendances, là où le commentaire politique se focalise sur le bruit.
  3. Inspiré de http://xkcd.com/904. Oui, je sais, c’est du Comic Sans.

  4. un modèle hyper simple peut pourtant être étonnamment prédictif. Les modèles de Silver reposent sur l’idée que les populations socio-économiquement similaires votent de la même façon. En couplant cette idée avec les données de la démographie et les sondages disponibles, Silver a pu « projeter » les résultats des états même en l’absence de sondage sur ceux-ci. Comme disait quelqu’un sur ma TL ce matin, le modèle tient sur une feuille Excel. Les modèles les plus simples ne sont donc pas les moins efficaces, un principe de parcimonie scientifique souvent absent de nombreuses modélisations (oui, je pense à toi, « systems biology »)
  5. le corollaire, c’est qu’un système complexe est modélisable tant qu’on identifie correctement des « causes premières ». Nul ne peut contester que les déterminants du vote sont multiples, et que la nature humaine est complexe; pourtant, le modèle de Silver prouve qu’ on peut manifestement arriver à comprendre et prédire relativement finement des comportements. Une leçon à retenir à chaque fois qu’on vous dira que nul ne peut modéliser un système complexe multifactoriels (comme au hasard le climat)
  6. enfin, la science, ce sont des prédictions. Silver s’est mouillé (allant jusque parier avec un éditorialiste critiquant son modèle), a été critiqué pour cela y compris dans son propre journal. C’est la grosse différence entre une approche quantitative et le reste: on sort des prédictions, on les valide ou on les réfute, et on améliore ainsi le modèle au cours du temps. Processus totalement inconnu des nombreux éditorialistes.


Grâce soit donc rendue au premier psychohistorien !

23 réflexions au sujet de « 5 leçons scientifiques du succès de Nate Silver »

  1. Je ne pense pas que ces lecons soient transposables au climat ou a d’autres systemes complexes, il y a quand meme une enorme difference: si je comprend bien le modele de Nate inclut les sondages (a court terme), c’est a dire une mesure empirique des intentions de vote; pas besoin d’integrer les causes premieres, il suffit de les ponderer convenablement (et pourquoi pas empiriquement)

    • Pas d’accord. Il y a un vrai modèle sous-jacent, qui, bien que simple, est testable et prédictif, à savoir que la sociologie détermine le vote. Ça paraît peut-être évident, mais encore faut-il le vérifier.
      De toutes façons, tout modèle physique a, au bout du compte, une base empirique similaire. Par exemple, la conservation de l’énergie et sa conversion sont purement empiriques. Et c’est à la base des modèles climatiques.

    • Ah merci d’en parler !
      Le problème c’est que c’est un peu comme la psycho histoire: si tu sais qu’une seule personne vote pour toi, tu modifies peut être le vote lui-même …
      (quel cauchemar de penser que Multivac est un tableur Excel !)

  2. Qu’en disent à présent les fameux éditorialistes qui l’ont tant critiqué jusqu’alors ? (Qu’ils avaient malgré tout raison ; ou, du moins, même si Nate Silver a eu raison, que eux n’ont pas eu tort, je parie…)

    • Pas grand chose j’ai l’impression. C’est le souci avec les éditorialistes: s’ils se trompent, ils font le dos rond 15 jours et repartent bullshiter. Alors que Silver aurait disparu dans les limbes d’Internet en cas d’échec.

  3. De l’élection prédite par Nate Silver au climat, il y a quand même un trou béant en matière de données: Nate Silver avait une quantité astronomique de sondages à sa disposition, qui sont ce qu’on peut espérer de plus solide pour prédire le comportement de l’électorat à court terme. Alors que personne ne rêve de prédire le climat avec une précision pareille.

  4. Comme Anne O’Neam: je ne vois pas comment il peut associer des probabilités à la victoire d’Obama vs celle de Romney sans un modèle bayésien.

  5.  » En couplant cette idée avec les données de la démographie et les sondages disponibles, Silver a pu « projeter » les résultats des états même en l’absence de sondage sur ceux-ci »
    Hum. Pas très claire cette phrase. Sinon merci pour le post :)

  6. Ceci dis Bob le poulpe (enfin, le poulpe de youtube, je ne me rappelle plus son petit nom) a bien prédit des gagnants de match de foot de manière empirique, et en Allemand, si je me souvient bien. On parle toujours des oracles qui réussissent, moins de ceux qui se plantent…

    Ceci dis Silver est très bon. Même si l’élection était pliée depuis un bon moment, de l’avis unanime ou presque des commentateurs libéraux américains, qui contrairement aux éditorialistes Français savaient a peu près comment se déroule une élection dans leur pays, savent lire un sondage, et savent faire des additions et des produits en croix.

    • Vrai, mais c’est là que la reproductibilité est importante. Pour le poulpe, on a vu qu’il avait prédit la plupart des matchs à posteriori. Ce qu’on aurait pu dire du modèle de Silver en 2008. Or la très clairement, on l’a vu faire des prédictions a priori pour 2012.

      Les éditorialistes américains ont quand même eu pas mal tendance à dire que c’était un « toss-up », ie une décision à pile ou face

  7. Ah non ! non ! non ! le premier psychohistorien c’est moi ^^

    J’ai à mon actif, entre autres, le fait d’avoir prévu qu’Obama répondait à l’air du temps avant même qu’il ne soit investi pour la campagne 2008, qu’il soit un parfait fake-président dés son élection… mais aussi l’évolution islamiste du printemps arabe dès le début (« hiver islamiste » c’est de moi)…

  8. Il n’y a pas que Silver, il y a aussi Linzer (votamatic.com), qui avait prédit pile le bon nombre de grands électeurs, et Wang (election.princeton.edu) qui a de meilleurs résultats pour le sénat (par contre il s’est planté sur la Floride).

  9. Je comprends mal cette phrase :  » C’est la grosse différence entre une approche quantitative et le reste: on sort des prédictions, on les valide ou on les réfute, et on améliore ainsi le modèle au cours du temps. Processus totalement inconnu des nombreux éditorialistes.  »

    Les études quantitatives ne vont pas sans les études qualitatives et inversement. Les éditorialistes ne font ni l’un ni l’autre, ils sont journalistes, pas scientifiques et encore moins sociologues (ça se saurait sinon !).

    Pour la psycho-histoire (qui aurait du s’appeler socio-histoire, masi Asimov trouvait ça moche, dommage car à mon sens ça déprécie la qualité scientifique du terme), qui prend tout en compte, il va, je pense, malheureusement falloir attendre l’avènement de calculateurs quantiques et ça c’est pas pour demain.

    • Qu’est-ce qu’une « étude qualitative »? Par quantitatif, j’entends « qui prédit un chiffre », genre: l’Ohio a 90% de chances de voter Obama. Je ne vois pas comment on peut faire une prédiction qualitative là-dessus pouvant être réfutée potentiellement sans quantitatif.

  10. Ping : Lecture: j’entend Silver, le renard et le hérisson | Matières Vivantes

  11. Ping : Proxem » La lettre du 12 novembre : les données sont-elles les gagnantes des élections américaines ?

  12. Ping : Proxem » La lettre du 12 novembre : les données sont-elles les gagnantes des élections américaines ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>