Non classé Proba

Marge d’erreur socialiste (II)

On a vu dans le billet précédent qu’une marge d’erreur matérielle existait lors d’un vote, et que si cette marge d’erreur matérielle était trop grande, il est impossible d’avoir un résultat fiable lorsque les résultats sont trop serrés. D’où la question suivante dans le cas du PS : à partir de quel degré de fiabilité des résultats peut-on valider le vote ?

Pour répondre à cette question, je vais faire la supposition suivante :
– Aubry et Royal sont exactement à égalité,
– en moyenne, un bulletin Aubry est attribué à Royal avec une probabilité p, et lycée de Versailles. p est la probabilité d’erreur matérielle.

Cette toute petite erreur matérielle va aboutir à un tout petit écart dans le nombre de voix dépouillées, écart qui va aboutir à l’élection de l’une ou de l’autre.

On peut en réalité calculer exactement en fonction de p et du nombre de votants N l’écart moyen qu’on trouvera entre les deux candidates. Je vous passe les détails, qui m’ont rappelé de doux souvenirs de taupes et d’école d’ingé, mais on peut montrer analytiquement, que, sauf erreur de ma part, cet écart vaut dans la limite d’un nombre de votants N grand [1]:

Notez qu’il dépend de p, la probabilité de faire une erreur lors du comptage des voix. Plus p est grand, plus l’écart de voix sera grand. Notez également qu’il varie en « racine » de N, normal, la loi des grands nombres s’applique, on s’attend notamment à ce que le rapport entre cette erreur matérielle et la marge d’erreur statistique soit constant, de l’ordre de la racine carrée de la probabilité d’erreur justement.

La figure ci-contre illustre une comparaison entre la formule analytique plus haut et une simulation numérique de dépouillement avec une probabilité d’erreur de comptage p. Chaque point rouge correspond à l’écart moyenné sur 100 dépouillements. La courbe verte est la courbe pour une probabilité d’erreur de comptage de 1%, la courbe bleue pour une probabilité d’erreur de comptage de 1 pour mille. On voit que pour 140 000 votants, avec une probabilité d’erreur d’un pour mille, on a encore une vingtaine de voix d’écart en moyenne . A comparer aux 42 voix d’écart du scrutin socialiste; en fait, avec la formule plus haut et le nombre de votants socialistes, on trouve que la probabilité p pour avoir une quarantaine de voix d’écart uniquement à cause de l’erreur matérielle est d’environ 0.5 %. Cela veut dire qu’il faut être sûr de beaucoup plus de 99.5 % des dépouillements pour pouvoir être sûr du vote. A vous de juger !

[1] Comment ai-je calculé cela ? En fait, le nombre moyen de votes ayant été mal comptabilisé est n=Np, donc il suffit de calculer l’espérance de

où les X valent 1 ou -1 avec probabilité 1/2. Sauf erreur de ma part encore une fois, la fonction génératrice de cette somme est, à une constante additive près, k et n étant de même parité

après du calcul taupinal bourrin, en terminant par une magnifique formule de Stirling, on trouve pour l’espérance

résultat que j’ai vérifié numériquement en simulant explicitement le processus aléatoire. Le facteur 2 dans la formule plus haut vient si je ne m’abuse du fait que l’écart dans les voix est double puisque que quand on ajoute une voix à l’une, on retire une voix à l’autre. Disclaimer : calcul fait sur un coin de table à onze heures du soir, il y a toujours une possibilité d’erreur mais le numérique a l’air de coller, alors …

About the author

Tom Roud

Nanoblogger scientifique, associate professor incognito (ou presque). Suivi par @mixlamalice

3 Comments

  • intéressant,
    et bravo pour ces éclairages
    je m’étais posé ces questions de savoir ce qui était significatif,
    et vous avez eu le courage d’y travailler
    j’apprécie aussi génralement beaucoup vos commentaires chez Koz…

  • Bonjour,

    Très judicieux (et beaucoup plus 😉 que le précédent billet, car même si le monde entier était en racine(n), il dépend beaucoup de ce qu’on met avant la racine !).

    Il y a même des techniques de sondage fondées sur ce modèle : on ne demande pas au sondé sa réponse à la question que l’on se pose à son sujet, qui est de la forme « 1 ou 2 ». On lui demande plutôt sa réponse à une question « A ou B » qui peut être « 1 ou 2 » avec une probabilité p, et « 2 ou 1 » avec une probabilité 1-p. Le sondé sait quelle question lui est posée, mais le sondeur ne le sait pas, ce qui préserve complètement le secret sur l’opinion ou la situation réelle de l’individu sondé.

    Dans le cas du PS, au risque d’erreur sur un bulletin s’ajoute (indépendamment) un risque bien plus élevé d’erreur sur un paquet de bulletins, sur un bordereau de comptage, rempli ou transmis à l’envers. Le même modèle s’applique, mais de façon grappée, avec, admettons, une taille moyenne T des grappes, donc un nombre total N/T de grappes. Les quelques erreurs matérielles signalées dans les jours qui ont suivi le vote donnent une idée de T. Quant à la probabilité q d’erreur matérielle sur une grappe de taille T, le nombre d’erreurs effectivement signalées en donnent un minorant.

    Je crains qu’en faisant tourner cette variante, la conclusion de votre billet soit très, très renforcée !

Leave a Comment