Précision sur les sondages

Je suis un peu débordé (car hors de mes murs pour trois semaines) et je n’ai pas énormément de temps pour écrire des billets en ce moment. Le billet précédent a eu énormément de succès et a fait exploser la fréquentation du blog pendant deux-trois jours.
Je compte poursuivre ma petite enquête sur les sondages, en regardant plus particulièrement comment varient les réponses des différents sous-quotas d’un sondage à l’autre. Cela risque de me prendre un peu de temps, surtout pour recueillir les données. Mais je compte mener à bien cette étude qui devrait me permettre de me faire une idée plus définitive sur les sondages…
Je me permets néanmoins de reproduire dans le cadre de ce bref billet une de mes réponses à certains commentaires. Je ne considère pas que tous les sondages se trompent lourdement. Je dis simplement que la faible variabilité des résultats entre sondages ne me paraît pas compatible avec la marge d’erreur intrinsèque au procédé d’échantillonnage derrière les sondages, et donc avec la prétendue méthode scientifique employée. Ces fameux 3% de marge d’erreur sont d’ailleurs reconnus par les instituts de sondage eux-mêmes à partir précisément de l’approximation gaussienne qui sert manifestement de base à tous leurs calculs (en particulier celui pour la marge d’erreur des résultats plus éloignés du 50-50). Donc la plupart des résultats sont me semble-t-il un peu « arrangés ».

Plus exactement, je vais me livrer à des spéculations un peu gratuites (et peut-être totalement fausses), mais je suppute que les sondeurs ne font pas exactement ce qu’ils disent faire. Par exemple, il est possible qu’ils utilisent les données de leurs concurrents (qui sont de fait plus ou moins publiques – modulo la petite cuisine interne) pour diminuer cette fameuse marge d’erreur. La conséquence est que les sondages au temps t ne représentent pas l’opinion au temps t contrairement a ce qu’ils disent, mais l’opinion sur un temps caractéristique de l’ordre de la quinzaine ou du mois. A mon avis, c’est la raison pour laquelle les sondages ont une grosse inertie qui permet de réduire la marge d’erreur, mais dans ce cas certains phénomènes commentés par les sondeurs :
– deviendraient des artefacts de la méthode de sondage (par exemple les fameux retournements),
– n’auraient carrément aucun sens, par exemple toute évolution des cotes sur des courtes périodes ( moins d’1 mois)

En attendant la suite, je vais revenir à mes préoccupations habituelles, en particulier l’évolution.

Étiquettes :

Catégories : Non classé

5 réflexions au sujet de « Précision sur les sondages »

  1. ça peut être intéressant de jeter un coup d’oeil au document suivant:www.apmep.asso.fr/IMG/pdf/ASm11.pdfen bas de la p.3, un paragraphe décrit le cas du 1er tour de la présidentielle de 2002, avec les vrais chiffres issus du dernier sondage BVA, ainsi que les « fourchettes » de ce sondage. On voit bien que ces fourchettes « ne permettent pas de prévoir l’ordre des candidats ».

  2. Tu liras aussi avec profit l’article de quatre pages consacré aux sondages dans le numéro de mars de La Recherche (écrit par Gilles Dowek, prof à Polytechnique) !

  3. Merci de vos commentaires ! Je regarderai le pdf avec attention.En revanche, je crains de ne pas avoir accès au numéro de la Recherche depuis les US 😉 !

  4. Tom tom,J’y connais pas grand chose en sondage et statistique, mais je pense que si tu utilises la méthode des quotas sur ton modèle (chaque individu au hasard ayant une probabilité p constante de choisir un candidat), tu auras effectivement des résultat pas plus précis que sans quota. L’idée même des quotas, c’est qu’il y a différentes sous populations qui chacune ont des préférences différentes, et que la taille de ces sous-populations est plutôt assez bien connue. Prend un cas extrême: deux sous-populations de taille connue, l’une votant unanimement pour le candidat R, l’autre pour le candidat S: dans ce cas, la méthode des quotas donne le résultat exacte, la méthode sans quota donne le résultat avec un écart type de sqrt(p(1-p)/N).Un cas un peu plus générale: suppose qu’une proportion r1 de la population vote pour R avec une probabilité p1, et le reste (1-r1) de la population vote pour R avec une probabilité p2. Suppose que l’on sonde N personnes. Je defini f(p)=p*(1-p). Une personne tirée au hasard aura une probabilité p_avg = p1*r1+ p2*(1-r1), et donc un sondage sans la méthode des quotas aura un écart type de sqrt(f(p_avg)/N).Avec la méthode des quotas, on tire N*r1 personnes de la population 1, et N*(1-r1) personnes de la population 2; on obtient, je pense, une variance de N*r1*f(p_1) + N*(1-r1)*f(p_2) sur le nombre total de personnes sondées votant pour R, et donc un écart type de sqrt(r1*f(p_1)+(1-r1)*f(p_2))/sqrt(N) sur le résultat du sondage.La fonction f étant concave, on retrouve que la méthode des quotas donne un résultat plus précis.(Rem: si p1=p2=p, on retrouve exactement le même résultat: certes, pour chaque sous population, on a comme tu le dis une précision moins grande, puisque l’échantillon de la sous-population est plus petit, mais comme le tirage sur chaque sous population est indépendant, la précision globale ne change pas)Maintenant, dans la vrai vie, il y a une imprécision sur la taille des différentes sous-populations, et sur comment reconnaitre un élément d’une sous-population. On remarque que si l’on se trompe sur la taille exacte de chaque sous population, le résultat final sera faussé, mais l’écart type sur le résultat du sondage sera tout de même réduit . Je dirais donc que la méthode des quotas diminue la fluctuation des sondages (et en augmente la précision), mais introduit une erreur systématique que l’on ne contrôle pas (et qui ne disparait pas même en prenant une taille d’échantillon plus large). Cette erreur systématique étant plus ou moins la même dans une série de sondage par un même organisme, cela peut expliquer pourquoi les tendances sont nettement plus précises que les sondages eux même (et ont donc ont cette apparence « lissée » que tu dénonce).

  5. « On remarque que si l’on se trompe sur la taille exacte de chaque sous population, le résultat final sera faussé, mais l’écart type sur le résultat du sondage sera tout de même réduit . « C’est effectivement qualitativement vrai, je suis d’accord avec ton raisonnement (mais encore faut-il effectivement avoir une très bonne information sur les proportions dans la population). En revanche, quantitativement, l’effet est très faible. Par exemple, si tu regardes le mélange à parts égales de deux populations à 75-25 et 25-75, sauf erreur de ma part, l’écart type diminue d’environ 13% ( soit une marge d’erreur d’environ 2.6 % au lieu de 3%). A 60-40 – situation plus réaliste- il me semble que l’écart type diminue de seulement 4% – soit 2.9% au lieu de 3% pour l’écart type . La différence de précision me semble donc assez minime (et certainement pas compatible avec les données lissées qui ont plutôt l’air d’avoir des erreurs de l’ordre de 1 ou 2 %). D’ailleurs les sondeurs admettent eux-mêmes une marge d’erreur de l’ordre de 3%.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *