Les sondages au prisme des mathématiques

jeudi 27 mai 2021.
 

A propos des sondages...

Est-ce que les sondages sont l’expression de l’opinion ou bien est-ce qu’ils produisent les opinions ?

Mais d’abord est-ce qu’on peut avoir confiance aux résultats des sondages publiés ?

La réponse est "oui , mais", et la preuve est fournie scientifiquement par la loi des grands nombres. (****)

Bien sûr, il faut pour cela supposer qu’en avril 2007, il n’y aura aucune fraude et que les bureaux de vote ne seront pas tenus par des militants frontistes.

D’abord, voyons dans quelle mesure on pourra avoir confiance dans les résultats des sondages qui vont donner gagnants successivement Ségo ou Sarko jusqu’en Avril prochain.

L’intervalle de confiance

Pour un échantillon de 1000 personnes, la marge d’erreur statistique est de 6,4% (3,2% en plus ou en moins du chiffre indiqué) lorsque la répartition de résultats est proche de 50-50.

Cette marge se réduit si on s’éloigne de cet équilibre : elle est de 5% à 80-20 ; enfin, dans tous les cas, elle ne correspond qu’à une probabilité de 0,95.

Exemple : un résultat de 50% doit se lire : " il y a 95 chances sur 100 pour que le résultat soit compris entre 46,8% et 53,2% et 5% de chances pour qu’il soit en-dehors de cette fourchette."

Les sondages permettent d’estimer à partir d’un petit nombre d’observations une proportion - ou une valeur caractéristique - dans une population. Mais cette estimation est ce que les statisticiens appellent un intervalle de confiance : formellement, au lieu de dire "les français voteront à 53% pour la gauche, il faudrait dire : "Il y a une probabilité de 95% pour que la proportion de français votant à gauche soit comprise entre 49 et 57".

Pour la majorité des sondages électoraux effectués (sur 700 personnes environ), la marge d’erreur est en effet d’à peu près 4 points. Par ailleurs, il existe une probabilité faible, mais non nulle, pour que le sondage soit totalement faux.

l’estimation par intervalle de confiance obéit à une loi normale, représentée par une courbe de Gauss (*) , appelée parfois "courbe en cloche" dont le maximum est atteint pour la valeur mesurée dans l’échantillon du sondage.

Le modèle de calcul de l’intervalle de confiance est donc fiable (**) Plus le nombre de sondé est important, et plus la marge d’erreur supposée par le calcul se rapprochera de la valeur réelle constatée.

Par exemple, pour 1000 sondés ;

Si 5% des sondés répondent qu’ils voteront pour un candidat A ; On obtiendra avec une probabilité de 95 % des résultats réels entre 3.6% et 6.4%. En revanche, il reste quand même une chance sur 20 que le candidat A fasse plus de 6,4 ou moins de 3,6.

Maintenant si 25% des sondés déclarent choisir un candidat B ; La fourchette réelle sera entre 22.3% et 27.7%, soit plus réduite que pour le candidat A. Plus un candidat est situé "haut" dans les sondages, et plus c’est fiable. On a donc raison scientifiquement d’avoir la trouille de Sarkosy.

C’est encore plus net pour le second tour, ou le "haut" de la courbe gaussienne est à 50 % Imaginons l’hypothèse de 49 % de sondés pour Sarkosy. La fourchette réelle sera entre 45.8% et 52.2%. Par conséquent, en cas de publication d’un tel sondage, on voit que la défaite est seulement un peu plus vraisemblable que la victoire.

On se demande pourquoi les instituts ne font pas de sondages massifs, car si l’enquête était faite sur 10000 personnes, alors dans ce cas la fourchette réelle sera entre 48% et 50%.

Mais pour atteindre une fourchette de moins de 0,5 % afin d’être sûr (***) de la défaite de Sarkosy après une enquête de sondage, il faudrait interroger 50000 personnes, et dans ce cas le résultat réel serait d’une manière quasi-certaine (***) entre 48.6% et 49.4%.

Un sondage ne mesure que l’état de l’opinion à un instant donné, et celui-ci peut changer, notamment avec la prise de décision des indécis, et en fonction de la "mobilisation" de dernière minute. Il y a cependant une bonne dose de pensée magique dans cette idée. Il est fort probable que les indécis ne soient guère différents des autres français, que de ce fait ils vérifient finalement la tendance du reste de la population. De même, multiplier les sondages annonçant la victoire de la droite peut tout aussi bien pousser à un sursaut de mobilisation à gauche et inversement.

Le facteur humain.

Cette théorie fonctionne parfaitement pour des phénomènes totalement aléatoires. Par exemple, pour dépouiller votre petit frère, pariez avec lui 100 Euro contre 10 qu’il n’arrivera jamais à obtenir plus de 60 fois la face "pile" d’une pièce de monnaie en la lançant 100 fois. (*****) Demandez lui de recommencer autant de fois qu’il veut, mais il doit donner 10 Euros à chaque fois qu’il perd.

Sauf si vous êtes un jour de malchance, vous allez gagner plusieurs fois consécutives avant de perdre, et votre adversaire se fatiguera avant de tomber sur le cas favorable probable à 5%. En revanche, au bout de 3 fois, votre petit frère vous en collera une en vous accusant de tricher.

ça c’est le facteur humain.

Notre cerveau humain est fait de telle manière qu’il essaie toujours de determiner une cause à un phénomène, que ce soit un jeu de pile ou face ou le résultat des elections. Il ne conçoit qu’avec difficulté les choses sans causalités. D’ailleurs même Einstein disait que "Dieu ne joues pas aux Dés".

Il nous est presque impossible de distinguer totalement le résultat d’un sondage de notre visualisation future des résultats.

En gros, on a un peu l’impression qu’un sondage va favoriser - en influençant la population - le candidat qui obtient le meilleur résultat. C’est parce qu’ils en sont sûrs que les médias interdisent la publication des résultats quelques temps avant le début des scrutins. En revanche, on se pose rarement la question pour nous même, on ne suppose ce manque d’assurance que chez les autres, la fameuse "masse silencieuse".

Au fond de nous, on interprète la publication de chiffres favorables à un candidat comme un encouragement, une publicité faite au beneficiaire de celui-ci. Et par réaction, on aura toujours tendance à penser que celui qui baisse dans les sondages est victime d’une attaque médiatique visant à diminuer son influence.

En fait, les fluctuation des résultats sont en partie le fait de l’interprétation causale qu’on en fait. On finit par croire que les dés décident de la face sur laquelle ils vont tomber.

Et donc, inconsciemment, on accorde plus de pouvoir à ces résultats, qui comme on l’a vu ne sont que des estimations sujettes à des erreurs CERTAINES, on les considère presque comme les déclencheurs du résultat final. Pour s’en persuader, il faut voir les commentaires passionnés que provoquent la publication d’un sondage.

Alors comme on ne saura jamais si c’est l’oeuf qui fait la poule ou l’inverse, il faut s’habiter à regarder un peu au delà de la basse cours, et se persuader qu’un lancé de dés ne peut pas influencer notre destin ni nos convictions profondes.


Quasiment tout ce qui est écrit dans cet article a été volé sur internet avec l’aide d’un moteur de recherche et la clé de recherche "sondage+probabilité+marge+d’erreur" avec une erreur de 10%.

(*) Courbe de gauss , outil principal de modelisation de phénomènes statistiques.

http://www.mathcurve.com/courbes2d/...

(**) Voir notamment sur ce lien un exemple appliqué

http://www.gfsbern.ch/f/services-en...

(***) Ne pas oublier que cet intervalle de confiance n’est fiable qu’à 95 % seulement. Si on va au delà , par exemple 99%, l’écart d’erreur grandit exponentiellement. Ainsi, la seule manière d’atteindre 100% de confiance est de sonder les 30 Millions d’inscrits. (en supposant qu’ils répondent tous sans mentir)

(****) Pour ceux qui me croient pas , allez sur cette page ;

http://fr.wikipedia.org/w/index.php...

(*****) Vous arnaquerez votre petit frere avec une certitude de 95 %, l’intervalle de confiance étant 40-60. S’il gagne, c’est que vous êtes le grand frère de David Copperfield.

De : Jean-Yves DENIS (6 janvier 2007)


Signatures: 0
Répondre à cet article

Forum

Date Nom Message