Étiquettes

, ,

Franck Benford

Popularisée il y a quelques mois par une série Netflix, la loi de Benford, ou loi du premier chiffre significatif, s’invite dans la polémique entourant le résultat des élections présidentielles américaines de 2020.

La fréquence de distribution statistique de nombreuses données (de la population des villes, taille de pays, distance des étoiles, prix dans un supermarché … ) apparait comme contre-intuitive au premier abord en plus d’être générale sans raison particulière opposée. Ainsi la probabilité de rencontrer le chiffre 1 en tête de nombre est de 30,10% et est supérieure à celle de rencontrer le 2 (17,61%), elle même supérieure à celle de rencontrer le 3 etc. C’est une loi empirique pour laquelle on cherche encore une explication. L’article de Jean-Paul Delahaye paru dans la revue Pour la Science en est une. Les nombreux articles déjà parus sur le sujet sont répertoriés sur le site anglophone dédié à la loi de Benford. La série Netflix nous avait déjà appris que la loi de Benford était utilisée par l’administration fiscale américaine (IRS) pour déceler les resquilleurs mais, pouvait l’être aussi, pour détecter les images truquées sur Internet ou deepfake. Ce site nous montre aussi qu’elle est utilisée, entre autres, dans les audits financiers … et dernièrement concernant les statistiques de la Covid ! Les menteurs seraient ainsi piégés par les traces laissées par leurs biais cognitifs, ici d’équiprobabilité. Mais toutes les données n’y seraient pas soumises, la taille des humains en centimètres commence, sauf exception, par un 1 ainsi que, par exemple, des séries sur des plaques d’immatriculation qui sont administrativement distribuées. Pour fonctionner, il semble admis par tous ceux qui se sont penchés sur cette loi que les nombres de la série envisagée doivent varier sur plusieurs ordres de grandeur, comme la taille des pays ou de leur population.

Premièrement apparue semble-t-il sur le site red elephants la loi de Benford appliquée aux élections américaines de 2020 a ensuite essaimé sur les réseaux sociaux et sites conservateurs. Suivie de fact checking démentant cette assertion de fraude dans quelques journaux et aussi de la part de l’agence Reuters. En France, c’est Libération qui s’y est collé. Walter Mebane ayant déjà publié des articles sur le sujet « vote/Benford » semble se proposer pour le « debunking » en publiant sur arXiv. La conclusion s’impose : la loi de Benford ne peut pas prouver qu’il y a eu fraude. Sur ce point, tout le monde semble d’accord, la loi de Benford peut juste montrer une irrégularité ou non dans la distribution des données. Irrégularités pouvant jeter un doute ou non justifiant des investigations plus approfondies. Ce ne sont que ces investigations, le cas échéant, qui pourront apporter une quelconque preuve.

L’argument principal de Walter Mebane, et des autres, est que les circonscriptions électorales ont un nombre défini d’électeurs assez étroit, en moyenne de 1100 électeurs sur l’ensemble de l’union et variant d’une moyenne de 400 (Kansas) à 2700 (D. C.) et que donc, l’ordre de grandeur étant trop restreint, comme dans le cas de la taille en centimètres, les données ont une distribution prédéterminée ou contrainte. Il est donc normal qu’elles ne suivent pas la loi de Benford. Enfin, le deuxième argument avancé est que la loi de Benford appliquée à des élections devrait aussi porter sur les chiffres de deuxième rang et qu’il faudrait aussi en faire l’analyse avant de crier à la fraude.

Pour répondre à ces arguments, on peut se contenter du découpage en comtés (counties) qui lui, varie de plusieurs ordres de grandeur quant au nombre d’électeurs (de 0  à plus de deux millions soit 7 ordres de grandeur) et d’ajouter l’analyse des chiffres de deuxième rang de la loi de Benford. On pourrait même comparer avec les élections précédentes pour voir, si anomalies il y a, si elles se répètent ou si elles n’apparaissent que pour les élections de 2020.

On peut déjà remarquer que les différences sont bien moins marquées que pour le premier chiffre et qu’une anomalie serait plus difficile à détecter. Quand Walter Mebane et al. parlent de la loi de Benford pour les chiffres de deuxième rang, c’est pour remédier au problème du faible ordre de grandeur des circonscriptions électorales (precincts) qui prédétermine le chiffre de 1er rang, et cela même si la loi de Benford sur le chiffre de deuxième rang serait moins significative. Utiliser les comtés (counties) permet de contourner le problème et d’utiliser la loi de Benford pour les chiffres de premier rang certainement de façon plus significative.

Il se trouve que certains se sont déjà attelés à la tâche et que nous allons reprendre leurs résultats. Ici, et merci à lui, Sava, un statisticien de type analyste financier utilise le khi2 et la valeur p pour montrer s’il y a des irrégularités, plutôt que des graphiques, ce qui permet d’en mesurer précisément la significativité. Le khi2 et la valeur p mesurent l’écart par rapport à la probabilité attendue, ici celle de la loi de Benford. Les seuils suivants sont généralement pris pour référence pour la valeur p :

  • p ≤ 0,01 : très forte présomption contre l’hypothèse nulle,
  • 0,01 < p ≤ 0,05 : forte présomption contre l’hypothèse nulle,
  • 0,05 < p ≤ 0,1 : faible présomption contre l’hypothèse nulle,
  • p > 1 : pas de présomption contre l’hypothèse nulle.

L’hypothèse nulle c’est la norme attendue, par exemple la fréquence relative de la décimale considérée (1er ou 2e rang) selon la loi de Benford. Si la valeur-p est inférieure à un seuil de 5%, on rejette l’hypothèse nulle en faveur de l’hypothèse alternative, et le résultat du test est déclaré « statistiquement significatif ». Sava rajoute d’autres tests comme la comparaison des moyennes de la fréquence d’apparition des deux premières décimales des comtés sur les 4 dernières élections sans tenir compte de la loi de Benford. Ce qui est une très bonne chose pour ceux qui disent que la loi de Benford ne serait pas, pour une raison inconnue, applicable aux résultats de cette élection. Mais aussi le test de Kuiper et la simulation de la méthode de Monte Carlo que je ne connaissais pas mais qui, selon lui, répondent aussi à ceux qui disent que la loi de Benford ne s’applique pas pour les élections. Car ils permettraient de prévoir la fréquence de la violation de la loi de Benford à partir des données des scrutins précédents. Et pour finir, l’analyse conjointe des deux premiers rangs selon la loi de Benford en plus de l’analyse du deuxième rang seule.

Il utilise les données du New York Times pour les résultats par comtés pour les élections de 2008, 2012, 2016 accessibles ici et ici pour 2020. Son tableur est accessible ici.

Considérant que le choix des comtés plutôt que des circonscriptions électorales rend l’analyse valable, nous nous contenterons de présenter khi2 et valeur p pour :

– la loi de Benford pour la première décimale des élections de 2008, 2012 et 2016,

– la loi de Benford pour la première décimale des élections de 2020,

– la comparaison de la fréquence d’apparition moyenne des deux premières décimales entre les élections de 2020 et les trois précédentes sans référence à la loi de Benford.

Pour ceux, férus de statistiques, qui souhaiteraient voir les autres tests merci de vous reporter au tableur et à la vidéo de Sava. Les résultats à forte présomption de fraude sont en gras. Les résultats à très forte présomption de fraude sont en orange. Les résultats hors concours sont en gras, orange et entourés de deux points d’exclamation. Tous les tests pointent vers les mêmes irrégularités bien que dans des proportions légèrement différentes.

Les résultats sont que les élections de 2020 présentent des irrégularités statistiques par rapport aux trois élections précédentes qui sont, elles, globalement conformes à la loi de Benford sauf pour les résultats démocrates des élections 2012 dans les États démocrates qui présentent aussi des irrégularités notables par rapport à la loi de Benford, mais de manière moins significative qu’en 2020. Que l’on trouve des irrégularités dans les résultats républicains des États démocrates au moment du vote (États bleus). Que l’on ne trouve pas d’irrégularités dans les États républicains au moment du vote (États rouges), que ce soit dans les résultats démocrates ou républicains. Que l’on trouve des irrégularités dans les résultats démocrates des états pivots, les fameux « swing state » qui font généralement pencher le résultat de l’élection nationale du côté des éléphants ou des ânes, d’où leur importance (Arizona, Floride, Géorgie, Michigan, Minnesota, Nevada, Caroline du nord, Ohio, Pennsylvanie, Wisconsin).

Résultats à forte ou très forte présomption pour les élections de 2008, 2012 et 2016
Loi de Benford 1er décimaleLoi de Benford 1er décimale
Khi2Valeur p
Comtés dans les États bleus – résultats démocrates – 201219,671,16%
Comtés dans les États pivots démocrates – résultats démocrates – 201215,614,83%
Comtés dans les États gagnés par les démocrates  – résultats démocrates – 2012220,49%
Résultats pour les élections de 2020
Khi2Valeur p
Total 2020 – tous votes16,293,84%
Total 2020 – résultats républicains  16,843,18%
Total 2020 – résultats démocrates15,215,52%
Comtés dans les États gagnés par les républicains – tous votes7,0453,19%
Comtés dans les États gagnés par les républicains  – résultats républicains7,7445,89%
Comtés dans les États gagnés par les républicains – résultats démocrates9,2532,20%
Comtés dans les États gagnés par les démocrates – tous votes19,941,06%
Comtés dans les États gagnés par les démocrates – résultats républicains15,35,36%
Comtés dans les États gagnés par les démocrates – résultats démocrates21,790,53%
Comtés dans les États rouges – tous votes7,3250,24%
Comtés dans les États rouges – résultats républicains10,6322,34%
Comtés dans les États rouges – résultats démocrates7,3050,50%
Comtés dans les États bleus – tous votes17,552,49%
Comtés dans les États bleus – résultats républicains22,420,42%
Comtés dans les États bleus – résultats démocrates10,2424,86%
Comtés dans les États pivots – tous votes10,6222,42%
Comtés dans les États pivots – résultats républicains3,8686,94%
Comtés dans les États pivots – résultats Démocrates22,290,44%
Comtés dans les États pivots gagnés par les républicains – tous votes10,8421,11%
Comtés dans les États pivots gagnés par les républicains – résultats républicains5,1174,57%
Comtés dans les États pivots gagnés par les républicains – résultats Démocrates10,2125,05%
Comtés dans les États pivots gagnés par les démocrates – tous votes6,756,39%
Comtés dans les États pivots gagnés par les démocrates – résultats républicains10,0126,45%
Comtés dans les États pivots gagnés par les démocrates – résultats Démocrates19,381,29%
Comtés rouges – tous votes7,1052,62%
Comtés rouges – résultats républicains10,2225%
Comtés rouges – résultats démocrates12,5812,73%
Comtés bleus – tous votes14,177,74%
Comtés bleus – résultats républicains20,160,57%
Comtés bleus – résultats démocrates10,7921,41%
Comtés rouges dans les États gagnes par les républicains – tous votes6,9454,33%
Comtés rouges dans les États gagnes par les républicains – résultats républicains9,0333,95%
Comtés rouges dans les États gagnes par les républicains – résultats démocrates8,8235,77%
Comtés rouges dans les États gagnes par les démocrates – tous votes9,2232,43%
Comtés rouges dans les États gagnes par les démocrates – résultats républicains4,0984,92%
Comtés rouges dans les États gagnes par les démocrates – résultats démocrates191,49%
Comtés bleus dans les États gagnés par les républicains – tous votes3,5189,81%
Comtés bleus dans les États gagnés par les républicains – résultats républicains4,7078,87%
Comtés bleus dans les États gagnés par les républicains – résultats démocrates3,6089,12%
Comtés bleus dans les États gagnés par les démocrates –  tous votes18,251,95%
Comtés bleus dans les États gagnés par les démocrates – résultats républicains!! 24,86 !!!! 0,16% !!
Comtés bleus dans les États gagnés par les démocrates – résultats démocrates12,1914,30%
Comparaison de la fréquence d’apparition moyenne des deux premières décimales des élections 2020 par rapport aux élections de 2008, 2012 et 2016 sans référence à la loi de Benford.
 Khi2Valeur p
Total – tous votes6,756,89%
Total – résultats républicains  9,3431,43%
Total – résultats démocrates 16,423,67%
Dans les comtés gagnés par le candidat D. Trump – tous votes8,3839,73%
Dans les comtés gagnés par le candidat D. Trump – résultats républicains9,6629,01%
Dans les comtés gagnés par le candidat D. Trump – résultats démocrates9,0633,75%
Dans les comtés gagnés par le candidat J. Biden – tous votes12,413,41%
Dans les comtés gagnés par le candidat J. Biden – résultats républicains16,723,32%
Dans les comtés gagnés par le candidat J. Biden – résultats démocrates!! 30,31 !!!! 0,02% !!
Dans les comtés des États rouges – tous votes11,6116,97%
Dans les comtés des États rouges – résultats républicains15,95%4,32%
Dans les comtés des États rouges – résultats démocrates7,9943,40%
Dans les comtés des États bleus – tous votes17,822,26%
Dans les comtés des États bleus – résultats républicains16,873,14%
Dans les comtés des États bleus – résultats démocrates23,600,27%
Dans les comtés des États pivots – tous votes6,0863,85%
Dans les comtés des États pivots – résultats républicains14,048,07%
Dans les comtés des États pivots – résultats démocrates20,650,81%
Dans les comtés des États pivots gagnés par le candidat D. Trump – tous votes9,1732,85%
Dans les comtés des États pivots gagnés par le candidat D. Trump – résultats républicains6,3161,22%
Dans les comtés des États pivots gagnés par le candidat D. Trump – résultats démocrates10,9820,27%
Dans les comtés des États pivots gagnés par le candidat J. Biden – tous votes7,6746,65%
Dans les comtés des États pivots gagnés par le candidat J. Biden – résultats républicains!! 32,49 !!!! 0,01% !!
Dans les comtés des États pivots gagnés par le candidat J. Biden – résultats démocrates!! 30,69 !!!! 0,02% !!

Pour ma part, il me semble que ces premières analyses jettent un doute indéniable sur ces élections, autant pour les résultats démocrates et républicains des États pivots démocrates que pour les résultats républicains dans les États démocrates. Comme on peut tricher à la hausse comme à la baisse, il y a plusieurs possibilités, voir que les deux camps aient triché, mais comme généralement personne ne triche pour perdre nous en garderons deux :

  • les démocrates sont arrivés à faire baisser les votes républicains dans les États bleus et à faire monter les votes démocrates dans les États pivots bleus,
  • les républicains sont arrivés à faire monter les votes républicains dans les États bleus et à faire baisser les votes démocrates dans les états pivots bleus.

La deuxième proposition semble absurde puisque ce sont bien les démocrates qui ont gagné les États bleus, comme attendu, et gagné la majorité des États pivots. Si la deuxième proposition était vrai alors, les républicains sont les plus mauvais tricheurs de l’histoire des États-Unis. Je ne vois pas, à ce stade, au vu des tests statistiques utilisés par Sava, pourquoi la loi de Benford ne serait pas applicable pour les votes des comtés si les données issues du New York Times sont exactes et se repartissent sur plusieurs ordres de grandeur. Maintenant que toutes les données sont complètes et accessibles, peut être qu’un statisticien comme Walter Mebane, ou autre, complétera son premier papier. Je répète encore que la loi de Benford n’est pas une preuve en soi, elle permet juste de montrer des irrégularités qui sont ici statistiquement significatives et qui justifieraient des explications. En ce sens, les requêtes juridiques de l’équipe de campagne de Donald Trump pour cette élection apparaissent fondées.

On peut se demander, s’il y a eu fraude, pourquoi personne n’a pensé à la loi de Benford qui est pourtant passée récemment sur Netflix. Car, bien sûr, on peut tricher en rendant compatibles les résultats souhaités avec la loi de Benford. Ce n’est après tout qu’un simple calcul de pourcentage. A première vue, si les fraudes semblent aussi massives, peut-être faudrait-il aller jeter un œil du côté des machines à voter, très répandues outre-Atlantique. Le plus inquiétant est que ces irrégularités statistiques semblent avoir été coordonnées sur l’ensemble du territoire. Car, comment décider que les votes républicains soient revus à la baisse dans les comtés démocrates et les votes démocrates montés dans les comtés démocrates des États pivots de manière aussi ordonnée ? Cela aurait pu être l’inverse. Le silence des grands médias et des agences de renseignements américaines, qui ont des services statistiques aptes à analyser ces chiffres est encore plus inquiétant. Mon sentiment est qu’il semble transparaitre une volonté sous-jacente de faire correspondre les votes aux prévisions médiatiques et sondagières pré-scrutin. Ce qui s’apparenterait à une tentative de coup d’État. Enfin, les irrégularités les plus flagrantes ont eu lieu dans les comtés gagnés par les démocrates des États démocrates, impliquant certainement de nombreuses personnes. Ainsi, de nombreux États et comtés pourraient être considérés comme rebelles si la fraude était confirmée.

De nombreux articles sont parus ces derniers mois mettant l’accent sur un clivage jamais observé auparavant avec une telle intensité entre les ânes et les éléphants, au point que certains en arrivent à évoquer le danger d’une guerre civile. Ainsi, même s’il y avait fraude massive, le deal serait les démocrates au pouvoir ou la guerre civile. Bien sûr, c’est un deal intimidant qui en ferait réfléchir plus d’un avant de défendre sa cause même si elle se trouvait justifiée. Pour ma part, je ne crois pas à cette menace dans un avenir immédiat. Alors quoi, la CIA soutiendrait en sous-main des milices armées (et entrainées) pour semer le chaos dans son propre pays ? Et jusqu’où irait-elle ? Cela ne pourrait marcher que si l’armée était du côté des insurgés. Est-ce que cela pourrait vraiment être le cas, et à quel prix ?

Il est dur de faire sienne l’assertion que l’on prête à Voltaire : « je ne suis pas d’accord avec ce que vous dites, mais je me battrai jusqu’à la mort pour que vous ayez le droit de le dire. » Pourtant, c’est la voie de la vérité. Si la fin peut justifier les moyens à court terme, je crois que c’est dommageable à long terme. Si la politique est un pur rapport de force dénué de tout questionnement moral, cela s’y applique aussi même si cela n’est pas immédiatement visible et semble extérieur au but poursuivi.

Palais des glaces

A y réfléchir, si la loi de Benford fait maintenant la une de l’actualité, les manipulateurs de la data vont maintenant pouvoir s’en prémunir s’ils en ont tous connaissance. Nicolas Gauvrit et Jean-Paul Delahaye nous rassurent pourtant sur ce point : « La loi générale permet de contrer ce risque : en utilisant les variantes avec diverses fonctions f, on repérera les données falsifiées. » Une des méthodes utilisées par les chercheurs est celle dite de Kolmogorov-Smirnov dont le test de Kuiper, utilisé par Sava dans la vidéo de l’article, est une variante.

Au final, cette loi de Benford est bien un détecteur de mensonges numériques redoutable. Au moment de rentrer dans le monde de la donnée numérique à la Philip K. Dick comme on entrerait dans un palais des glaces sans fin, il est bon de savoir que l’on peut transporter un détecteur de mensonges avec soi.

Détecteur Voight – Kampff pour replicant façon redneck des plaines

Détecteur Voight – Kampff pour replicant façon Vénus stellaire

N. Gauvrit et al., Generalized Benford’s law as a lie detector, Advances in Cognitive Psychology, vol. 13(2), pp. 121-127, 2017.

Bande originale Blade runner, Vangelis. Ridley Scott. Philip K. Dick