Une méthode pour fournir des chiffres précis à partir d’un sondage : le calage sur marges

Chargement de l'article...

Écriture : Thomas Merly-Alpa
Relecture scientifique : Bastien Mallein
Relecture de forme : Pierre Marrec et Eléonore Pérès

Temps de lecture : environ 9 minutes.
Thématiques : Statistiques & Probabilités (Mathématiques)

Publication originale : Deville J.-C. & Sarndal C.-E., Calibration Estimators in Survey Sampling. Journal of the American Statistical Association, 1992. DOI: 10.2307/2290268

Crédit : pxhere

Quand on réalise un sondage, on interroge un petit échantillon de la population pour apprendre des choses sur une grande population. Si la théorie mathématique garantit de ne pas faire d’erreur en moyenne, elle ne permet pas de trouver la valeur exacte mais de la situer dans un intervalle de valeurs plausibles. L’article présenté ici propose des méthodes pour diminuer la taille de l’intervalle et ainsi améliorer la qualité des estimations, en « calant » l’échantillon sur des totaux connus.

Lorsque l’on parle de sondages, on pense rapidement aux sondages politiques, avec leur formule consacrée : « 1 000 personnes, constituant un échantillon représentatif de la population française âgée de 18 ans et plus inscrite sur les listes électorales. » [*]. On entend alors par représentatif l’idée que ces 1 000 personnes bien choisies représentent à la façon d’un « petit village » la population française : suffisamment de femmes et d’hommes, de jeunes et de personnes plus âgées, de cadres et d’ouvriers, etc.

Cependant, tous les sondages ne sont pas politiques. On parle de façon générale de sondage lorsque l’on cherche à extrapoler à une population entière une information obtenue en interrogeant un échantillon de cette population. Notre problème est alors de chercher à apprendre quelque chose (souvent le montant total ou moyen d’une caractéristique, par exemple le revenu moyen) sur l’ensemble d’une population à partir d’un petit échantillon. La plupart du temps, on établit d’ailleurs un questionnaire comportant plusieurs questions car on cherche à apprendre plusieurs choses sur la population.

Hasard et échantillons

La théorie mathématique derrière ce sujet est relativement simple. On tire au hasard un échantillon d’individus qui vont répondre à notre questionnaire ; et le hasard est important, car c’est ce qui va nous permettre d’appliquer une théorie mathématique. Supposons que l’on s’intéresse au nombre total de baguettes de pain vendues chaque jour en France. Dans ce contexte, on interroge par exemple 1 boulangerie sur 100, et on procédera ensuite à nos calculs en faisant comme si chaque boulangerie enquêtée répondait pour elle et pour les 99 qui n’ont pas été sélectionnées.

Il existe des résultats théoriques qui nous assurent qu’en procédant ainsi, on obtiendra un bon résultat, dès lors que la boulangerie sélectionnée a bien été tirée au hasard (cela ne fonctionne pas si l’on choisit uniquement les boulangeries proches de chez soi !). Cependant, obtenir un bon résultat — c’est-à-dire ne pas faire systématiquement une erreur, par exemple toujours aboutir à un nombre de baguettes supérieur à celui dans la réalité) — ne garantit pas que l’on va obtenir exactement la bonne valeur. C’est logique : en faisant comme si notre boulangerie répondait pour les 99 autres, on néglige le fait que ces autres boulangeries n’ont probablement pas vendu exactement le même nombre de baguettes.

En fait, lorsque l’on réalise un sondage, on n’aboutit qu’à une fourchette de valeurs, comme dans les sondages politiques où le résultat est valide à plus ou moins 3 points dans les intentions de vote. Par exemple ici, on pourrait estimer la production nationale de pain à 15 millions de baguettes, plus ou moins 1 million de baguettes. La question restante est donc de savoir comment réduire cette incertitude.

Un exemple simple

Prenons un exemple simple : supposons qu’il y ait 4 boulangeries dans une ville, dont la répartition des ventes est présentée dans le Tableau 1, et que l’on souhaite connaître la quantité de pain vendue un jour donné.

Pain vendu
Boulangerie A100
Boulangerie B300
Boulangerie C50
Boulangerie D150
Tableau 1. Répartition des ventes des quatre boulangeries de la ville sur une journée.

Si j’enquête une boulangerie [**] au hasard, par exemple la C, j’estime la vente totale de pain comme étant 4 fois la vente de la boulangerie C, soit 4 \times 50 = 200 baguettes. Le « 4 fois » provient du fait que cette boulangerie en représente 4 ; je fais donc comme si A, B et D avaient les mêmes chiffres de ventes que C. Mais en réalité, le vrai total de baguettes vendues est de 100 + 300 + 50 + 150 = 600 baguettes. 

En revanche, si j’avais échantillonné B, alors mon estimation aurait été de 4 \times 300 = 1 200 baguettes. Dans les deux cas, le total est assez éloigné du nombre de 600 baguettes vendues. Pourtant, si l’on calcule la moyenne de ces deux estimations, soit (200 + 1 200) ÷ 2 = 1 400 ÷ 2 = 700 baguettes, on ne se trompe pas trop, alors même que l’estimation de 200 ou 1 200 baguettes semble très éloignée de la vraie valeur.

Améliorer la précision

Supposons maintenant que, par ailleurs, je connaisse le chiffre d’affaires annuel des boulangeries de la commune (par exemple, grâce à des informations sur les taxes payées). Je peux alors « changer » l’estimation à partir de mon échantillon, de telle sorte à ce que j’obtienne le bon montant total du chiffre d’affaires. On verra comment par la suite, mais concentrons-nous pour l’instant sur la logique qui nous amène à conclure que cela conduit à améliorer la précision.

Dans mon exemple, je sais que le chiffre d’affaires total des quatre boulangeries est de 50 000 € (Tableau 2). L’idée est que si l’estimation du chiffre d’affaires total est plus petite que 50 000 €, alors il y a de bonnes chances qu’elle sous-estime aussi le nombre de baguettes de pain vendues ; si je corrige cette erreur, je vais être plus proche de la vraie valeur.

Pain venduChiffre d’affaires annuel
Boulangerie A10010 000 €
Boulangerie B30025 000 €
Boulangerie C505 000 €
Boulangerie D15010 000 €
Tableau 2. Répartition du nombre de baguettes vendues un jour donné, ainsi que le chiffre d’affaires annuel, par boulangerie.

Si j’ai enquêté C, je peux lui demander son chiffre d’affaires annuel en plus de la quantité de pain vendue. Je me rends alors compte que mon estimation du chiffre d’affaires total est de 4 \times 5 000 = 20 000 € pour une estimation de 200 baguettes vendues, alors que le chiffre d’affaires total est de 50 000 €. Dans ce cas, je « corrige » mon estimation du nombre de baguettes vendues en appliquant un coefficient correctif : comme il faut multiplier 20 000 par 2,5 pour obtenir la bonne valeur de 50 000, alors je multiplie l’estimation du nombre de baguettes vendues, 200, par 2,5. J’obtiens 500 baguettes, ce qui est bien plus proche de la vraie valeur de 600. La correction permet donc de s’approcher de la bonne valeur.

Si j’avais enquêté B, à l’inverse, le chiffre d’affaires total estimé aurait été trop élevé (4 \times 25 000 = 100 000 € au lieu des 50 000 € totaux), et j’aurais alors divisé par deux mon estimation. Je serais donc passé d’une estimation à 1 200 baguettes à une estimation de 600 baguettes au total, ce qui est la bonne valeur. Évidemment, cette méthode ne fonctionne que parce que les deux informations sont corrélées entre elles, c’est-à-dire qu’elles ont tendance à évoluer de façon parallèle : plus on vend de pain, plus on fait de chiffre d’affaires. Par ailleurs, elle n’est pas simple à généraliser lorsque l’on connaît de nombreux totaux : le nombre de ventes, le nombre de clients, les caractéristiques des magasins, leur localisation, etc. Par exemple, si l’on sait maintenant que les boulangeries ont commandé en tout 60 sacs de farine au fournisseur, on peut mobiliser cette information en plus du chiffre d’affaires (Tableau 3).

Pain venduChiffre d’affaires annuelFarine achetée
Boulangerie A10010 000 €10 sacs
Boulangerie B30025 000 €30 sacs
Boulangerie C505 000 €10 sacs
Boulangerie D15010 000 €10 sacs
Tableau 3. Répartition du nombre de baguettes vendues un jour donné, ainsi que le chiffre d’affaires annuel et le nombre de sacs de farine achetés par boulangerie.

Ici, l’estimation quand j’enquête C est de 20 000 € de chiffre d’affaires total soit 2,5 fois moins que la vraie valeur de 50 000 € ; et de 4 \times 10 = 40 sacs de farine soit 1,5 fois moins que la vraie valeur de 60 sacs. On ne peut donc pas calculer simplement un unique coefficient correctif à appliquer au nombre de baguettes vendues ! Comment faire ?

Le principe du calage sur marges

Les auteurs de la publication (Deville et Särndal) proposent une solution à ce problème dite de calage sur marges qui vise à réduire la taille de la fourchette de valeurs que l’on obtient en utilisant tous ces totaux connus sur la population. Pourquoi marges ? Tout simplement parce qu’il suffit de connaître les totaux de chacune des variables, en marge des tableaux, sans avoir à connaître toutes les cases dans les tableaux. 

Par exemple, on doit pour appliquer la méthode connaître le nombre de boulangeries ouvertes le dimanche ainsi que le nombre de boulangeries qui font aussi de la pâtisserie, mais pas nécessairement le nombre de boulangeries-pâtisseries ouvertes le dimanche (Tableau 4). Visuellement, cela signifie connaître les valeurs correspondantes aux cases vertes sans avoir besoin de connaître les valeurs dans les cases en rouge ; or, les cases vertes sont en marge du tableau, ce qui explique le nom de la méthode.

Boulangeries ouvertes le dimancheBoulangeries fermées le dimancheEnsemble
Boulangeries qui font de la pâtisserie
Boulangeries qui n’en font pas      
Ensemble
Tableau 4. Exemple de calage sur marge ; vert : marges, rouge : croisements non essentiels à l’application de la méthode.

La méthode consiste en la résolution d’un problème mathématique complexe, mais l’idée est assez simple. Si j’ai tiré au hasard 1 boulangerie sur 100, alors chacune des boulangeries finalement retenues en représente 100. Dans ce cas, à cause du hasard de la sélection, ce n’est pas sûr que j’obtienne la bonne quantité totale de farine achetée et le bon nombre de boulangeries ouvertes le dimanche en recalculant à partir de mon échantillon. Cependant, en modifiant légèrement le nombre de boulangeries que représente chacun des répondants, par exemple en disant que la première n’en représente plus que 98, et la deuxième 102, je peux réussir à faire en sorte que les totaux soient cohérents, « calés » sur ceux que je connais. En pratique, comment ça marche ?

L’article propose une méthode pour réaliser ce calage sur marges, et il établit des résultats théoriques sur l’estimation construite de cette manière. Il démontre que dès lors que les variables en entrée de la méthode sont bien choisies, la fourchette de valeurs que l’on obtient est plus réduite après le calage sur marges. Comment bien choisir des variables ? Il suffit que celles-ci soient liées à ce que l’on souhaite mesurer : par exemple, une boulangerie ayant acheté beaucoup de farine a produit beaucoup de pain, et donc probablement en a vendu plus qu’une autre ayant fait moins d’achats. Si l’on utilise des variables fantaisistes, comme la couleur des yeux du boulanger, appliquer cette méthode n’a que peu d’intérêt.

Applications en pratique

Cette méthode et la théorie sous-jacente sont un acquis très important de la statistique publique ; la plupart des enquêtes réalisées par l’Insee (Institut national de la statistique et des études économiques) pour estimer le taux de chômage, le taux de pauvreté, etc., utilisent un calage sur marges. Cela permet en effet non seulement d’améliorer la précision des résultats, ce qui est très appréciable pour des indicateurs économiques utiles aux décideurs politiques et au grand public, mais aussi de s’assurer que toutes les enquêtes parlent de la même population : en effet, caler sur le bon nombre d’individus par tranche d’âge, par exemple, assure que les chiffres diffusés dans toutes les enquêtes seront les mêmes.

Elle est surtout utile dans les situations où des individus n’ont pas souhaité répondre à l’enquête, par désintérêt ou car ils n’étaient pas disponibles. En effet, dans ce cas, même si l’échantillon initial avait été très bien conçu, les répondants ne sont plus qu’une fraction des personnes choisies, avec toutes les chances que l’effet ne soit pas le même dans toutes les classes d’âges ou toutes les régions. Réaliser un calage sur marges permet alors de corriger cette non-réponse, autant que possible. Par exemple, si l’on remarque que les femmes de la tranche 16-30 ans en région Auvergne ont moins répondu à notre enquête que les autres, il y a un risque que notre résultat soit faux car il ne prend pas assez en compte cette population. Pour compenser cela, on peut « caler » cette estimation grâce au nombre de femmes, au nombre de personnes de 16 à 30 ans, et au nombre de personnes en Auvergne, qui sont les marges des variables pour lesquelles on observe un problème de non-réponse sur un des croisements.

Cela étant dit, toute estimation reste construite sur un échantillon ! L’étape de calage sur marges permet d’améliorer la précision, et d’obtenir les meilleurs résultats possibles, même avec de petits échantillons, mais elle n’accomplit pas de miracles : il restera toujours une incertitude sur la vraie valeur.

Le calage sur marges reste une méthode flexible qui s’exporte en dehors de ce domaine d’application ; de plus en plus de situations correspondent à des échantillons dits non aléatoires, c’est-à-dire des échantillons qui n’ont pas été choisis au hasard mais issus de collecte de données moins maîtrisées : données des réseaux sociaux (Twitter), enquêtes d’opinion sur Internet, fichiers clients incomplets, etc. Dans ce cas, même si la théorie présentée dans l’article ne fonctionne pas stricto sensu, il est possible de réaliser une pondération par un calage sur des totaux déjà connus pour essayer de corriger, de « recaler », autant que possible les estimations que l’on réalise.


[*] La mention de cette phrase est obligatoire par la loi, et tous les sondages politiques sont d’ailleurs contrôlés par une commission : http://www.commission-des-sondages.fr/

[**] Lorsque l’on réalise un sondage, on dit généralement « enquêter quelqu’un » et non « enquêter sur quelqu’un ».


Écriture : Thomas Merly-Alpa
Relecture scientifique : Bastien Mallein
Relecture de forme : Pierre Marrec et Eléonore Pérès

Temps de lecture : environ 11 minutes.
Thématiques : Statistiques & Probabilités (Mathématiques)

Publication originale : Deville J.-C. & Sarndal C.-E., Calibration Estimators in Survey Sampling. Journal of the American Statistical Association, 1992. DOI: 10.2307/2290268

Crédit : pxhere

Quand on réalise un sondage, on interroge un petit échantillon de la population pour apprendre des choses sur une grande population. Si la théorie mathématique garantit de ne pas faire d’erreur en moyenne, elle ne permet pas de trouver la valeur exacte mais de la situer dans un intervalle de valeurs plausibles. L’article présenté ici propose des méthodes pour diminuer la taille de l’intervalle et ainsi améliorer la qualité des estimations, en « calant » l’échantillon sur des totaux connus.

Lorsque l’on parle de sondages, on pense rapidement aux sondages politiques, avec leur formule consacrée : « 1 000 personnes, constituant un échantillon représentatif de la population française âgée de 18 ans et plus inscrite sur les listes électorales. » [*]. On entend alors par représentatif l’idée que ces 1 000 personnes bien choisies représentent à la façon d’un « petit village » la population française : suffisamment d’hommes et de femmes, de jeunes et de personnes plus âgées, de cadres et d’ouvriers, etc.

Cependant, tous les sondages ne sont pas politiques. On parle de façon générale de sondage lorsque l’on cherche à extrapoler à une population entière une information obtenue en interrogeant un échantillon de cette population. Une discipline entière des mathématiques est consacrée à ce problème. Dans ce contexte, que devient la notion d’échantillon représentatif ?

Bases de théorie des sondages

Notre problème est de chercher à apprendre quelque chose sur l’ensemble d’une population à partir d’un petit échantillon ; ce que l’on cherche à apprendre peut être plusieurs paramètres : un montant total de dépenses dans un magasin, un salaire moyen dans une entreprise, un taux de satisfaction parmi des utilisateurs. La plupart du temps, on établit d’ailleurs un questionnaire comportant plusieurs questions car on cherche à apprendre plusieurs choses sur la population.

La théorie mathématique derrière ce sujet est relativement simple. On tire au hasard un échantillon d’individus qui vont répondre à notre questionnaire ; et le hasard est important, car c’est ce qui va nous permettre d’avoir des résultats mathématiques. Cependant, au hasard ne veut pas forcément dire uniformément au hasard, comme un lancer de dé ou un tirage de loto.

Par exemple, si l’on s’intéresse au nombre total de baguettes de pain vendues chaque jour en France, on a intérêt à enquêter principalement les supermarchés [**], car ils vont contribuer très fortement au total des ventes, bien plus que chaque boulangerie indépendamment. Il est donc possible de favoriser certains individus, et de s’assurer que leur probabilité de sélection est plus forte ; dans notre exemple, les supermarchés auront une probabilité plus forte d’être sélectionnés que les boulangeries.

Chaque individu de l’échantillon représente plusieurs autres (et même, souvent, de très nombreux autres) individus, qui n’ont pas été sélectionnés. Le nombre d’individus que l’individu dans l’échantillon représente, que l’on appelle poids de sondage de l’individu, est alors l’inverse de la probabilité d’être sélectionné. Ainsi, si on réalise une enquête en interrogeant un supermarché sur dix et une boulangerie sur mille, alors chaque supermarché en représentera dix, tandis que chaque boulangerie en représentera mille. Il existe un estimateur que l’on appelle Horvitz-Thompson Y_{\mathrm{HT}}, du nom de ses inventeurs, qui postule que pour obtenir une bonne estimation, il faut et il suffit de prendre en compte ce poids de sondage d_\mathrm{i} dans l’estimation à partir des réponses Y_\mathrm{i} des individus de l’échantillon S (pour sample) :

    \[Y_{\mathrm{HT}}=\sum_{\mathrm{i}\in \mathrm{S}}{d_\mathrm{i}\ Y_\mathrm{i}}\]

Par bonne estimation, on veut dire qu’en répétant l’opération (tirer un échantillon puis calculer l’estimateur associé) un nombre suffisant de fois, on sera en moyenne autour de la bonne valeur ; mathématiquement, le biais sera nul. On voit ainsi qu’il est possible, dans notre exemple, d’obtenir une bonne estimation malgré un échantillon qui contient beaucoup plus de supermarchés que ce que l’on attendrait d’un échantillon représentatif au sens du sondage politique.

La question de la bonne représentation de la population se pose néanmoins. En effet, lorsque l’on travaille sur un petit échantillon, le résultat estimé ne sera pas exactement la bonne valeur. Les écarts observés entre l’estimation et la bonne valeur, lorsque l’on utilise différents échantillons, sont résumés dans la variance de l’estimateur, calculée comme la moyenne des écarts au carré. Améliorer la précision en diminuant la variance est alors un objectif : la question de bien représenter la population d’intérêt va se reposer ici.Prenons un exemple simple : supposons qu’il y ait quatre boulangeries dans une ville, dont la répartition des ventes est présentée dans le Tableau 1, et que l’on souhaite connaître la quantité de pain vendue un jour donné.

Pain vendu
Boulangerie A100
Boulangerie B300
Boulangerie C50
Boulangerie D150
Tableau 1. Répartition des ventes des quatre boulangeries de la ville sur une journée.

Si j’enquête une boulangerie au hasard, par exemple la C, je vais estimer la vente totale de pain comme étant quatre fois (car cette boulangerie représente les quatre de la ville) la vente de la boulangerie C, soit 4 \times 50 = 200 baguettes, alors que le vrai total est de 100 + 300 + 50 + 150 = 600. En revanche, si j’avais échantillonné B, alors mon estimation aurait été de 4 \times 300 = 1 200. On peut calculer qu’en moyenne on ne se trompe pas, alors que l’estimation de 200 ou 1 200 baguettes semble très éloignée de la vraie valeur.

Améliorer la précision d’un estimateur

Supposons maintenant que, par ailleurs, je connaisse le chiffre d’affaires annuel des boulangeries de la commune (par exemple, via des informations sur les taxes payées) (Tableau 2). Je peux alors « changer » l’estimation à partir de mon échantillon de telle sorte que j’obtienne le bon total de chiffre d’affaires. Faire cela conduit à améliorer la précision. En effet, si jusqu’ici mon estimateur sous-estimait le chiffre d’affaires total, il y a de bonnes chances qu’il sous-estime aussi le nombre de baguettes de pain vendues ; si je corrige cette erreur, je vais être plus proche de la vraie valeur. Dans mon exemple, je sais que le chiffre d’affaires total est de 50 000 € (= 50 k€).

Pain venduChiffre d’affaires annuel
Boulangerie A10010 k€
Boulangerie B30025 k€
Boulangerie C505 k€
Boulangerie D15010 k€
Tableau 2. Répartition du nombre de baguettes vendues un jour donné, ainsi que le chiffre d’affaires annuel, par boulangerie.

Si j’ai enquêté C, je peux lui demander son chiffre d’affaires en plus de la quantité de pain vendu. Je me rends alors compte que mon estimation du chiffre d’affaires total est de 4 \times 5 k€ = 20 k€, alors que le chiffre d’affaires total est de 50 k€. Dans ce cas, je « corrige » mon estimation du nombre de pain vendus en appliquant un coefficient correctif : comme le chiffre d’affaires doit être multiplié par 2,5 pour obtenir la bonne valeur, je multiplie le nombre de baguettes vendues 200 baguettes par 2,5 et j’obtiens 500, ce qui est bien plus proche de la vraie valeur de 600.

Si j’avais enquêté B, à l’inverse, le chiffre d’affaires total estimé aurait été trop élevé (100 k€ au lieu de 50 k€), et j’aurais alors divisé par deux mon estimation pour arriver à 600 baguettes au total.

Évidemment, cette méthode ne fonctionne que parce que les deux informations sont corrélées entre elles. Par ailleurs, elle n’est pas simple à généraliser quand on connaît de nombreux totaux : le nombre de ventes, le nombre de clients, les caractéristiques des magasins, leur localisation, etc. Par exemple, si l’on sait maintenant que les boulangeries ont commandé en tout 60 sacs de farine au fournisseur, on peut mobiliser cette information en plus du chiffre d’affaires (Tableau 3).

Pain venduChiffre d’affaires annuelFarine achetée
Boulangerie A10010 k€10 sacs
Boulangerie B30025 k€30 sacs
Boulangerie C505 k€10 sacs
Boulangerie D15010 k€10 sacs
Tableau 3. Répartition du nombre de baguettes vendues un jour donné, ainsi que le chiffre d’affaires annuel et le nombre de sacs de farine achetés par boulangerie.

Ici, l’estimation quand j’enquête C est de 20 k€ de chiffre d’affaires total (soit 2,5 fois moins que la vraie valeur, 50 k€) et de 40 sacs de farine (soit 1,5 fois moins que la vraie valeur, 60 sacs). On ne peut donc pas appliquer un unique coefficient correctif au nombre de baguettes vendues ! Comment faire ?

Le principe du calage sur marges

Les auteurs de la publication (Deville et Särndal) proposent une solution à ce problème dite de calage sur marges (margin calibration en anglais) qui vise à réduire la variance en utilisant tous ces totaux connus sur la population. Pourquoi marges ? Tout simplement parce qu’il suffit de connaître les totaux de chacune des variables, en marge des tableaux, sans avoir à connaître tous les croisements des variables (les cases dans les tableaux). Par exemple, on doit connaître la quantité totale de farine achetée et le nombre de boulangeries ouvertes le dimanche, mais pas nécessairement la quantité totale de farine achetée par les boulangeries ouvertes le dimanche.

Mathématiquement, on suppose que l’on connaît le vrai total T(X_\mathrm{k}) de K variables auxiliaires X_\mathrm{k},, et que l’on connaît la valeur de chacun des X_\mathrm{k} sur les unités échantillonnées (soit parce que c’est une information que l’on a initialement dans la base qui a servi à faire l’échantillon, soit parce que l’on a récupéré cette information lors de l’entretien). L’estimateur du total de la variable X_\mathrm{k} obtenue à l’aide de l’échantillon et en utilisant les poids de sondage d_\mathrm{i} est :

    \[X_{\mathrm{k{,}HT}}=\sum_{\mathrm{i}\in \mathrm{S}}{d_\mathrm{i}\ X_{\mathrm{ki}}}\]

Il y a de bonnes chances que cette valeur ne soit pas la vraie valeur, c’est-à-dire que X_{\mathrm{k}{,}\mathrm{HT}} \ne T(X_\mathrm{k}). On souhaite donc construire de nouveaux poids w_\mathrm{i} (appelés poids calés) qui permettent d’obtenir les vrais totaux T(X_\mathrm{k}) qui respectent la formule :

    \[T\left(X_\mathrm{k}\right)=\sum_{\mathrm{i}\in \mathrm{S}}{w_\mathrm{i}\ X_{\mathrm{ki}}}\]

Il y a évidemment une infinité de poids qui peuvent fonctionner, mais on ne veut pas choisir n’importe lesquels. L’idée est de se placer sous la contrainte d’être le plus proche possible des poids initiaux d_\mathrm{i}, car ces derniers possèdent de bonnes propriétés ; s’en éloigner trop pourrait conduire à avoir des estimations biaisées, c’est-à-dire systématiquement à la hausse ou à la baisse par rapport à la vraie valeur. Pour mesurer cet éloignement, il est possible d’introduire plusieurs fonctions de distance : chacune d’entre elles permet d’obtenir des propriétés souhaitées par l’utilisateur pour les poids calés. L’article propose une méthode pour résoudre ce problème d’optimisation, quelle que soit la distance choisie, et plusieurs d’entre elles sont mises en avant par les auteurs.

Par exemple, il est possible d’utiliser une méthode dite exponentielle (en raison de la forme de la fonction utilisée) pour introduire des bornes L (lower) et U (upper) qui contraignent les poids calés à ne pas sortir de ces bornes. C’est assez pratique, car on ne souhaite ni qu’un individu ait un poids trop faible voire négatif (cela serait difficile à interpréter, même si mathématiquement cela peut être exact), ni trop fort,car sinon ses réponses auraient une influence beaucoup trop importante sur le chiffre final (imaginez qu’une de nos boulangeries en représente un million, à chaque baguette vendue on fait l’hypothèse que, en fait, cela veut dire qu’un million sont vendues dans la population entière !). Ce problème n’est pas uniquement théorique. Si l’on en revient aux sondages politiques, lors de la campagne de 2016 pour les élections américaines, les sondages politiques de l’Illinois étaient peu précis en raison justement d’un répondant ayant un poids trop fort [1].

La publication va plus loin. Non seulement elle propose une méthode pour réaliser ce calage sur marges, mais elle établit des résultats théoriques sur l’estimateur construit de cette manière. En effet, il démontre que dès lors que les variables auxiliaires sont fortement corrélées à la variable d’intérêt, la variance de notre estimateur calé sera (nettement) inférieure à celle initiale. On obtient donc une formule de variance pour l’estimateur calé dont la valeur est inférieure à la variance initiale de notre estimateur par sondage. Même si la formule n’est vraie qu’asymptotiquement, un résultat théorique montre qu’à distance finie, l’erreur reste très faible. 

Applications en pratique

Cette méthode et la théorie sous-jacente sont un acquis très important de la statistique publique ; la plupart des enquêtes réalisées par l’Insee (Institut national de la statistique et des études économiques) pour estimer le taux de chômage, le taux de pauvreté, etc., utilisent un calage sur marges. Cela permet en effet non seulement d’améliorer la précision des résultats, ce qui est très appréciable pour des indicateurs économiques utiles aux décideurs politiques et au grand public, mais aussi de s’assurer que toutes les enquêtes parlent de la même population : en effet, caler sur le bon nombre d’individus par tranche d’âge par exemple assure que les chiffres diffusés dans toutes les enquêtes seront les mêmes.

Elle est surtout utile dans les situations où des individus n’ont pas souhaité répondre à l’enquête, par désintérêt ou car ils n’étaient pas disponibles. En effet, dans ce cas, même si l’échantillon initial avait été très bien conçu, les répondants ne sont plus qu’une fraction des personnes choisies, avec toutes les chances que l’effet ne soit pas le même dans toutes les classes d’âges ou toutes les régions. Réaliser un calage permet alors de corriger cette non-réponse, autant que possible.

Cela étant dit, toute estimation reste construite sur un échantillon ! L’étape de calage sur marges permet d’améliorer la précision, et d’obtenir les meilleurs résultats possibles, même avec de petits échantillons, mais elle n’accomplit pas de miracles : il restera toujours une incertitude sur la vraie valeur. 

Le calage sur marges reste une méthode flexible qui s’exporte en dehors de ce domaine d’application ; de plus en plus de situations correspondent à des échantillons dits non aléatoires, c’est-à-dire des échantillons qui n’ont pas été choisis au hasard mais issus de collecte de données moins maîtrisées : données des réseaux sociaux (Twitter), enquêtes d’opinion sur Internet, fichiers clients incomplets, etc. Dans ce cas, même si la théorie présentée dans l’article ne fonctionne pas stricto sensu, il est possible de réaliser une pondération par un calage sur des totaux déjà connus pour essayer de corriger, de recaler, autant que possible les estimations que l’on réalise.


[*] La mention de cette phrase est obligatoire par la loi, et tous les sondages politiques sont d’ailleurs contrôlés par une commission : http://www.commission-des-sondages.fr/

[**] Lorsque l’on réalise un sondage, on dit généralement « enquêter quelqu’un » et non « enquêter sur quelqu’un ».


[1] Pour plus de détails : How One 19-Year-Old Illinois Man Is Distorting National Polling Averages, The New York Times, 2016. [Article de presse, en anglais]


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.