Loading...
web2.0

COVID19-Effet de loupe et biais de sélection

On parle parfois d’«effet de loupe» probabiliste, pour insister sur le fait
que le conditionnement par un événement A nous fait observer «à la loupe» cet
événement (en particulier si celui-ci est de faible probabilité), puisque l’on ramène
à 1 la probabilité de celui-ci en grossissant proportionnellement les probabilités des
éventualités élémentaires qui le constituent, si bien que A joue en quelque sorte
le rôle d’espace des possibles à lui tout seul. Il se peut donc que P(·|A) se révèle
très différente de P, au moins pour le calcul de la probabilité d’un certain nombre
d’événements.
Cet effet est connu en statistique sous le nom de biais de sélection. Il se manifeste
par exemple lorsque l’on cherche à construire un modèle (Ω, P) décrivant une certaine population, mais que la population réellement atteinte par notre étude est une
sous-population de P obtenue par une certaine forme de sélection, si bien que celle-ci
serait adéquatement décrite par le modèle (Ω, P(·|A)) et non pas (Ω, P). Si l’on n’est
pas conscient de cette différence entre la population que l’on cherche à étudier et
celle que l’on étudie réellement, on sera amené à attribuer à P des propriétés qui sont
en fait celles de P(·|A), ce qui n’est pas vraiment souhaitable, en particulier si ces
probabilités sont fortement distinctes ! Un exemple très simple de ce phénomène est
constitué par les enquêtes statistiques dont les réponses sont obtenues sur la base
du volontariat.

Par exemple, un magazine adresse à ses lecteurs un questionnaire,
mais seuls répondent ceux qui le souhaitent. Dans ce cas, la population réellement
touchée par l’étude est constituée par les individus ayant souhaité et trouvé le temps
d’y répondre, et, dans certains cas, il est parfaitement possible qu’il existe une dépendance entre les réponses aux questions posées et le fait de souhaiter et d’avoir
le temps de répondre au questionnaire (par exemple, seuls les lecteurs se sentant
particulièrement concernés par les questions posées répondront, et la répartition de
leurs réponses peut donc différer de celle des réponses que fourniraient l’ensemble des
lecteurs du magazine). De la même manière, la population des lecteurs du magazine
forme une sous-population bien particulière de la population totale sont distinctes, et
extrapoler les réponses de celle-ci à celle-là revient à ignorer la présence de la sélection. Un exemple historique de biais de sélection est le sondage du magazine Literary
Digest qui, à l’occasion de l’élection présidentielle américaine de 1936, avait prévu la
victoire du candidat républicain (Landon) contre le candidat démocrate (Roosevelt),
sur la base d’une enquête postale portant sur plus de deux millions de personnes.
C’est en fait Roosevelt qui fut élu. Pour ce qui nous intéresse de cette histoire, il faut
noter que la liste des personnes sondées par le magazine avait été établie à partir
d’une liste de ses lecteurs, de détenteurs d’automobiles, et d’usagers du téléphone,
ce qui, à l’époque, représentait une forte sélection en faveur des couches aisées de la
population, d’où évidemment un biais de sélection. Avec la confusion entre dépendance et causalité, la non-prise en compte d’un possible biais de sélection dans un
argument statistique constitue l’une des pires erreurs qui se puissent commettre. La
présence d’un biais de ce type n’est cependant pas toujours facile à déceler, celui-ci
pouvant se manifester en amont (par exemple au moment de la collecte des données),
ou en aval (après que celles-ci ont été collectées).
Exemple simples d’effet de loupe probabiliste:

Exemple : pourquoi faut-il prendre avec précaution les résultats de tests
de dépistage alarmants ?
Pour dépister une maladie, on effectue un test sanguin. Si le patient est effectivement atteint, le test donne un résultat positif avec une probabilité de 99% (sensibilité). Si le patient est sain, le test donne un résultat négatif (spécificité) avec
une probabilité de 98%, mais peut donc malheureusement donner un résultat positif
avec une probabilité de 2%. Nous supposerons que la probabilité d’être frappé par la
maladie est de 0,1% pour un patient se présentant au dépistage (on peut imaginer
qu’il s’agit d’un dépistage assez systématique, touchant une large fraction de la population). Sachant que le test donne un résultat positif, quelle est la probabilité que
le patient soit effectivement malade ?
Comme précédemment, on construit un modèle probabiliste dont l’espace des
possibles est
Ω = {MP, MN, SP, SN},
où M désigne le fait que le patient soit malade, S le fait qu’il ne le soit pas, N le
fait que le test soit négatif et P le fait qu’il soit positif. Appelons M l’événement «le
patient est malade» et P l’événement «le test est positif». Nous cherchons donc la
probabilité conditionnelle P(M¯ |P). Grâce à la formule de Bayes, on a :
P(M¯ |P) = P(M¯ ∩ P)
P(P)
=
P(P|M¯ ) × P(M¯ )
P(P)
=
0, 02 × 0, 999
P(P)
.

En notant que P est la réunion des deux événements disjoints P ∩ M et P ∩ M¯ , on
obtient que :
P(P) = P(P ∩ M) + P(P ∩ M¯ ).
D’où, grâce à la formule de Bayes :
P(P) = P(P|M)×P(M)+P(P|M¯ )×P(M¯ ) = 0, 99×0, 001+0, 02×0, 999 = 0, 02097.
Finalement, la probabilité conditionnelle recherchée est égale à :
P(M¯ |P) = 0, 02 × 0, 999
0, 02097
= 0, 95278…
Autrement dit, lorsque le test donne lieu à un résultat positif, il s’agit d’un «faux
positif» avec une probabilité supérieure à 95%… Là encore, c’est la très faible incidence de la maladie dans la population subissant le dépistage qui fait que, malgré les
performances apparemment honorables du test, celui-ci se révèle en pratique d’une
fiabilité extrêmement réduite… Si seuls se présentaient au dépistage des patients
probablement atteints de la maladie (par exemple, s’il s’agissait d’un test servant
surtout à confirmer des soupçons bien étayés), la situation serait toute autre… On
note que les faux positifs demeurent fort rares dans l’absolu (c’est-à-dire, non rapportés au nombre de positifs, vrais ou faux, mais à la totalité des tests effectués) :
la plupart du temps, le test est négatif. De plus, lorsqu’il l’est, c’est la plupart du
temps à juste titre, car la probabilité pour que le patient soit malade si le résultat
du test est négatif, c’est-à-dire P(N|M) est de l’ordre de 10−5
.
L’effet de loupe entraîne encore ici une modification de la probabilité de fonctionnement correct du test.

Exemple Probalité entre Vaccinés et Non vaccinés de mourir

Une personne non infectée ne peut pas décéder.Probalités Vax/noVax

68 comments
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.