Les Statistiques et le Paradoxe de Simpson
Résumé
L'analyse des statistiques, bien que perçue comme le fondement de toute décision rationnelle, recèle des paradoxes capables de conduire à des conclusions erronées.
Le plus notable d'entre eux est le paradoxe de Simpson, qui se manifeste lorsqu'une tendance observée au sein de plusieurs groupes de données s'inverse ou disparaît lorsque ces groupes sont agrégés.
Ce phénomène n'est pas une anomalie mathématique mais une illusion provoquée par un "facteur de confusion" : une variable cachée qui est corrélée à la fois à la cause étudiée et au résultat observé.
L'identification de ce facteur, comme le sexe des patients dans un essai clinique ou celui des athlètes dans une étude de performance, est cruciale.
Elle démontre que les chiffres bruts peuvent être trompeurs et que l'interprétation correcte des données exige une compréhension approfondie du contexte, au-delà des seuls calculs mathématiques.
La conclusion fondamentale est que pour faire de bonnes statistiques, les mathématiques ne suffisent pas ; il est impératif de se souvenir que derrière les données, "il existe un monde".
Introduction aux Statistiques : Un Domaine Paradoxal
Considérées comme une région "mal-aimée des puristes parce que trop terre-à-terre" du pays des mathématiques, les statistiques sont définies comme "l'ensemble des méthodes qui ont pour objet la collecte, le traitement et l'interprétation de données d'observation relative à un groupe d'individus ou d'unités".
Elles sont essentielles pour visualiser des phénomènes de masse, calculer des moyennes et des taux, et sont perçues comme le fondement de la rationalité.
Cependant, au cœur de cette discipline se nichent des surprises et des paradoxes qui remettent en question les interprétations les plus évidentes.
Le paradoxe de Simpson est l'une de ces singularités qui démontre la complexité cachée derrière l'analyse des données.
Le Paradoxe de Simpson : Étude de Cas d'un Essai Clinique
L'exemple central utilisé pour illustrer ce paradoxe est un essai clinique fictif testant un nouveau médicament contre un placebo.
Le Constat Initial : Un Médicament Apparemment Efficace
Une première analyse des résultats globaux, sans distinction entre les patients, semble indiquer un succès clair pour le nouveau traitement.
• Groupe Médicament : 50% des malades ont guéri.
• Groupe Placebo : 40% des malades ont guéri.
Sur la base de ces chiffres agrégés, la conclusion logique est que "le médicament est efficace".
L'Inversion des Résultats : L'Analyse par Sexe
Une statisticienne décide d'affiner l'analyse en séparant les résultats par sexe, ce qui conduit à une inversion complète et surprenante des conclusions.
• Chez les hommes : Le placebo se révèle plus efficace que le médicament testé.
• Chez les femmes : Le médicament n'est pas efficace non plus.
Cette situation soulève une question fondamentale : "Comment un médicament peut-il être inefficace chez les hommes, inefficace chez les femmes et tout de même efficace sur l'ensemble homme plus femme ?"
Ce phénomène a été décrit pour la première fois par le mathématicien Karl Pearson en 1899, puis par Edward Simpson en 1951, qui lui a laissé son nom.
Le Dilemme de la Décision
Face à ces résultats contradictoires, un médecin se retrouve face à un dilemme :
1. Approche basée sur l'information disponible : Il faudrait prescrire le médicament si l'on ne connaît pas le sexe du patient, mais ne pas le prescrire si le patient est un homme ou une femme. Cette conclusion est jugée "absurde".
2. Approche basée sur les données détaillées : Il faudrait se fier aux tableaux par sexe, car ils contiennent plus d'informations, et ignorer le tableau global.
Cependant, cette approche est également problématique, car une autre segmentation des patients (par exemple, par âge) pourrait à nouveau contredire les conclusions, menant à des prescriptions contradictoires selon le critère choisi.
Le Facteur de Confusion : Clé de l'Explication
La résolution du paradoxe réside dans l'identification d'un "facteur de confusion", une variable externe qui influence à la fois la cause et l'effet étudiés, faussant ainsi la corrélation observée.
Illustration par l'Exemple des Lycéens Sprinteurs
Une étude sur les performances au 100 mètres de lycéens montre une corrélation inattendue : plus les lycéens fument, plus ils semblent courir vite.
• Le Facteur de Confusion : Le sexe des participants. Il est établi que :
◦ Les garçons ont des performances globalement supérieures à celles des filles. ◦ Les garçons fument davantage que les filles.
• L'Explication : En analysant les groupes séparément, la véritable tendance apparaît. "Chez les filles comme chez les garçons, fumer réduit les performances".
L'erreur d'interprétation initiale venait du fait que le sexe (le facteur de confusion) influençait à la fois la consommation de tabac (la cause) et les performances sportives (le résultat).
On imaginait une causalité directe entre fumer et courir vite, alors que la structure cachée était que les garçons, qui courent plus vite, fumaient aussi davantage.
Application à l'Essai Clinique
En appliquant ce raisonnement à l'essai clinique, le facteur de confusion devient évident :
• Distribution inégale du traitement : Les hommes, qui guérissent plus souvent quel que soit le traitement, ont majoritairement reçu le médicament. Les femmes, en revanche, ont majoritairement reçu le placebo.
• L'Illusion Statistique : Le sexe des patients est corrélé à la fois au taux de guérison (le résultat) et à l'administration du médicament (la cause).
L'impression d'efficacité du médicament est une illusion provoquée par cette distribution déséquilibrée.
• La Véritable Conclusion : Si le médicament et le placebo avaient été distribués de manière proportionnelle entre les sexes, on aurait découvert que le médicament n'avait qu'un taux de guérison de 40 %, le rendant totalement inefficace.
Il n'existe pas de "médicament qui soit inefficace chez les femmes, inefficace chez les hommes et qui soigne tout de même les êtres humains en général".
Autres Exemples de Biais Statistiques
Le document cite un autre cas de biais, relevé par le démographe Hervé Le Bras, concernant le nombre moyen d'enfants par famille.
• Moyenne officielle dans l'UE : 1,59 enfant par famille.
• Résultat si l'on interroge les enfants : La moyenne obtenue est bien supérieure.
• L'Explication du Biais : La méthode de sondage est erronée.
En interrogeant les enfants, on exclut mécaniquement les familles sans enfant et on surreprésente les familles nombreuses (on interroge deux fois plus d'enfants de familles à deux enfants que d'enfants de familles à un enfant, etc.).
Conclusion : Au-delà des Mathématiques
Le paradoxe de Simpson illustre une vérité fondamentale sur l'analyse statistique : les chiffres seuls ne suffisent pas.
L'interprétation des données sans une compréhension du contexte du monde réel peut mener à des conclusions erronées et à de mauvaises décisions.
• La Limite des Mathématiques : Pour faire de bonnes statistiques, les mathématiques sont un outil indispensable mais insuffisant.
Les mathématiciens ne peuvent remplacer les médecins ou autres experts du domaine étudié, car la connaissance du contexte est essentielle pour identifier les facteurs de confusion potentiels.
• La Leçon Fondamentale : "Les mathématiques permettent de comprendre le monde à condition de se souvenir qu'il existe."