Corrélation fallacieuse entre des rapports

Un article de Wikipédia, l'encyclopédie libre.
Illustration d'une corrélation de rapports fallacieuse. Le nuage de points contient 500 points où les rapports z/x sont en ordonnée et les rapports y/z sont en abscisse. Le coefficient de corrélation linéaire entre ces rapports est de 0,53, même si x, y et z sont statistiquement indépendants (c'est-à-dire que le coefficient de corrélation linéaire est nul entre n'importe quelle paire de variables). Une échelle de couleur (en bas à la droite) permet de « qualifier » la valeur de z.

Une corrélation fallacieuse entre des rapports est une forme de corrélation fallacieuse (en) qui apparaît entre des rapports de mesures absolues, lesquelles présentent un coefficient de corrélation linéaire nul[1].

Ce phénomène apparaît régulièrement dans le domaine des données compositionnelles (en), qui porte sur l'analyse de variables qui n'apportent que des informations relatives, telles que proportions, pourcentages et parties par million [2],[3].

La corrélation fallacieuse entre des rapports est distincte de l'effet cigogne (un coefficient de corrélation fort n'implique pas la causalité).

Exemple[modifier | modifier le code]

Le mathématicien britannique Karl Pearson a donné un exemple de corrélation fallacieuse entre des rapports[1] : « Prenez trois nombres au hasard dans une certaine étendue de valeurs, que nous appelons x, y et z. Nous trouverons une paire et une [autre] paire corrélée. Formons les fractions x/y et z/y pour chaque triplet de nombres ; nous trouverons une corrélation entre ces rapports. »[trad 1]

Le schéma dans le haut à la droite de cette page démontre visuellement cette affirmation. Il comprend 500 points calculés à partir de 500 triplets de variables x, y et z selon les consignes de Pearson. Les trois variables x, y et z sont tirées d'une distribution normale de moyennes 10, 10 et 30, respectivement, et d'écarts-types de 1, 1 et 3 respectivement. Mathématiquement, les trois variables sont tirées de :

Même si x, y et z sont statistiquement indépendants et donc de corrélation nulle, dans le schéma, les rapports z/x et y/z présentent une corrélation de 0,53. La variable commune (z) explique cette tendance ; celle-ci est plus facile à découvrir si les points du graphique sont colorés selon la valeur de z. Les triplets (x, y, z) dont la valeur de z est élevée apparaissent dans le bas à la gauche du nuage de points ; les triplets dont la valeur de z est faible apparaissent le plus souvent dans le haut à la droite (la couleur des points indique la valeur relative de z).

Valeur approximative[modifier | modifier le code]

Karl Pearson a obtenu une approximation de la corrélation fallacieuse qui serait observée entre deux variables ( et ), c'est-à-dire les rapports des mesures absolus  :

est le coefficient de variation de , et est le coefficient de corrélation de Bravais-Pearson entre et .

L'expression à la droite de l'équation peut être simplifiée dans les situations où il existe une diviseur commun en posant et ne sont pas corrélées, ce qui donne le coefficient de corrélation fallacieuse :

Dans le cas où tous les coefficients de variation sont égaux (comme dans l'exemple illustré plus haut), .

Importance en biologie et d'autres sciences[modifier | modifier le code]

Karl Pearson, tout comme Francis Galton[4] et Walter Frank Raphael Weldon[1], a mis en garde les scientifiques contre la corrélation fallacieuse, particulièrement en biologie[5] où il est courant de normaliser des mesures en les divisant par une variable particulière ou leur somme. Il craignait que les conclusions s'appuieraient sur des corrélations qui sont causées par la méthode d'analyse, plutôt que par un lien entre les variables.

Néanmoins, la corrélation fallacieuse entre des rapports est peu connue parmi les scientifiques. Par exemple, en 1986, John Aitchison, qui est l'un des pionniers dans l'usage des rapports de logarithmes (log-ratio) dans le domaine des données compositionnelles (en) écrit[2] :

« Il est surprenant que les mises en garde de ces trois éminents statisticiens, Pearson, Galton et Weldon, ont été peu écoutées pendant si longtemps : même aujourd'hui, l'usage sans sens critique de méthodes statistiques inappropriées pour les données compositionnelles menant à des inférences douteuses est régulièrement rapporté.[trad 2] »

Des articles publiés dans les années 2010 laissent penser que les scientifiques sont abusés par des résultats, au moins en biologie moléculaire[6],[7].

Notes et références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de la page de Wikipédia en anglais intitulée « Spurious correlation of ratios » (voir la liste des auteurs).

Citations originales[modifier | modifier le code]

  1. (en) « Select three numbers within certain ranges at random, say x, y, z, these will be pair and pair uncorrelated. Form the proper fractions x/y and z/y for each triplet, and correlation will be found between these indices. »
  2. (en) « It seems surprising that the warnings of three such eminent statistician-scientists as Pearson, Galton and Weldon should have largely gone unheeded for so long: even today uncritical applications of inappropriate statistical methods to compositional data with consequent dubious inferences are regularly reported. »

Références[modifier | modifier le code]

  1. a b et c (en) Karl Pearson, « Mathematical Contributions to the Theory of Evolution—On a Form of Spurious Correlation Which May Arise When Indices Are Used in the Measurement of Organs », Proceedings of the Royal Society of London, vol. 60, nos 359–367,‎ , p. 489–498 (DOI 10.1098/rspl.1896.0076, JSTOR 115879)
  2. a et b (en) John Aitchison, The statistical analysis of compositional data, Chapman & Hall, (ISBN 978-0-412-28060-3)
  3. (en) Vera Pawlowsky-Glahn (dir.) et Antonella Buccianti (dir.), Compositional Data Analysis: Theory and Applications, Wiley, (ISBN 9780470711354, DOI 10.1002/9781119976462)
  4. (en) Francis Galton, « Note to the memoir by Professor Karl Pearson, F.R.S., on spurious correlation », Proceedings of the Royal Society of London, vol. 60, nos 359–367,‎ , p. 498–502 (DOI 10.1098/rspl.1896.0077)
  5. (en) D. A. Jackson et K. M. Somers, « The Spectre of 'Spurious' Correlation », Oecologia, vol. 86, no 1,‎ , p. 147–151 (PMID 28313173, DOI 10.1007/bf00317404, JSTOR 4219582, Bibcode 1991Oecol..86..147J)
  6. (en) David Lovell, Warren Müller, Jen Taylor, Alec Zwart et Chris Helliwell, Compositional Data Analysis: Theory and Applications, Wiley, (ISBN 9780470711354, DOI 10.1002/9781119976462), « Chapter 14: Proportions, Percentages, PPM: Do the Molecular Biosciences Treat Compositional Data Right? »
  7. (en) David Lovell, Vera Pawlowsky-Glahn, Juan José Egozcue, Samuel Marguerat et Jürg Bähler, « Proportionality: A Valid Alternative to Correlation for Relative Data », PLoS Computational Biology, vol. 11, no 3,‎ , e1004075 (PMID 25775355, PMCID 4361748, DOI 10.1371/journal.pcbi.1004075, Bibcode 2015PLSCB..11E4075L)

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

  • Jean-Bernard Chatelain et Kirsten Ralf, « Les liaisons fallacieuses : quasi-colinéarité et « suppresseur classique », aide au développement et croissance », Revue économique, vol. 63,‎ , p. 557-567 (DOI 10.3917/reco.633.0557, lire en ligne)