SUR
l’hypothèse
« toutes choses égales par ailleurs »
François
Pignon
Mots clés : modèle linéaire, test statistique, risques,
corrélation partielle.
SUMMARY :
According to N.G. Yoccoz, « the statistical methods used in ecology (and
in many other disciplines) are often used in a debatable way and that more
especially as the basic concepts are badly known » (Yoccoz, 1999). The
social sciences are concerned obviously by this problem : one tries to
solve it by setting methodological standards on works published in scientific
reviews. The hypothesis « all things staying similar», known in sciences
of nature such as « in the same conditions of temperature and
pressure » seems typical of this problem: its formalization and the
interpretation of the statistical results which derive from it, are difficult.
Nevertheless it is essential in economic, social and human sciences to conduct
forecasts or to establish a relation of cause and effect between two variables.
We give a precise description here and underline the statistical limits of the
methods classically used.
Key words: linear model, statistical test, risks, partial
correlation.
L’hypothèse « toutes choses égales par ailleurs « est très fréquemment supposée vraie pour interpréter les résultats statistiques dans les sciences économiques et sociales. Elle nous a paru fortement critiquable dans certains cas (Foucart, 2001), ce qui nous a incités à l’étudier de façon précise.
Dans les sciences économiques, on établit des modèles pour que cette hypothèse puisse être considérée comme satisfaite, tout en gardant une certaine prudence dans les prévisions qui sont toujours effectuées sous réserve que le contexte économique dans lequel la série évolue est constant. En outre, les théories mathématiques de prévision supposent toujours vérifiées l’hypothèse de stationnarité (d’invariance) des coefficients d’autocorrélation. La mise en place d’une modélisation analogue de données sociales ou humaines est plus difficile, surtout dans le cas de données qualitatives, et nécessite une description précise.
Imaginons à titre d’exemple une étude sociologique dont l’objectif est de mettre en évidence les relations existant entre le sexe, la catégorie socioprofessionnelle, l’âge, le revenu, le secteur d’activité et l’opinion politique exprimée par le vote Droite/Gauche des électeurs en France.
Pour étudier la relation entre deux des
caractères observés, par exemple la catégorie socioprofessionnelle et l’opinion
politique, ou le sexe et le revenu, la démarche habituelle consiste à raisonner
sous l’hypothèse « toutes choses égales par ailleurs ». Dans la mesure où
cette hypothèse est vérifiée, la relation observée peut être interprétée en
terme de causalité. La statistique n’intervient pas dans cette interprétation,
qui ne peut résulter que d’une analyse spécifique aux sciences humaines et
sociales : « a statistical relationship, however strong and however
suggestive, can never establish a causal connexion : our ideas on
causation must come from outside statistics, ultimately from some theory or
other. » (Kendall et Stuart, 1961). Le raisonnement statistique
n’intervient que dans la modélisation de cette hypothèse et dans le choix de la
méthode d’analyse (en général, l’analyse de variance ou, ce qui est équivalent,
le modèle linéaire) : nous nous limiterons à cet aspect de la question.
Que signifie précisément la proposition « toutes choses égales par ailleurs, les cadres moyens votent plus à gauche que les cadres supérieurs » ? L’hypothèse vise ici principalement à écarter l’explication consistant à imaginer un ou plusieurs autres critères dont résulteraient simultanément le statut professionnel et l’orientation politique.
Il faudrait donc théoriquement prendre en compte tous les facteurs intervenant dans l’opinion politique et dans la catégorie socioprofessionnelle des électeurs : non seulement les facteurs précédents (sexe, revenu, âge, secteur d’activité) , mais aussi la catégorie socioprofessionnelle des parents, l’ancienneté dans l’entreprise, la mobilité, le lieu d’habitation, la situation familiale… Il est évidemment impossible matériellement de considérer l’ensemble des facteurs explicatifs des deux variables considérées. Un choix s’impose et les facteurs retenus doivent nécessairement faire partie de l’information observée : il est donc indispensable de prévoir précisément, avant la collecte de l’information, les facteurs à retenir pour disposer des informations lors de l’analyse des questionnaires.
Dans certains cas, l’impossibilité est logique. Par exemple, lorsque l’on compare la situation des hommes et des femmes suivant un certain critère, on ne peut introduire comme facteur explicatif de cette situation celle de leurs conjoints (Foucart, 2001). On ne peut en effet supposer l’égalité des conjoints pour démontrer l’inégalité homme/femme qui lui est en contradictoire. Cette impossibilité n’apparaît pas toujours aussi clairement ; elle peut se manifester par des difficultés statistiques dues à des quasi colinéarités entre les facteurs (cf. ci-dessous).
Il faut aussi considérer les catégories obtenues par croisement des modalités définies sur chaque facteur explicatif.
Considérons pour simplifier la relation entre le sexe et l’opinion politique : les femmes votent-elles plus à gauche que les hommes toutes choses égales par ailleurs ? Limitons-nous tout d’abord à deux facteurs, l’âge et la catégorie socioprofessionnelle. On peut définir 7 classes d’âge de 18 à 88 ans (18-28, 28-38, etc.) en supposant que l’âge des personnes interrogées est compris entre 18 et 88 ans. Supposons que les électeurs soient répartis suivant 8 catégories socioprofessionnelles. Au sein d’une même classe d’âge on trouve bien évidemment plusieurs catégories socioprofessionnelles. L’hypothèse considérée nécessite donc la prise en compte de la répartition croisée, ce qui multiplie les catégories au sein desquelles on doit comparer l’opinion politique des hommes et des femmes. On obtient donc 56 (= 8 x 7) groupes vérifiant l’hypothèse « toutes choses égales par ailleurs « telle qu’elle a été définie ci-dessus par l’âge et la catégorie socioprofessionnelle, groupes que nous appelons par la suite groupes homogènes. En ajoutant une troisième variable, par exemple le secteur d’activité (primaire, secondaire, tertiaire), on obtiendrait 168 (= 56 x 3) groupes homogènes et ainsi de suite.
Une autre difficulté résulte de la codification de l’information indispensable au traitement statistique. Cette codification a pour objectif de définir des catégories dont on peut considérer les membres comme tous à peu près identiques, et de constituer ainsi des groupes homogènes. Un éleveur propriétaire de quelques centaines d’hectares est, au regard de la comparaison effectuée entre l’opinion politique et le sexe, considéré comme identique à une fermière cultivant des céréales sur une superficie beaucoup plus réduite puisqu’ils sont classés tous deux dans la catégorie socioprofessionnelle des exploitants agricoles : l’homogénéité des groupes n’est pas toujours assurée, elle n’est que supposée, et elle n’est pas toujours vraie. On néglige ici la variabilité des facteurs au sein de chaque classe (ce que l’on appelle la variance intra) et on ne considère que la variabilité entre les classes (la variance inter). Une codification de plus en plus fine permet bien entendu de limiter la variance intra, en rassemblant des individus de plus en plus ressemblants, mais elle aboutit à augmenter le nombre de groupes homogènes considérés et par suite à diminuer l’effectif des personnes comparables : on retrouve la difficulté précédente, que l’on peut exprimer de la façon suivante : une information de plus en plus fine est de moins en moins stable.
Cette hypothèse se révèle donc en fait beaucoup plus difficile à réaliser qu’à formuler. Imaginons un instant qu’effectivement les femmes votent plus à gauche que les hommes toutes choses égales par ailleurs. La conclusion est claire : c’est vrai parmi les ouvriers, les employés, les cadres moyens, les cadres supérieurs, mais c’est vrai aussi pour chaque secteur d’activité, etc.: la proposition consiste alors à affirmer que, au sein de chacun de ces 168 groupes homogènes, les femmes votent toujours plus à gauche que les hommes. C’est une proposition difficile à admettre, et le sens qu’il faut lui donner se limite à une tendance générale. Finalement, la simplicité de la formulation de cette hypothèse en cache la complexité, et incite à une interprétation rapide et parfois abusive.
Pour étudier la relation entre deux variables toutes choses égales par ailleurs, on utilise en général l’analyse de variance ou le modèle linéaire multiple.
Ces deux méthodes sont fondées sur une modélisation des données et des relations entre les variables. La modélisation consiste à représenter les liaisons entre les variables par des formules mathématiques établies à partir de propriétés des données que l’on suppose satisfaites. On transforme ainsi la multiplicité des cas en un problème unique.
Considérons l’exemple des séries chronologiques, qui sont définies par une seule observation xt à chaque instant de la période étudiée. La modélisation consiste à séparer ce qui relève du déterminisme et du hasard, à soustraire des observations la partie déterministe pour obtenir des valeurs stationnaires que l’on considère alors comme un échantillon d’une variable aléatoire unique et que l’on peut étudier à l’aide de la statistique inférentielle et de la théorie des processus (Bensaber, Bleuse-Trillon, 1989). On utilise une modélisation de même nature lorsque l’on suppose que des données suivent approximativement le modèle multilinéaire. La démarche est identique dans le cas de l’analyse de variance ou du modèle linéaire que nous présentons ici (G. Saporta, 1990).
On note Y et Z les deux variables (par exemple l’opinion politique et la catégorie socioprofessionnelle) que l’on cherche à mettre en relation toutes choses égales par ailleurs. Soient Xj, j = 1, …, p les facteurs explicatifs (par exemple l’âge, le sexe et le revenu). La démarche étant strictement identique dans les deux cas, nous explicitons le modèle linéaire dans le cas où la variable expliquée est Y :
· Dans le cas de variables quantitatives, le modèle linéaire est donné par l’équation :
Y = b0
+ b1 X1 + b2 X2 + … + bp Xp + e
dans laquelle :
- la somme b0 + b1 X1 + b2 X2 + … + bp Xp constitue la partie déterministe de la variable Y.
- le terme e est la partie aléatoire. C’est une variable aléatoire que l’on suppose normale, centrée, indépendante des variables explicatives, et dont la variance notée s2 est appelée variance résiduelle. Elle caractérise l’erreur individuelle.
Ce modèle est vérifié par chaque unité statistique, à laquelle est associée une variable résiduelle e(i) de même loi que e :
Y(i) = b0
+ b1 X1(i) + b2 X2(i) + … + bp Xp(i) + e(i) [1]
Dans l’équation [1], on sépare la partie déterministe de l’observation constituée de la somme b0 + b1 X1(i) + b2 X2(i) + … + bp Xp(i) de la partie aléatoire e(i). On suppose que les v.a. e(i) sont indépendantes et suivent la même loi (celle de e) : on déduit ainsi de la multiplicité des observations un échantillon de la v.a. e que l’on peut analyser par la statistique inférentielle.
La statistique donne des valeurs estimées Y’ de la partie déterministe pour des valeurs des variables explicatives observées :
Y’(i) = b0 + b1 X1(i)
+ b2 X2(i) + … + bp Xp(i) [2]
On en déduit les résidus e(i), qui représentent les erreurs entre les valeurs observées de la variable Y et ces valeurs estimées :
e(i) = Y(i) – Y’(i) [3]
Pour obtenir un indicateur de la qualité de l’ajustement des données par les valeurs estimées, on utilise principalement l’estimation s’2 sans biais de la variance résiduelle déduite de la variance s2 des résidus, des nombres n d’observations et p de variables explicatives :
s’2 = n s2 / (n – p – 1) [4]
et le coefficient de détermination R2 défini par le rapport de la variance des valeurs approchées Y’(i) à la variance des valeurs observées Y(i).
· Lorsqu’il n’y a qu’un seul facteur explicatif X qualitatif, la procédure consiste à définir comme variables explicatives les variables indicatrices des modalités. Le modèle linéaire est alors le suivant :
Y = b0 + b1 X1 + b2
X2 +… + bkXk
+ … + bq Xq + e
la variable Xk étant la variable indicatrice de la kième modalité de X : pour tous les individus observés vérifiant la modalité k de la variable Xj, on a (k¹k’) :
Xk = 1 |
Xk’ = 0 |
Les variables indicatrices sont linéairement dépendantes puisque leur somme est toujours égale à 1. Il suffit, pour obtenir des estimations uniques des coefficients de régression, d’éliminer l’une des variables indicatrices des variables explicatives, ou d’imposer que la somme des coefficients de régression des variables indicatrices soit égale à 0.
Les hypothèses sur la variable résiduelle e sont les mêmes que précédemment, et on suppose que les observations Y(i) donnent un échantillon indépendant e(i) i = 1, , n de la v.a. e.
· étudions maintenant le cas de p variables explicatives qualitatives Xj. Soit qj le nombre de modalités de la variable Xj. On définit comme précédemment qj indicatrices Xj1, Xj2, … Xjqj : pour tous les individus observés vérifiant la modalité kj de la variable Xj, on a (kj ¹ k’):
Xjkj = 1 |
Xjk’ = 0 |
Dans le cas de deux facteurs explicatifs X1 et X2 à q1 et q2 modalités, on introduit les variables dichotomiques définies par la répartition croisée X12 à q1 x q2 modalités : pour tous les individus observés vérifiant la modalité k1 de la variable X1 et k2 de la variable X2, et pour tous les couples (k, k’) différents de (k1, k2) on a :
X12k1 k2 = 1 |
X12k k’ = 0 |
Et ainsi de suite : pour trois facteurs explicatifs, les variables explicatives sont définies par les variables indicatrices des modalités du tableau X123 obtenu par croisement des modalités de X1, X2 et X3.
Pour éviter les colinéarités algébriques, on procède comme précédemment en écartant une des variables dichotomiques déduites de chaque facteur et de chaque facteur d’interaction.
Une valeur élevée (resp. faible) de Y pour des valeurs explicatives observées donne un résidu élevé (resp. faible). Idem pour Z. En comparant les résidus de Y et Z calculés sur un même individu, on compare donc les variables Y et Z toutes choses égales par ailleurs, dans la mesure où les résidus caractérisent les observations après élimination de l’influence des variables explicatives. Pour effectuer cette comparaison, on calcule le coefficient de corrélation de ces deux séries de résidus, appelé coefficient de corrélation partielle. Le test classique du F permet de savoir s’il est significativement non nul. Il est fondé sur l’hypothèse que les couples de résidus suivent la loi binormale.
En conclusion, la liaison entre les variables Y et Z toutes choses égales par ailleurs est caractérisée par le coefficient de corrélation partielle de Y et Z conditionnellement aux variables explicatives. L’interprétation de ce coefficient de corrélation partielle est analogue à celle d’un coefficient de corrélation linéaire. En particulier, une valeur significative montre l’existence d’une relation partielle, mais n’exclut pas qu’un nombre non négligeable d’individus vérifient la relation inverse.
Dans la pratique, on suit souvent une autre démarche consistant à introduire la variable Z dans les variables explicatives, et à effectuer un test de Student sur son coefficient de régression. En fait, les deux démarches sont statistiquement équivalentes (G. Saporta, 1990) .
Les premières difficultés naissent de la modélisation elle-même.
· On retrouve tout d’abord l’hypothèse de stationnarité des données. On pourrait en effet supposer que la partie déterministe de la v.a. Y dépend des valeurs des valeurs des variables explicatives observées sur chaque individu i :
Y(i)
= b0i + b1i X1(i) + b2i X2(i) +
… + bpi Xp(i)
+ e(i)
La formule [1] pose bien l’hypothèse de stationnarité :
quel que soit i = 1, …, n ,
quel que soit j = 0, …, p bji = bj
C’est cette hypothèse de stationnarité qui permet l’estimation des coefficients de régression. Inversement, si cette hypothèse de stationnarité n’est pas vérifiée, les v.a. e(i) définies part la formule [1] ne constituent pas un échantillon indépendant d’une même v.a. e.
Considérons par exemple comme variables Y et Z l’opinion politique et la catégorie socioprofessionnelle. Les facteurs explicatifs Xj sont le sexe des électeurs, leur âge et leur revenu. Le modèle linéaire consiste à exprimer l’opinion politique Y des électeurs en fonction de ces facteurs, et par suite à supposer qu’une variation de l’âge (X1) a le même effet sur l’opinion politique chez les hommes que chez les femmes (X2), chez les riches que chez les pauvres (X3). Cette stationnarité doit évidemment être vérifiée dans la régression de la catégorie socioprofessionnelle Z.
· Elle ne concerne pas seulement les facteurs explicatifs : en effectuant la régression de l’une des variables expliquées par les facteurs explicatifs, on suppose que le modèle est le même pour toute valeur de l’autre variable expliquée, que la population est homogène en Y (ou Z) et en Xj par rapport à Z (ou Y).
Dans l’exemple précédent, le modèle linéaire consiste à exprimer l’opinion politique Y des électeurs en fonction des facteurs Xj, et par suite à supposer que les coefficients de la régression de l’opinion politique (Y) par l’âge (X1), le sexe (X2) et le revenu (X3) sont constants par rapport aux électeurs quelle que soit leur catégorie socioprofessionnelle Z.
On retrouve l’hypothèse d’égalité des matrices variances nécessaire à la validité de l’analyse discriminante. La régression logistique généralement employée dans le contexte d’une variable expliquée qualitative (comme l’opinion politique) n’échappe pas bien entendu à la nécessité de cette hypothèse, contrairement à ce que l’on peut lire dans certains ouvrages classiques comme celui de Howell (1998).
· Les autres hypothèses fondamentales du modèle sont la nature des liaisons et la normalité des résidus. La normalité des résidus est en particulier indispensable pour effectuer des tests statistiques sur les coefficients de régression et les coefficients de corrélation.
Il est donc nécessaire de contrôler toutes ces hypothèses. Mais ce contrôle ne peut montrer que la propriété suivante : les données observées ne sont pas en contradiction avec les hypothèses du modèle. Paradoxalement, plus le contrôle sera précis, plus il risque de montrer que les données ne vérifient pas le modèle puisque ce dernier ne peut être qu’une approximation de la réalité.
Dans le cas où toutes ces hypothèses sont considérées comme vraisemblables, le raisonnement est le suivant : si le coefficient de corrélation partielle est significativement non nul, cela signifie que la variable Z exerce une influence sur Y (et inversement) après élimination de l’influence des facteurs explicatifs, c’est-à-dire « toutes choses égales par ailleurs ». On trouvera un exemple de ce raisonnement dans Bréchon (2002).
On peut aussi tenir un raisonnement différent, et considérer qu’un coefficient de corrélation partielle significatif montre que les hypothèses précédentes ne sont pas toutes satisfaites. Cela revient à remettre en cause la validité de l’ensemble de la démarche.
L’interprétation du coefficient de corrélation partielle comme mesure d’une relation toutes choses égales par ailleurs entre Y et Z est par suite fondée sur le maintien de l’hypothèse de stationnarité des modèles linéaires. On est amené à comparer la vraisemblance des hypothèses du modèle à celle d’une liaison entre Y et Z toutes choses égales par ailleurs. L’explication théorique des relations entre les variables doit donc être approfondie pour que l’on puisse maintenir cette hypothèse de stationnarité.
On notera que toutes ces hypothèses sont vérifiées dans le cas du modèle multinormal (Anderson, 1958) : linéarité des liaisons, normalité des résidus, stationnarité des coefficients de régression, …. Mais la multinormalité des distributions est considérée par certains auteurs comme peu vraisemblables dans les données économiques, sociales et humaines (J-P Benzecri, 1973). En particulier, elle ne peut évidemment être que difficilement admise dans le cas de variables qualitatives codées.
Le modèle linéaire présente aussi un certain nombre de difficultés techniques qui n’apparaissent pas toujours clairement, ou qui résultent du grand nombre de variables explicatives que l’on est amené à considérer.
· Il peut exister une colinéarité statistique entre les variables (Tomassone, 1992). Cette colinéarité statistique est caractérisée par le fait que l’une de ces variables est presque égale à une somme pondérée des autres. Cela signifie qu’elle ne peut varier que très peu pour des valeurs fixées des autres variables, et que l’on ne peut donc fixer arbitrairement des valeurs aux variables concernées. Voici par exemple une matrice de corrélation entre quatre variables X1, X2, X3 et X4 (Foucart, 2000) :
|
X1 |
X2 |
X3 |
X4 |
X1 |
1 |
|
|
|
X2 |
0.6000 |
1 |
|
|
X3 |
-0.2790 |
0.6000 |
1 |
|
X4 |
0.0446 |
0 |
0 |
1 |
Le coefficient de détermination R2 dans la régression de la variable X4 par les variables X1, X2, X3 est égal à 0.99536 : il montre une forte colinéarité statistique qui s’exprime par la relation ci-dessous :
-0.5394 X1 + 0.6468 X2 - 0.5386 X3 + 0.0241 X4 » Constante
Il est clair que dès que trois variables sont fixées, la quatrième variable est quasiment déterminée.
Revenons à notre exemple, et supposons que les variables revenu, catégorie socioprofessionnelle et âge soient statistiquement colinéaires : l’hypothèse toutes choses égales par ailleurs ne concerne alors que l’ensemble très limité de valeurs que ces trois variables peuvent prendre simultanément. On retrouve ici une restriction classique à une procédure consistant à effectuer des tests statistiques (tests du c2 par exemple) à une suite de tableaux de contingence dont un grand nombre regroupe un effectif trop faible pour que le test soit valide.
· La colinéarité a des effets néfastes sur l’efficacité du modèle linéaire, en particulier :
- les coefficients de régression deviennent difficilement interprétables ;
- le coefficient de détermination est très instable.
Ainsi, dans la matrice précédente, le coefficient de détermination prend la valeur 0.45260 au lieu de 0.99536 si le coefficient de corrélation entre X1 et X2 est égal à 0.5990 au lieu de 0.6000. Cette instabilité n’est pas facile à détecter par un simple examen des coefficients de corrélation.
La solution se trouve (en partie) dans le choix des facteurs explicatifs initiaux : ils doivent être les plus indépendants possibles les uns des autres. Ce n’est pas simple : dès que l’on dépasse deux facteurs, la liaison n’est plus apparente et ne peut être décelée que par des méthodes statistiques particulières comme l’analyse en composantes principales ou l’étude des facteurs d’inflation (Tomassone, 1992). En outre, la non colinéarité des variables explicatives ne suffit pas pour garantir la stabilité des résultats, qui dépend aussi des corrélations entre chaque variable explicative et la variable expliquée. Dans l’exemple numérique précédent, les variables explicatives X1, X2 et X3 ne sont guère colinéaires : pourtant, le coefficient de détermination obtenu dans la régression de Y = X4 par ces trois variables est très instable par rapport au coefficient de corrélation r12 (cf. ci-dessus).
· Les difficultés sont accentuées par le grand nombre de variables explicatives dans les régressions de Y et de Z lorsque les variables explicatives sont qualitatives. Pour analyser la liaison entre l’opinion politique et la catégorie socioprofessionnelle toutes choses égales par ailleurs, on est amené à considérer 7 indicatrices des modalités (2-1 pour le sexe, 7-1 pour l’âge) et 13 variables explicatives représentant les interactions (7 x 2 - 1) . Cela fait vingt variables explicatives, ce qui est assez élevé. Le risque de colinéarité statistique entre les variables explicatives est fortement augmenté. L’estimation sans biais de la variance résiduelle (formule [4]) augmente aussi avec le nombre de variables explicatives. On peut réduire le nombre de variables explicatives en utilisant un algorithme de sélection pas à pas : l’hypothèse toutes choses égales par ailleurs est alors limitée à ces variables, considérées comme suffisantes statistiquement. Mais la théorie (sociologique, psychologique) doit là aussi justifier le choix des facteurs retenus.
· L’utilisation simultanée de variables explicatives quantitatives et qualitatives aboutit souvent à la dichotomisation des premières, et par suite à une perte d’information (Brauer, 2002).
· On doit enfin définir un ensemble commun de variables explicatives dans les régressions de Y et de Z. Cela suppose que ce sont les mêmes facteurs explicatifs qui interviennent dans les parties déterministes de Y et Z. La stabilité du coefficient de corrélation partielle entre Y et Z n’est pas garantie puisque ce coefficient dépend de ces facteurs communs sélectionnés par les spécialistes des données et de la colinéarité qui peut exister entre eux.
La critique est facile et l’art est difficile. Cet article serait incomplet s’il ne contenait pas de suggestion sur la manière de conduire une analyse statistique pour détecter et analyser une relation entre deux variables toutes choses égales par ailleurs.
1. On veut étudier la liaison entre deux variables quantitatives Y et Z toutes choses égales par ailleurs ;
2. On définit l’ensemble des facteurs explicatifs de Y et Z par des variables quantitatives Xj, j = 1, …, p ;
3. On effectue l’analyse en composantes principales des variables explicatives ;
4. On sélectionne les composantes principales obtenues suivant leurs coefficients de corrélation avec Y et Z, à l’aide d’un critère tel que la minimisation de l’estimation sans biais de la variance résiduelle (formule [4]) ;
5. On calcule les résidus de Y et Z dans leur régression par les composantes principales retenues, et on les représente sous la forme d’un nuage de points ;
6. On calcule le coefficient de corrélation
partielle entre Y et Z conditionnellement aux composantes principales
retenues.
Les points 3 et 4 ne sont pas indispensables. Ils sont utiles pour détecter les colinéarités statistiques, éviter au moins en partie les difficultés d’interprétation qu’elles créent et stabiliser le coefficient de corrélation partielle.
Le point 5 est classique pour vérifier la linéarité de la relation entre les résidus de Y et ceux de Z, et justifier l’interprétation du coefficient de corrélation (ici, partielle). Il est utilisé aussi pour déterminer les points influents (Belsley, 1980).
Le point 6 donne le résultat statistique final, dont l’interprétation est du ressort du spécialiste des données (sociologue, psychologue, …).
Dans le cas où les facteurs explicatifs sont qualitatifs, la démarche est analogue : on effectue simplement une analyse des correspondances multiples au lieu d’une analyse en composantes principales pour obtenir un codage quantitatif des unités statistiques. Si les facteurs explicatifs sont à la fois qualitatifs et quantitatifs, on peut utiliser la méthode décrite par Brauer.
Enfin, cette démarche peut être utilisée dans le cas de variables expliquées dichotomiques.
Cette procédure a pour avantage d’éviter autant que possible les perturbations dues aux colinéarités statistiques entre les variables explicatives, de produire un coefficient de corrélation partielle plus stable et plus facile à contrôler, de détecter sur la représentation graphique des couples de résidus les observations particulières dans la liaison partielle. Mais elle reste soumise aux limites fondamentales de la modélisation que nous avons expliquées dans le paragraphe précédent.
Nous donnons à titre d’exemple une étude de cas élémentaire. Les données sont constituées de 10 élèves de 4e dont on connaît le poids, la taille et la note caractérisant leur réussite scolaire (les données ne sont pas réelles).
|
Poids |
Taille |
Note |
|
Poids |
Taille |
Note |
1 |
45 |
1.5 |
14 |
6 |
60 |
1.7 |
7 |
2 |
50 |
1.6 |
16 |
7 |
70 |
1.6 |
8 |
3 |
50 |
1.65 |
15 |
8 |
65 |
1.6 |
13 |
4 |
60 |
1.75 |
9 |
9 |
60 |
1.55 |
17 |
5 |
60 |
1.7 |
10 |
10 |
65 |
1.7 |
11 |
L’objectif de l’analyse est de déterminer si le poids et la réussite scolaire sont liées (et de quelle façon) toutes choses égales par ailleurs, c’est-à-dire ici pour une même taille.
Les représentations graphiques
des couples ne montrent aucune particularité des données, aucun point aberrant.
La matrice des corrélations est la suivante :
|
Poids |
Taille |
Note |
Poids |
1.000 |
0.367 |
-0.568 |
Taille |
0.367 |
1.000 |
-0.629 |
Note |
-0.568 |
-0.629 |
1.000 |
La procédure proposée consiste
simplement à effectuer la régression de la note par la taille, du poids par la
taille et à étudier la liaison entre les séries des résidus.
Un logiciel de régression linéaire multiple donne immédiatement le coefficient de corrélation partielle rp du poids et de la note conditionnellement à la taille :
rp = -0.466
La taille de ce coefficient
(qui n’est pas ici significatif compte tenu du petit nombre d’observations),
est due à la particularité de l’élève de rang 7 que l’on distingue nettement
sur la représentation graphique des couples de résidus (figure
ci-dessous).
3 eY(i) |
2 | |
| 9 |
| |
| |
| |
* 10 |
| |
4 | |
---------------------------5-------*----------------------8---------à |
|(0,0) eX(i) |
| |
| |
1 | |
| |
| |
6 | |
| |
| |
| |
| |
| 7 |
Représentation graphique des couples de résidus
(en abscisse : dans la régression du poids par la taille,
en ordonnée : dans la régression de la note par la taille)
Ce graphique montre que, compte tenu de la taille de chaque élève : :
·
la note de
l’élève de rang 3 est largement sous-estimée (ordonnée très supérieure à
0 : la valeur observée est très supérieure à la valeur estimée) et son
poids largement surestimé (abscisse très inférieure à 0) ;
·
la note de
l’élève de rang 7 est largement surestimée (ordonnée très inférieure à 0) et
son poids largement sous-estimé (abscisse très supérieure à 0) ;
·
la note de
l’élève de rang 1 est surestimée (ordonnée inférieure à 0) et son poids
largement surestimé (abscisse très inférieure à 0).
·
etc.
On pourrait déduire de la valeur du
coefficient de corrélation partielle (-0.466) que, toutes choses égales par
ailleurs, la note et le poids varient en sens inverse l’un de l’autre.
Pourtant, environ la moitié des élèves vérifient la propriété contraire. En
fait, l’exclusion de l’élève de rang 7
des résidus fait passer le coefficient de corrélation partielle de –0.466 à
–0.116 : il s’agit visiblement d’un point très influent dans la
corrélation partielle bien qu’il n’ait pas été détecté préalablement. On peut
penser que la stationnarité des données n’est pas vérifiée, et que les
résultats numériques ne présentent pas de garantie au plan statistique.
L’influence d’une seule observation, dans le
cas de données plus nombreuses, est évidemment beaucoup plus faible. Mais il
peut exister des groupes de points influents, d’effectif relativement faible
par rapport au nombre total d’observations. On trouvera dans Belsley et coll.
(1980) et dans Foucart (2003) des méthodes statistiques pour les déterminer.
L’approche que nous avons proposée à partir du modèle linéaire nous paraît plus claire intuitivement que celle de l’analyse de variance tout en lui étant équivalente statistiquement : on comprend mieux la définition de l’hypothèse toutes choses égales par ailleurs et son importance dans l’évaluation du coefficient de corrélation partielle. La validité des résultats repose sur la vraisemblance des hypothèses, sur la stabilité du modèle par rapport aux facteurs explicatifs choisis et sur les propriétés des résidus.
Les méthodes statistiques modernes permettent de mieux observer les faits sociaux, mais elles sont fondées sur des hypothèses précises dont la facilité d’expression cache souvent la complexité. La tendance naturelle est de supposer que ces hypothèses sont vérifiées, ce que leur contrôle ne permet pas d’assurer, alors qu’elles sont souvent contestables. Paradoxalement, plus les outils statistiques utilisés sont puissants et plus l’analyse sociologique théorique de leur relation et de ces hypothèses doit être approfondie pour établir une causalité.
M. Maruani (1999) conclut une étude sur la relation entre le sexe et le revenu dans la société française de la façon suivante : « Toutes choses égales par ailleurs, c'est-à-dire à niveaux de formation, d'expérience, de catégorie socioprofessionnelle et d'âge équivalents, il reste un écart de 12% [N.B. de salaire au bénéfice des hommes].»
On est en droit de contester à la fois le résultat statistique et le bien fondé d’une interprétation causale de cette relation compte tenu des approximations nécessairement faites pour mener l’étude, tant dans l’hypothèse toutes choses égales par ailleurs dont sont écartés un grand nombre de facteurs explicatifs de la rémunération (secteur d’activité, situation familiale, profession du conjoint, temps de travail, mobilité, facteurs historiques, …) que dans la modélisation et les procédures statistiques utilisées (Wattelar, 2001).
[1] Anderson, T.W., An Introduction to Multivariate Statistical Analysis, Wiley, New York, 1958,
[2] Bensaber A., Bleuse-Trillon B., Pratique des chroniques et de la prévision à court terme, Masson, 1989.
[3] BENZECRI J.P. et coll., L’analyse des données, tome 2 : les correspondances, Dunod, Paris, 1973.
[4] Belsley D.A., Kuh E., Welsh R.E., Regression diagnostics: identifying influential data and sources of collinearity. Wiley, New York, 1980.
[5] Brauer M., « L’analyse des variables indépendantes continues et catégorielles ; alternatives à la dichotomisation », L’Année psychologique, n° 3, juillet–septembre, p. 449-484, 2002.
[6] Bréchon, « Influence de l'intégration religieuse sur les attitudes. Analyse comparative européenne », Revue de sociologie française, n° 43-3, 2002.
[7] Foucart T., « L’interprétation des résultats statistiques », Mathématiques et Sciences Humaines, n°153, p. 21-28, 2001.
[8] Foucart T., « Colinéarité et instabilité numérique dans le modèle linéaire », RAIRO, 34, p.199-212, 2000.
[9] Foucart T., « Detection of influential values in the linear model », Statistical papers (en révision), 2003.
[10] Howell D.C., Méthodes statistiques en sciences humaines, DeBoeck Université, Bruxelles, 1998.
[11] Kendall M.G. and A. Stuart, The advanced theory of statistics, Griffin, Londres, 1961.
[12] Lecoutre B., J. Poitevineau, « Aller au-delà des tests de signification traditionnels : vers de nouvelles normes de publication », L’Année psychologique, n° 100, p. 683-713, 2000.
[13] Maruani M., La Documentation Française, n° 291, mai-juin 1999
[14] Saporta G., Probabilités, analyse des données et statistique, Technip, Paris, 1990.
[15] Tomassone R. et coll., La régression, Masson, Paris, 1992.
[16]
Wattelar
P., « Les inégalités professionnelles entre
les hommes et les femmes : la discrimination introuvable ? », Documents
pour l’enseignement économique et social, CNDP, n°124, juin, p. 73-83,
2001.
[17] Yoccoz N.G., « évolution de l’utilisation des statistiques : quelques réflexions sur le rôles des modèles », Nature, sciences et société, vol.7, n°4, p.14-18, 1999.