2. analyse des correspondances

L’analyse des correspondances est plus récente que l’analyse en composantes principales. Elle a été proposée par J-P Benzecri, professeur à l’université Paris VI, à partir des années 1965 et est très utilisée dans les sciences humaines et commerciales.

2.1 Objectifs et données.

Ses objectifs sont les mêmes que ceux de l’analyse en composante principales : c’est une méthode descriptive qui facilite la recherche de structure dans de grands ensembles de données. à l’origine, les données étudiées sont des tableaux donnant la répartition d’une population suivant deux critères qualitatifs, obtenus par exemple par tri croisé d’un ensemble de questionnaires recueillis par sondage. Elles peuvent être aussi des observations de variables quantitatives à condition toutefois qu’elles soient positives.

L’analyse factorielle des correspondances diffère de l’analyse en composantes principales par la définition des unités statistiques et de la distance utilisée pour les comparer. Dans le cas de tableaux de données quantitatives positives, c’est l’interprétation de la distance qui permet de choisir entre l’ACP et l’AFC.

Les notations utilisées dans ce paragraphe sont celles du chapitre 4 paragraphe 5.1.

 

Exemple : nous donnons ci-dessous un tableau obtenu par tri croisé. Le nombre de personnes interrogées est égal à la somme des termes du tableau (527) et les questions Q1 et Q2, comportant p = 3 et q = 4 modalités, sont les suivantes :

Q1 : fume des cigarettes brunes, blondes, ne fume pas ;

Q2 : mineur masculin (mm), mineur féminin (mf), majeur féminin (MF), majeur masculin (MM).

 

 

 

Q2

 

 

 

 

mm

mf

MF

MM

 

brunes

63

37

41

47

Q1

blondes

36

55

39

38

 

ne fume pas

34

27

72

38

 

Le test d’indépendance du c2 aboutit au rejet de l’indépendance de Q1 et Q2 :

X² = 35.726

degré de liberté n = 6

Probabilité critique P(c2>35.726) = 0

2.2 unités statistiques.

Les unités statistiques que l’on étudie par l’analyse des correspondances sont particulières : il ne s’agit pas des personnes interrogées, mais des répartitions de leurs réponses suivant les modalités des deux questions. L’AFC complète le test d’indépendance du c2 en deux variables qualitatives (cf. chapitre 6) en précisant la relation qui peut exister entre elles.

Les répartitions marginales sont obtenues par ce que l’on appelle les tris à plat. Elles donnent les pourcentages de réponses à chaque modalité de chaque question, sur le total des réponses. On note :

·           PI = (pi.) i = 1, …, p: répartition des réponses à la question Q1 suivant les modalités x1, x2, …(en proportions)

·           PJ = (p.j) j = 1, …, q : répartition des réponses à la question Q2 suivant les modalités y1, y2, …(en proportions)

 

Exemple : nous donnons ci-dessous les répartitions

·        Répartition des personnes interrogées suivant qu’elles fument des brunes, des blondes ou qu’elles ne fument pas :

 

brunes

blondes

non fumeurs

PI

0.357

0.319

0.324

 

·        Répartition des gens interrogés suivant qu’ils sont mineurs masculins, mineurs féminins, majeurs masculins, majeurs féminins :

 

mm

mf

MF

MM

PJ

0.252

0.226

0.288

0.233

 

Les unités statistiques sont des répartitions conditionnelles, que l’on préfère souvent appeler profils : elles sont définies par les répartitions des réponses à la question Q2 des gens qui ont donné une réponse fixée à Q1, et inversement. On définit ainsi deux types de profils : les profils lignes et les profils colonnes. Les profils lignes sont notés PJi et les profils colonnes PIj. En général, on les exprime en pourcentages, mais les calculs sont toujours effectués sur les proportions.

Ils sont affectés de poids, définis par les répartitions marginales : le poids affecté à une modalité de réponse est égal à la proportion de gens ayant choisi cette modalité dans la totalité des personnes interrogées.

Les répartitions marginales possèdent une propriété fondamentale pour l’interprétation des résultats : ce sont les centres de gravité des profils.

 

Exemple : Dans le tableau précédent, les profils lignes sont :

·        la répartition des fumeurs de blondes suivant l’âge et le sexe ;

·        la répartition des fumeurs de brunes suivant l’âge et le sexe ;

·        la répartition des non-fumeurs suivant l’âge et le sexe

 

mm

mf

MF

MM

total

poids

profil brunes

0.335

0.197

0.218

0.250

1

0.357

profil blondes

0.214

0.327

0.232

0.226

1

0.319

profil non fumeur

0.199

0.158

0.421

0.222

1

0.324

centre de gravité PJ

0.252

0.226

0.288

0.233

1

 

profils lignes PJi

Le centre de gravité est obtenu de la façon suivante :

mm

mf

MF

MM

0.357 x 0.335

0.357 x 0.197

0.357 x 0.218

0.357 x 0.250

+ 0.319 x 0.214

+ 0.319 x 0.327

+ 0.319 x 0.232

+ 0.319 x 0.226

+ 0.324 x 0.199

+ 0.324 x 0.158

+ 0.324 x 0.421

+ 0.324 x 0.222

= O.252

= O.226

= O.288

= 0.233.

Les profils colonnes PIj sont :

·        la répartition des mineurs masculins suivant qu’ils sont fumeurs de blondes, de brunes, ou non fumeurs ;

·        la répartition des mineurs féminins suivant qu’ils sont fumeurs de blondes, de brunes, ou non fumeurs ;

·        la répartition des majeurs masculins suivant qu’ils sont fumeurs de blondes, de brunes, ou non fumeurs ;

·        la répartition des majeurs féminins suivant qu’ils sont fumeurs de blondes, de brunes, ou non fumeurs.


profil mm

profil mf

profil MF

profil MM

centre

de gravité PI

brunes

0.474

0.311

0.270

0.382

0.357

blondes

0.271

0.462

0.257

0.309

0.319

non fumeur

0.256

0.227

0.474

0.309

0.324

total

1

1

1

1

1

poids

0.252

0.226

0.288

0.233

 

profils colonnes PIj

 

Le calcul du centre de gravité est analogue au précédent.

2.3 Notion de distance entre deux profils.

La distance utilisée pour comparer deux profils s’appelle la distance du c2.

 

Définitions :

·           La distance du c2 entre deux profils lignes PJi et PJi’ est définie par son carré de la façon suivante :

 

 

 

q

 

d2(i,i’)

=

S

[ pji – pji’]2 / p.j

 

 

j = 1

 

 

·           La distance du c2 entre deux profils colonnes PIj et PIj’ est définie par son carré de la façon suivante :

 

 

p

 

d2(i,i’)

=

S

[ pij – pij’]2 / pi.

 

 

j = 1

 

 

Exemple : nous avons calculé les distances du c2 entre les profils lignes et entre les profils colonnes du tableau de contingence précédent. Nous donnons ci-dessous le détail du calcul entre deux profils lignes :

 

y1

y2

y3

y4

profil brunes

0.335

0.197

0.218

0.250

profil blondes

0.214

0.327

0.232

0.226

centre de gravité PJ

0.252

0.226

0.288

0.233

 

d2(x1, x2)

=

(0.335 –0.214)2/0.252 + (0.197-0.327)2/0.226

 

+

(0.218-0.232)2/0.288 + (0.250-0.226)2/0.233

La totalité des carrés des distances entre les profils lignes et les profils colonnes sont donnés dans les tableaux ci-dessous :

 

x1

x2

x3

x1

0.000

 

 

x2

0.136

0.000

 

x3

0.226

0.252

0.000

Distances entre les profils lignes

 

y1

y2

y3

y4

y1

0.000

 

 

 

y2

0.192

0.000

 

 

y3

0.264

0.325

0.000

 

y4

0.037

0.109

0.128

0.000

Distances entre les profils colonnes

L’usage de la distance du c2 pour comparer les profils est justifié par ses propriétés mathématiques, en particulier par les propriétés suivantes :

Propriétés de la distance du c2 :

Soit X2 la statistique utilisée dans le test d’indépendance du c2 de Pearson et N la somme du tableau (cf. chapitre 6, paragraphe 3.2). On admettra les propriétés suivantes :

·        La moyenne des carrés des distances au centre de gravité pondérés par les poids des profils est égale à X2/N ;

·        La moyenne des carrés des distances entre les profils pondérés par le produit de leurs poids est égale à X2/N.

 

Exemple : le détail des calculs pour vérifier numériquement la seconde propriété dans le cas des profils lignes est donné ci-dessous :


p1. p2. d2(1,2)

+ p1. p3. d2(1,3)

+ p2. p3. d2(2, 3)

= X2/N

0.357 x 0.319 x 0.136

+ 0.357 x 0.324 x0.226

+ 0.319 x 0.324 x 0.252

= 35.726 / 527

2.4 Description d'un ensemble de profils. Définitions.

La description de chaque ensemble de profils est effectuée comme en analyse en composantes principales. On recherche les axes les plus proches des points au sens de la distance du c2, et sous contrainte d’orthogonalité. Les coordonnées sur ces axes définissent des variables appelées ici souvent facteurs au lieu de composantes principales, et les variances de ces variables sont appelées valeurs propres, ou encore inerties expliquées.

 

Définitions et propriétés :

·           Les facteurs principaux sont les composantes principales ;

·           ils sont centrés et non corrélés deux à deux ;

·           la variance d’un facteur, appelée inertie expliquée par l’axe, est égale à la valeur propre associée.

·           le nombre de valeurs propres non nulles est inférieur ou égal au nombre de lignes moins un et au nombre de colonnes moins un.

 

La somme des inerties est égale à X2/N : l’analyse factorielle des correspondances apparaît ici comme une décomposition de la statistique X2 utilisée dans le test d’indépendance : chaque axe principal caractérise une certaine liaison, indépendante des autres, dans l’ordre des valeurs propres croissantes.

Une différence importante avec l’analyse en composantes principales est la pondération des profils. Il est fréquent de compléter les résultats numériques associés à chaque profil par un critère tenant compte de cette pondération, appelé « contribution relative à l’inertie », qui mesure l’importance du profil dans l’inertie expliquée par l’axe (la variance).

Considérons par exemple les profils lignes. Leurs coordonnées sur l’axe l étant notées cl(i) i = 1, …, p , on a d’après les propriétés précédentes :

 

p

 

ll =

S

pi. cl(i)2

 

i = 1

 

La contribution relative du profil PJi à l’inertie expliquée par l’axe est par définition le rapport pi. cl(i)2 / ll exprimé en général en pourcentage. La somme de ces pourcentages doit être égale à 100% pour chaque facteur.

 

Exemple : nous donnons ci-dessous les résultats numériques de l’analyse factorielle des correspondances du tableau de contingence:

 

 

 

axe 1

 

 

axe 2

 

 

poids

C(i)

Cos²(i)

Contrib(i)

C(i)

Cos²(i)

Contrib(i)

brunes

0.357

-0.128

0.331

12.9

-0.181

0.669

51.4

blondes

0.319

-0.168

0.449

20.0

0.186

0.551

48.2

ne fume pas

0.324

0.305

0.997

67.1

0.017

0.003

0.4

Coordonnées des profils lignes

 

 

 

axe 1

 

 

axe 2

 

 

poids

C(j)

Cos²(j)

Contrib(j)

C(j)

Cos²(j)

Contrib(j)

mm

0.252

-0.131

0.286

9.7

-0.207

0.714

47.5

mf

0.226

-0.226

0.513

25.7

0.220

0.487

48.0

MF

0.288

0.316

0.980

64.1

0.045

0.020

2.5

MM

0.233

-0.030

0.312

0.5

-0.044

0.688

2.0

Coordonnées des profils colonnes

On pourra vérifier toutes les propriétés des facteurs données ci-dessus à l’aide d’une simple calculatrice.

2.5 Représentation graphique simultanée.

Les deux ensembles de profils, étudiés jusqu’ici séparément, sont liés en fait par une relation de dualité qui facilite l’interprétation des facteurs. Cette relation est définie par les propriétés suivantes :

·      les valeurs propres calculées dans chaque ensemble de profils sont égales ;

·      les facteurs d’un ensemble de profils sont liés aux facteurs de l’autre.

La seconde propriété permet de représenter sur un même graphique les plans principaux des deux ensembles de profils et d’interpréter la proximité et l’éloignement de deux points caractérisant l’un un profil ligne, l’autre un profil colonne.

 

Exemple : nous avons représenté les profils lignes et colonnes dans un système d’axes orthonormés caractérisant les facteurs principaux. L’origine des axes caractérise les points moyens, c’est-à-dire les répartitions marginales du tableau.

Nous avons caractérisé les profils par des abréviations pour interpréter le graphique :

·           mm et mf désignent respectivement les mineurs masculins et féminins

·           MM et MF désignent respectivement les majeurs masculins et féminins

·           brunes désigne les fumeurs de brunes

etc.

Figure 6.9 : Plan principal 1x 2 (l1 = 0.045) axe vertical 2 (l2 = 0.023)

 

On ne doit pas oublier que les comparaisons utilisent les répartitions marginales comme références. En particulier, lorsqu’une répartition marginale est déséquilibrée, il est indispensable d’en avoir bien mémorisé les propriétés avant d’effectuer les interprétations.

On peut interpréter les distances entre les profils lignes de la même façon qu’en analyse en composantes principales. De même pour les distances entre les profils colonnes. La dualité entre les deux ensembles donne l’interprétation de la proximité entre un profil ligne et un profil colonne. Ainsi :

·           dans le profil blondes, la modalité mineur féminin est plus fréquente qu’en moyenne, les modalités mineur masculin et majeur féminin moins fréquentes ;

·           dans le profil majeur masculin, la répartition entre fumeurs de brunes, fumeurs de blondes et non fumeurs est proche de la répartition dans la population, avec une proportion légèrement supérieure pour les brunes ;

·           il y a un nombre relativement important de femmes majeures parmi les non-fumeurs, et inversement relativement peu de fumeurs de blondes ou de brunes.

On peut vérifier ces interprétations sur les tableaux des profils, en comparant aux centres de gravité correspondants.