1. Représentations graphiques.

Les données se présentent sous la forme d’une suite de n couples (xi, yi), numérotés de i = 1 à i = n. On note mx, my, sx², sy², minx, miny et maxx, maxy, les moyennes, les variances et les valeurs minimales et maximales des séries (xi) et (yi).

La démarche initiale et indispensable pour étudier la liaison entre deux variables quantitatives consiste à représenter graphiquement les couples (xi, yi) observés.

1.1 Conventions élémentaires.

On utilise toujours un repère constitué de deux axes orthogonaux. Chaque axe correspond à une variable statistique (l’âge ou le revenu) et chaque point caractérise une unité statistique (un client).

Le calcul des valeurs extrêmes est indispensable pour choisir les échelles sur les axes. Si l’on veut construire le graphique à l’intérieur d’un espace défini par un rectangle de longueur L en abscisse et de largeur l en ordonnée, l’unité est égale à (maxx – minx)/L sur l’axe des abscisses et à (maxy – miny)/l sur l’axe des ordonnées.

 

Exemple : l’âge et le revenu des clients de l’hypermarché EUROMARKET ont les caractéristiques suivantes sur les données observées :

 

Minimum

Maximum

Moyenne

Variance

écart-type

âge

24

68

40.06

87.2564

9.34111

revenu

72999

196484

107639.48

877095300.21

29615.79

 

Pour représenter les données (l’âge en abscisse, le revenu en ordonnée) dans un graphique à l’intérieur d’un rectangle de longueur L = 10 cm et de largeur l = 6 cm, on détermine les unités de longueur sur chaque axe :

ux = (68 – 24)/10 = 4.4 : un centimètre représente 4.4 ans

uy = (196484 – 72999)/6 = 20 580.83 : un centimètre représente 20 580.83 F

On peut naturellement simplifier les échelles, à condition toutefois de les diminuer pour que le graphique reste à l’intérieur du rectangle fixé. Par exemple :

ux : 1 cm représente 5 ans

uy : 1 cm représente 25 000F

On définit fréquemment comme origine des axes le point moyen (mx, my) des observations. Le point i caractérisant l’unité statistique n°i a alors pour abscisse xi – mx et pour ordonnée yi – my. On peut ainsi déterminer directement si l’unité statistique n°i définie par le couple (xi, yi) correspond à des valeurs supérieures ou inférieures aux moyennes mx et my (cf. figure 1 ci-dessous).

Dans d’autres cas, on choisit une origine différente, définie par exemple par les valeurs observées les plus petites des séries (xi) et (yi), ou encore une origine qui a un sens précis dans le contexte des données. Le choix comme origine du point (0,0) n’a pas de signification particulière ; il peut simplifier la construction du schéma ou au contraire la compliquer en imposant des échelles aberrantes sur les axes (par exemple, l’origine (0,0) sur les données précédentes n’a aucun sens, l’âge minimum étant 24 ans et le revenu minimum 72999F).

L’origine du repère étant fixée au point moyen, les axes définissent quatre quadrants (on remarquera l’orthographe du mot quadrant) de la façon suivante :

Figure 1.3 : représentation graphique des couples (xi, yi)

En abscisse : xi, en ordonnées : yi

Origine des axes : moyennes mx et my

 

La précision de la représentation n’étant pas primordiale, on peut se contenter souvent de papier ordinaire pour construire le schéma. En outre, il est préférable, suivant la place disponible et le nombre d’observations, de représenter les unités statistiques par leurs rangs, non par des points. Cela facilite leur identification.


Exemple : en figure 2, nous donnons la représentation graphique des couples (âge, revenu). L’origine des axes est le point moyen, et caractérise le couple (40.06, 107639.48) : tout point du côté positif de l’axe des abscisses caractérise un client plus âgé que la moyenne, tout point du côté négatif de l’axe des ordonnées caractérise un client dont le revenu est inférieur au revenu moyen, et inversement sur les deux axes.

 

Figure 2.3 : représentation graphique des couples (âge, revenu)

Origine des axes : moyennes de l’âge (40.06 ans) et du revenu (107639.48 F).

 

Le choix du client moyen comme origine des axes permet d’interpréter directement la position d’un client sur le graphique et la représentation des clients par leur rang permet leur identification immédiate. On constate un déséquilibre dans l’âge et le revenu des clients :

·           beaucoup d’entre eux sont jeunes et disposent d’un revenu inférieur à la moyenne (quadrant III : n°37, 11, 6, 9, 18, 49, ...)

·           les clients relativement âgés ont un revenu nettement supérieur aux autres (quadrant I : n°1, 10, 8) ;

·           les personnes de soixante ans et plus (quadrant IV : n°25, 43, 31) disposent d’un revenu nettement inférieur à la moyenne. On peut penser qu’il s’agit de retraités.

Parmi les 50 personnes interrogées, celles qui sont relativement âgées reçoivent un revenu plus élevé que celles qui sont relativement jeunes. Les retraités sont nettement défavorisés.

 

Dans le cas de données nombreuses, la caractérisation des unités statistiques par leurs rangs est difficile. Un grand nombre d’entre elles risquent d’être absentes du schéma par manque de place, et il est alors préférable de caractériser les u.s. par des points. Le choix de l’origine des axes est soumis aux mêmes critères que précédemment.

1.2 Tableau de corrélation.

Une autre possibilité dans le cas de données nombreuses est de définir des intervalles sur chaque variable et de répartir les observations suivant ces intervalles. On obtient alors ce que l’on appelle le tableau de corrélation, dont le terme générique nk,l est le nombre d’unités statistiques de la forme (x, y) telles que x appartienne à l’intervalle k défini sur la série (xi) et y à l’intervalle l défini sur la série (yi).

Cette procédure ne présente évidemment un intérêt que si les observations sont très nombreuses ou si on ne dispose pas des données individuelles.

 

Définition : on appelle tableau de corrélation des couples (xi, yi) i = 1, …, n le tableau d’effectifs obtenu par répartition des unités statistiques dans des intervalles fixés pour chaque série (xi) i = 1, …, n et (yi) i = 1, …, n.

 

Le calcul d’un tableau de corrélation est effectué à l’aide d’un algorithme analogue à ceux que nous avons donnés pour répartir des données dans des intervalles. L’algorithme le plus rapide consiste à chercher, pour chaque couple (xi, yi), dans quels intervalles Ik et Jl les valeurs xi et yi se trouvent et à augmenter de 1 le nombre d’observations appartenant à ces intervalles, puis à considérer le couple suivant. On obtient ainsi un tableau d’effectifs nk,l. On construit ensuite la représentation graphique des couples (ck, dl) définis par les centres des intervalles à l’aide de disques dont l’aire est égale aux effectifs nk,l.

Le calcul des aires est effectué de la façon suivante : on fixe l’aire du disque représentant l’effectif total à p l2, l étant la largeur du rectangle dans lequel on veut construire la représentation graphique. L’aire du disque représentant nk,l observations et dont on cherche le rayon r, est égale à p r2 =  p l2 nk,l / n. On en déduit :

r = l [nk,l / n]1/2

 

Exemple : nous avons réparti les observations dans les intervalles d’âge et de revenu suivants :

 

Eff.

borne inférieure

supérieure

Moyenne

Centre

1

14

24

35

30.35714

29.5

2

27

35

46

39.85185

40.5

3

5

46

57

49.6

51.5

4

4

57

68

63.5

62.5

âge

 

 

Eff.

borne inférieure

supérieure

Moyenne

Centre

1

26

72999

97696

87933.84

85347.5

2

14

97696

122393

108575.5

110044.5

3

5

122393

147090

135091.8

134741.5

4

2

147090

171787

158670.5

159438.5

5

3

171787

196484

194279

184135.5

revenu annuel

 

On répartit ensuite les couples d’observations pour obtenir le tableau de corrélation :

·        Le client de rang 1 est âgé de 51 ans (intervalle 3) et gagne 195 888F (intervalle 5) : on le compte dans la cellule 3,5 ;

·        Le client de rang 2 est âgé de 39 ans (intervalle 2) et gagne 128 456F (intervalle 3) : on le compte dans la cellule 2,3 ;

·        Etc.

On obtient le tableau de corrélation suivant :

 


l = 1

l = 2

l = 3

l = 4

l = 5

k = 1

13

1

0

0

0

k = 2

9

12

4

1

1

k = 3

1

1

1

1

1

k = 4

3

0

0

0

1

Tableau 1.3 : tableau de corrélation âge x revenu

(50 observations)

L’interprétation de la figure 3 ci-dessous, construite par ordinateur aboutit aux mêmes conclusions que précédemment. On ne peut toutefois caractériser les clients par leurs rangs pour obtenir d’autres informations.

Figure 3.3 : représentation graphique du tableau de corrélation.

On notera que le nombre de couples (50) est insuffisant pour que le calcul de ce tableau présente un intérêt autre que pédagogique.

1.3 Autres procédures.

Précisons pour finir d’autres procédures de représentations graphiques :

·           Les axes orthonormés sont caractérisés par une même unité de longueur. Cela ne présente d’intérêt que si les variables sont exprimées dans la même unité ou si elles sont centrées réduites.

·           Un axe peut être gradué suivant une échelle logarithmique : 1 cm représente par exemple un facteur 10 : Le premier centimètre représente 1 à 10, le second de 10 à 100, etc. En général, c’est l’axe des ordonnées qui est gradué de cette façon : il s’agit alors d’une échelle semi-logarithmique. Elle permet de représenter des valeurs dont la variation est très importante. Une propriété particulière classique de cette échelle semi-logarithmique est que la fonction exponentielle est représentée sous la forme d’une droite.