Formule de Schwarz

Nous démontrons ici que le coefficient de corrélation est compris entre –1 et 1.

 

Pour cela, nous étudions la variance de la série de données (xi + k yi) i = 1, …, n où k est un nombre réel quelconque. La variance d’une série de données est une moyenne de carrés : la variance V(X+kY) de la série (xi + k yi) i = 1, …, n est donc positive quelle que soit la valeur du paramètre k. Calculons son expression en fonction des variances des séries xi et yi et de la covariance. On vérifie facilement sa moyenne mx+ky est de la forme:

mx+ky = mx + k my

On en déduit :

( xi + k yi - mx+ky)2

= ( xi - mx + k yi - k my)2

 

= (xi - mx)2 + k2 (yi - my)2 + 2 k (xi - mx) (yi - my)

On considère la somme des carrés ci-dessus pour toutes les valeurs de i de 1 jusqu’à n :

n

 

 

n

 

 

S

( xi + k yi - mx+ky)2

=

S

(xi - mx)2

 

i = 1

 

 

i = 1

 

 

 

 

 

n

 

 

n

 

 

 

+ k2

S

(yi - my)2 

+ 2 k

S

(xi - mx) (yi - my)

 

 

 

i = 1

 

 

i = 1

 

On en déduit :

V(X+kY)

= sx2 + k2 sy2 + 2 k cov(x,y)

 

= k2 sy2 + 2 k cov(x,y) + sx2

Une variance étant toujours positive ou nulle, le second membre de l’équation ci-dessus est un polynôme du second degré toujours positif ou nul. Son discriminant est donc négatif ou nul :

 

[2 cov(x,y) ]2 - 4 sy2 sx2 £0

Soit :

4 cov(x,y) 2 £ 4 sy2 sx2

ou encore :

[ cov(x,y) / sy sx  ]2 £ 1

Le coefficient de corrélation est donc toujours inférieur ou égal à 1 en valeur absolue. S’il est égal à ±1, cela signifie que le discriminant est nul : il existe une valeur k0 de k telle que la variance de la série xi + k yi soit égale à 0, dont telle que les xi + kyi soient égaux à leur moyenne d’après la définition de la variance. On a alors :

Pour tout i = 1, …, n

xi + k0 yi = mx + k0 my

Tous les points (xi, yi) appartiennent donc à la droite d’équation :

x + k0 y = mx + k0 my

La liaison entre les deux séries est alors exactement linéaire.