Simulation de la loi du coefficient de corrélation
et de la loi de fisher

Pour simuler la loi de Fisher et la loi du coefficient de corrélation, nous procédons à des simulations d’échantillons de loi binormale sur lesquels nous calculons le coefficient de corrélation observé et en déduisons la statistique F de Fisher (programme Loi du coefficient de corrélation).

A chaque échantillon de la loi binormale dont le coefficient de corrélation théorique est fixé, correspond un coefficient de corrélation observé et une statistique observée F :

F = (n-2) R2/ (1 – R2)

En simulant N échantillons de n couples suivant la loi binormale, on obtient un échantillon de taille N du coefficient de corrélation et de la statistique F.

Dans l’exemple ci-dessous, nous avons simulé 15 000 échantillons de taille 25, en donnant comme coefficient de corrélation théorique 0.

La troisième colonne est utilisée pour effectuer un test de Fisher (cf. chapitre 6).

On peut répartir les valeurs observées dans des classes de même amplitude et dont les bornes extrêmes sont les valeurs extrêmes observées :

On pourra comparer la densité calculée dans ces classes à la densité par classe de la loi normale de moyenne nulle et de variance 1/n. (1/15 ici), ou construire l’histogramme de la répartition précédente :

Histogramme des coefficients de corrélation

(15 000 coefficients de corrélation observés sur des échantillons de taille 25)

Une autre utilisation de cette application est de visualiser les répartitions dans le cas où la valeur théorique du coefficient de corrélation n’est pas nulle.

Il est préférable de simuler un grand nombre d’échantillons de couples pour que la différence apparaissent clairement. Dans les histogrammes ci-dessous, nous avons simulé 15 000 échantillons de 25 couples, ce qui donne 15 000 coefficients de corrélation observés et 15 000 statistiques F. La valeur théorique du coefficient de corrélation a été fixée à 0.5

Histogramme des coefficients de corrélation

(15 000 valeurs, valeur théorique 0.5, échantillons de taille 25)

On note un certain écart entre l’histogramme des coefficients de corrélation et la densité de la loi normale dont la moyenne et la variance sont les paramètres estimés sur l’échantillon. La statistique F est très différente de la loi de Fisher, même décalée :

Histogramme des statistiques F

(15 000 valeurs, valeur théorique 7.6667, échantillons de taille 25)

La loi de probabilité du F de Fisher n’est donc pas du tout la loi de Fisher lorsque le coefficient de corrélation théorique n’est pas nul.

On pourra introduire ici la variable z de Ficher, dont la formule est la suivante :

 

1

 

1 + R

Z=

____

ln

____________

 

2

 

1 - R

qui suit approximativement la loi normale de moyenne x et de variance y :

 

1

 

1 + r

 

 

1

x =

____

ln

_______

 

y =

______

 

2

 

1 - r

 

 

n – 3

R étant l’estimateur empirique du coefficient de corrélation dont la valeur théorique est r, et n le nombre d’observations.

Cette approximation, que l’on pourra observer en construisant un histogramme de Z à l’aide du logiciel, est utile pour obtenir des intervalles de confiance du coefficient de corrélation.

 

On pourra aussi, à titre de curiosité, simuler un grand nombre d’échantillons de taille 4 de coefficients de corrélation théorique égal à 0 et examiner l’histogramme des coefficients de corrélation observés.