Corrélation de Pearson
L'analyse de corrélation de Pearson examine la relation entre deux variables. Par exemple, existe-t-il une corrélation entre l'âge et le salaire d'une personne ?
Plus précisément, nous pouvons utiliser le coefficient de corrélation de Pearson pour mesurer la relation linéaire entre deux variables.
Force et direction de la corrélation
Une analyse de corrélation permet de déterminer :
- l'intensité de la corrélation
- et dans quelle direction va la corrélation.
L'intensité et la direction de la corrélation sont indiquées dans le coefficient de corrélation de Pearson r. Le coefficient de corrélation de Pearson varie entre -1 et 1.
Force de la corrélation
L'intensité de la corrélation peut être lue dans un tableau. Une valeur r comprise entre 0 et 0,1 est appelée absence de corrélation. Une valeur de r comprise entre 0,7 et 1 est appelée une très forte corrélation.
Quantité de r | Force de la corrélation |
---|---|
0.0 < 0.1 | pas de corrélation |
0.1 < 0.3 | faible corrélation |
0.3 < 0.5 | corrélation moyenne |
0.5 < 0.7 | corrélation élevée |
0.7 < 1 | corrélation très élevée |
Direction de la corrélation
Une relation ou une corrélation positive existe lorsque de grandes valeurs d'une variable sont associées à de grandes valeurs de l'autre variable, ou lorsque de petites valeurs d'une variable sont associées à de petites valeurs de l'autre variable.
Une corrélation positive existe, par exemple, entre la taille et la pointure. Le coefficient de corrélation est donc positif.
Une corrélation négative se produit lorsque de grandes valeurs d'une variable sont associées à de petites valeurs de l'autre variable et vice versa.
Une corrélation négative est généralement observée entre le prix d'un produit et le volume des ventes. Il en résulte un coefficient de corrélation négatif.
Calculer la corrélation de Pearson
Le coefficient de corrélation de Pearson est calculé à l'aide de l'équation suivante. Ici, r est le coefficient de corrélation de Pearson, xi sont les valeurs individuelles d'une variable, par exemple l'âge, yi sont les valeurs individuelles de l'autre variable, par exemple le salaire, et x quar et y quar sont les valeurs moyennes des deux variables respectivement.
Dans l'équation, nous pouvons voir que la valeur moyenne respective est d'abord soustraite des deux variables.
Ainsi, dans notre exemple, nous calculons les valeurs moyennes de l'âge et du salaire. Nous soustrayons ensuite les valeurs moyennes de l'âge et du salaire. Puis, nous multiplions les deux valeurs. Nous additionnons enfin les résultats individuels de la multiplication. L'expression au dénominateur garantit que le coefficient de corrélation est compris entre -1 et 1.
Si nous multiplions deux valeurs positives, nous obtenons une valeur positive. Si nous multiplions deux valeurs négatives, nous obtenons également une valeur positive. (Moins multiplié par moins donne plus). Toutes les valeurs qui se situent dans ces fourchettes ont donc une influence positive sur le coefficient de corrélation.
Si nous multiplions une valeur positive et une valeur négative, nous obtenons une valeur négative (moins multiplié par plus donne moins). Toutes les valeurs qui se situent dans ces fourchettes ont donc une influence négative sur le coefficient de corrélation.
Par conséquent, si nos valeurs se situent principalement dans les deux plages vertes, nous obtenons un coefficient de corrélation positif et donc une corrélation positive.
Si nos scores se situent principalement dans les deux zones rouges, nous obtenons un coefficient de corrélation négatif et donc une corrélation négative.
Si les points sont répartis sur les quatre zones, les termes positifs et négatifs s'annulent et nous obtenons une corrélation très faible ou nulle.
Test de signification des coefficients de corrélation
Presque toujours, le coefficient de corrélation est calculé à partir des données d'un échantillon. Dans la plupart des cas, cependant, nous voulons tester une hypothèse concernant la population.
Dans le cas de l'analyse de corrélation, nous voulons alors savoir s'il existe une corrélation dans la population.
Pour ce faire, nous testons si le coefficient de corrélation dans l'échantillon est significativement différent de zéro.
Hypothèses dans l'analyse de corrélation de Pearson
L'hypothèse nulle et l'hypothèse alternative de la corrélation de Pearson sont les suivantes :
- Hypothèse nulle : le coefficient de corrélation n'est pas significativement différent de zéro (il n'y a pas de relation linéaire).
- Hypothèse alternative : le coefficient de corrélation s'écarte significativement de zéro (il existe une corrélation linéaire).
Attention : On vérifie toujours si l'hypothèse nulle est rejetée ou non rejetée.
Dans notre exemple avec le salaire et l'âge d'une personne, on pourrait donc se poser la question : Existe-t-il une corrélation entre l'âge et le salaire dans la population allemande (la population) ?
Pour le savoir, nous prélevons un échantillon et testons si le coefficient de corrélation est significativement différent de zéro dans cet échantillon.
- L'hypothèse nulle est donc la suivante : il n'y a pas de corrélation entre le salaire et l'âge dans la population allemande.
- et l'hypothèse alternative : il existe une corrélation entre le salaire et l'âge dans la population allemande.
Significativité et test t
La question de savoir si le coefficient de corrélation de Pearson est significativement différent de zéro sur la base de l'échantillon étudié peut être vérifiée à l'aide d'un test t. Ici, r est le coefficient de corrélation et n la taille de l'échantillon.
Une valeur p peut alors être calculée à partir de la statistique de test t. Si la valeur p est inférieure au seuil de signification spécifié, qui est généralement de 5 %, l'hypothèse nulle est levée, sinon elle ne l'est pas.
Conditions de la corrélation de Pearson
Mais qu'en est-il des prérequis pour une corrélation de Pearson ? Nous devons ici distinguer si nous voulons simplement calculer le coefficient de corrélation de Pearson ou si nous voulons tester une hypothèse.
Pour calculer le coefficient de corrélation de Pearson, seules deux variables métriques doivent être présentes. Les variables métriques sont, par exemple, le poids d'une personne, son salaire ou sa consommation d'électricité.
Le coefficient de corrélation de Pearson nous indique alors l'importance de la relation linéaire. S'il existe une corrélation non linéaire, nous ne pouvons pas la déduire du coefficient de corrélation de Pearson.
Cependant, si nous voulons tester si le coefficient de corrélation de Pearson est significativement différent de zéro dans l'échantillon, c'est-à-dire si nous voulons tester une hypothèse, les deux variables doivent également être normalement distribuées !
Si ce n'est pas le cas, la statistique de test calculée t ou la valeur p ne peuvent pas être interprétées de manière fiable. Si les conditions ne sont pas remplies, la corrélation des rangs de Spearman peut être utilisée.
Calculer en ligne la corrélation de Pearson avec DATAtab
Si vous le souhaitez, vous pouvez bien sûr calculer une analyse de corrélation en ligne avec DATAtab. Pour ce faire, il vous suffit de copier vos données dans ce tableau dans la calculatrice de statistiques et de cliquer sur l'onglet Hypothèses ou Corrélation.
Si vous examinez maintenant deux variables métriques, une corrélation de Pearson sera calculée automatiquement. Si vous ne savez pas exactement comment interpréter les résultats, vous pouvez également cliquer sur Résumé en toutes lettres !