Menu

Analyse de corrélation

Qu'est-ce qu'une analyse de corrélation ?

L'analyse de corrélation est une technique statistique qui vous donne des informations sur la relation entre les variables.

L'analyse de corrélation peut être calculée pour étudier la relation entre les variables. La force de la corrélation est déterminée par le coefficient de corrélation qui varie de -1 à +1. Les analyses de corrélation peuvent donc être utilisées pour déterminer la force et la direction de la corrélation.

Exemple

Vous voulez savoir s'il existe un lien entre l'âge auquel un enfant prononce ses premières phrases et sa réussite scolaire ultérieure.

Corrélation et causalité

Si l'analyse de corrélation montre que deux caractéristiques sont liées l'une à l'autre, on peut ensuite vérifier si une caractéristique peut être utilisée pour prédire l'autre caractéristique. Si la corrélation mentionnée dans l'exemple est confirmée, on peut par exemple vérifier si la réussite scolaire peut être prédite par l'âge auquel un enfant prononce ses premières phrases au moyen d'une régression linéaire.

Mais attention ! Les corrélations ne sont pas nécessairement des relations causales. Les corrélations découvertes doivent donc être étudiées de plus près, mais jamais interprétées immédiatement en termes de contenu, même si celui-ci est évident.

Corrélation et causalité, exemple :

Si la corrélation entre les chiffres de vente et le prix est analysée et qu'une forte corrélation apparaît, il serait logique de supposer que les chiffres de vente sont influencés par le prix (et non l'inverse), mais cette hypothèse ne peut en aucun cas être prouvée sur la base d'une analyse de corrélation.

En outre, il peut arriver que la corrélation entre la variable x et y soit générée par la variable z, voir le tutoriel "Corrélation partielle" pour plus d'informations.

Cependant, en fonction des variables utilisées, vous pourrez peut-être parler d'une relation de cause à effet dès le départ. Par exemple, s'il existe une corrélation entre l'âge et le salaire, il est clair que l'âge influence le salaire et non l'inverse, sinon tout le monde voudrait gagner le moins de salaire possible.

Interpréter la corrélation

Avec l'aide de l'analyse de corrélation, deux déterminastions peuvent être faites, l'une sur la direction et l'autre sur la nature de la corrélation :

  • la direction et
  • la force

de la relation linéaire entre deux variables métriques ou ordinales. Le sens indique s'il s'agit d'une corrélation positive ou négative.

Corrélation positive

Une corrélation positive existe si des valeurs plus importantes de la variable A s'accompagnent de valeurs plus importantes de la variable B. La taille et la pointure des chaussures, par exemple, sont corrélées positivement et un coefficient de corrélation compris entre 0 et 1 en résulte, c'est-à-dire une valeur positive.

Corrélation négative

Une corrélation négative existe si des valeurs plus grandes de la variable A sont accompagnées de valeurs plus petites de la variable B. Le prix du produit et la quantité vendue ont généralement une corrélation négative ; plus un produit est cher, plus la quantité vendue est faible. Dans ce cas, le coefficient de corrélation est compris entre -1 et 0, il prend donc une valeur négative.

Force de la corrélation

En ce qui concerne la force de la corrélation, le tableau suivant peut être pris comme guide :

Quantité de r Force de la corrélation
0.0 < 0.1 aucune corrélation
0.1 < 0.3 faible corrélation
0.3 < 0.5 corrélation moyenne
0.5 < 0.7 corrélation élevée
0.7 < 1 corrélation très élevée

Conseil : Sur DATAtab, vous pouvez calculer le coefficient de corrélation directement en ligne.

Nuage de points et corrélation

Tout aussi importante que la prise en compte du coefficient de corrélation est la prise en compte graphique de la corrélation de deux variables dans un diagramme de dispersion.

Nuage de points et corrélation

Le diagramme de dispersion vous donne une estimation approximative de l'existence d'une corrélation, de son caractère linéaire ou non linéaire et de la présence éventuelle de valeurs aberrantes.

Test de signification de la corrélation

S'il existe une corrélation dans l'échantillon, il est encore nécessaire de vérifier s'il y a suffisamment de preuves que la corrélation existe également dans la population. Ainsi, la question se pose de savoir quand un coefficient de corrélation peut être considéré comme statistiquement significatif.

La signification des coefficients de corrélation peut être testée à l'aide d'un test t. En règle générale, on vérifie si le coefficient de corrélation est significativement différent de zéro, c'est-à-dire qu'on teste l'indépendance linéaire. Dans ce cas, l'hypothèse nulle est qu'il n'y a pas de corrélation entre les variables considérées. En revanche, l'hypothèse alternative suppose qu'il existe une corrélation.

Comme pour tout autre test d'hypothèse, le niveau de signification est d'abord fixé, généralement à 5 %. Si la valeur p calculée est inférieure à 5 %, l'hypothèse nulle est rejetée et l'hypothèse alternative s'applique. Ainsi, si la valeur p est inférieure à 5 %, on suppose qu'il existe une relation entre les variables dans la population.

La valeur t pour tester l'hypothèse est donnée par

la valeur t de la corrélation

où n est la taille de l'échantillon et r est la corrélation déterminée dans l'échantillon. La valeur p correspondante peut être facilement calculée dans la calculatrice de corrélation sur DATAtab.

Hypothèses dirigées et non dirigées

Avec l'analyse de corrélation, vous pouvez tester des hypothèses de corrélation dirigée et non dirigée.

Hypothèse de corrélation non dirigée :

Vous êtes seulement intéressé par l'existence d'une relation ou d'une corrélation entre deux variables, par exemple, s'il existe une corrélation entre l'âge et le salaire, mais vous n'êtes pas intéressé par la direction de cette corrélation.

Hypothèse de corrélation dirigée :

Vous êtes également intéressé par le sens de la corrélation, c'est-à-dire s'il existe une corrélation positive ou négative entre les variables.

Votre hypothèse alternative est alors, par exemple, que l'âge a une influence positive sur le salaire. Ce à quoi vous devez faire attention dans le cas d'une hypothèse dirigée, nous le verrons à la fin de l'exemple.

Analyse de corrélation de Pearson

L'analyse de corrélation de Pearson permet de déterminer la corrélation linéaire entre des variables à échelle métrique. La covariance respective est utilisée pour le calcul. La covariance donne une valeur positive s'il existe une corrélation positive entre les variables et une valeur négative s'il existe une corrélation négative. La covariance est calculée en utilisant

Formule de la covariance

Cependant, la covariance n'est pas normalisée et peut prendre des valeurs comprises entre plus et moins l'infini. Il est donc difficile de comparer la force des relations entre différentes variables. C'est pourquoi le coefficient de corrélation, également appelé corrélation produit-moment, est calculé. Le coefficient de corrélation est obtenu en normalisant la covariance. Pour cette normalisation, les variances des deux variables concernées sont utilisées et le coefficient de corrélation est calculé comme suit :

Formule de la corrélation de Pearson

Le coefficient de corrélation de Pearson peut maintenant prendre des valeurs comprises entre -1 et +1 et peut être interprété de la manière suivante

  • La valeur +1 signifie qu'il existe une relation linéaire entièrement positive (plus il y en a, plus il y en a).
  • La valeur -1 indique qu'il existe une relation linéaire entièrement négative (plus, moins).
  • Avec une valeur de 0, il n'y a pas de relation linéaire, c'est-à-dire que les variables ne sont pas corrélées entre elles.
Coefficient de corrélation

Enfin, la force de la relation peut être interprétée. Ceci peut être illustré par le tableau suivant :

Valeur de r Force de la corrélation
0.0 < 0,1 aucune corrélation
0.1 < 0,3 faible corrélation
0.3 < 0,5 corrélation moyenne
0.5 < 0,7 corrélation élevée
0.7 < 1 corrélation très élevée

Pour vérifier à l'avance si une relation linéaire existe, il convient d'envisager des diagrammes de dispersion. De cette manière, la relation respective entre les variables peut également être vérifiée visuellement à l'avance. La corrélation de Pearson n'est utile et pertinente que si des relations linéaires existent.

Conditions de la corrélation de Pearson

Pour que la corrélation de Pearson puisse être utilisée, les variables doivent être distribuées normalement et il doit exister une relation linéaire entre les variables. La distribution normale peut être testée de manière analytique ou graphique à l'aide du graphique QQ. La meilleure façon de vérifier si les variables ont une corrélation linéaire est d'utiliser un nuage de points.

Si ces conditions ne sont pas remplies, on utilise la corrélation de Spearman.

Corrélation de rang de Spearman

L'analyse de corrélation de Spearman est utilisée pour calculer la relation entre deux variables dont le niveau de mesure est ordinal. La corrélation de rang de Spearman est l'équivalent non paramétrique de l'analyse de corrélation de Pearson. Cette procédure est donc utilisée lorsque les conditions préalables à une analyse de corrélation (= procédure paramétrique) ne sont pas réunies, c'est-à-dire lorsqu'il n'y a pas de données métriques ni de distribution normale. Dans ce contexte, elle est souvent appelée "corrélation de Spearman" ou "Rho de Spearman" si l'on parle de corrélation de rang de Spearman.

Les questions qui peuvent être traitées par la corrélation de rang de Spearman sont similaires à celles du coefficient de corrélation de Pearson. Ce sont les suivantes : "Existe-t-il une corrélation entre deux variables ou caractéristiques ?", par exemple: "Existe-t-il une corrélation entre l'âge et la religiosité dans la population française ?"

Le calcul de la corrélation de rang est basé sur le système de classement des séries de données. Cela signifie que les valeurs mesurées ne sont pas utilisées pour le calcul, mais sont transformées en rangs. Le test est ensuite réalisé à partir de ces rangs.

Pour le coefficient de corrélation de rang ρ, des valeurs comprises entre -1 et 1 sont possibles. S'il y a une valeur inférieure à zéro (ρ < 0), il y a une corrélation linéaire négative. S'il y a une valeur supérieure à zéro (ρ > 0), il y a une relation linéaire positive et si la valeur est nulle (ρ = 0), il n'y a pas de relation entre les variables. La force de la corrélation peut être classée comme suit, comme pour le coefficient de corrélation de Spearman :

Quantité de r Force de la corrélation
0.0 < 0,1 aucune corrélation
0.1 < 0,3 faible corrélation
0.3 < 0,5 corrélation moyenne
0.5 < 0,7 corrélation élevée
0.7 < 1 corrélation très élevée

Corrélation bisériale de point

La corrélation bisériale de point est utilisée lorsque l'une des variables est dichotomique, par exemple avec études et sans études, et que l'autre a un niveau d'échelle métrique, par exemple le salaire.

Le calcul d'une corrélation bisériale de point est identique à celui de la corrélation de Pearson. Pour la calculer, l'une des deux modalités de la variable dichotomique est codée 0 et l'autre 1.

Calculer l'analyse de corrélation avec DATAtab

Calculez l'exemple directement avec DATAtab gratuitement :

Analyse de corrélation - Ensemble de données à charger

Un étudiant veut savoir s'il existe une corrélation entre la taille et le poids des participants au cours de statistiques. À cette fin, l'étudiant a tiré un échantillon, qui est décrit dans le tableau ci-dessous.

Taille du corps Poids
1.62 53
1.72 71
1.85 85
1.82 86
1.72 76
1.55 62
1.65 68
1.77 77
1.83 97
1.53 65

Pour analyser les relations linéaires au moyen d'une analyse de corrélation, vous pouvez calculer une corrélation avec DATAtab. Copiez d'abord le tableau ci-dessus dans la calculatrice de statistiques.

Ensuite, cliquez sur "Corrélation" et sélectionnez les deux variables de l'exemple. Enfin, vous obtiendrez les résultats suivants.

Exemple de corrélation de Pearson

Tout d'abord, vous obtiendrez l'hypothèse nulle et l'hypothèse alternative. L'hypothèse nulle est la suivante : "Il n'y a pas de corrélation entre la taille et le poids". Ensuite, vous obtenez le coefficient de corrélation et la valeur p. Si vous cliquez sur Résumé en mots, vous obtiendrez l'interprétation suivante :

Une analyse de corrélation de Pearson a été effectuée pour vérifier s'il existe une relation entre la taille et le poids. Le résultat de l'analyse de corrélation de Pearson montre qu'il existe une relation significative entre la taille et le poids, r(8) = 0,86, p = 0,001.

Il existe une corrélation positive très élevée entre les variables de taille et de poids, r= 0,86. Ainsi, il existe une corrélation positive très élevée dans cet échantillon entre la taille et le poids.

Hypothèse de corrélation dirigée (unilatérale)

Bien entendu, dans DATatab, vous pouvez également choisir de calculer une hypothèse dirigée.

Hypothèse de corrélation unilatérale

Dans ce cas, vous devez d'abord vérifier si la corrélation va dans le sens de l'hypothèse alternative, c'est-à-dire que la taille et le poids sont positivement corrélés. Si c'est le cas, la valeur p calculée doit être divisée par deux, car seul un côté de la distribution est considéré. Cependant, DATAtab se charge de ces deux étapes pour vous. Le résumé en mots ressemble alors à ceci :

Une analyse de corrélation de Pearson a été effectuée pour vérifier s'il existe une relation positive entre la taille et le poids. Le résultat de l'analyse de corrélation de Pearson montre qu'il existe une relation positive significative entre la taille et le poids, r(8) = 0,86, p = <0,001.

Il existe une corrélation positive très élevée entre les variables de taille et de poids, r= 0,86. Ainsi, il existe une corrélation positive très élevée dans cet échantillon entre la taille et le poids.

Cité DATAtab: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.net

Contact FAQ et à propos de nous Politique de confidentialité Logiciel de statistiques