Multicollinéarité

Dans une analyse de régression, il y a multicollinéarité lorsque deux ou plusieurs variables prédictives (variables indépendantes) présentent une corrélation élevée. Les coefficients de régression peuvent alors devenir instables et ne plus être interprétables.

Pourquoi la multicollinéarité est-elle un problème?

La multicollinéarité est un problème car elle fausse la signification statistique de la variable indépendante.

L'un des principaux objectifs de la régression est de déterminer la relation entre chaque variable indépendante et la variable dépendante. Cependant, lorsque les variables sont fortement corrélées, il peut ne plus être possible de déterminer exactement quelle influence provient de quelle variable. Ainsi, les valeurs p des coefficients de régression ne peuvent plus être interprétées.

Avec la multicollinéarité, les coefficients de régression peuvent varier fortement lorsque les données changent très légèrement ou que de nouvelles variables sont ajoutées.

La multicollinéarité est-elle toujours un problème?

La multicollinéarité n'affecte que les variables indépendantes qui sont fortement corrélées. Si vous vous intéressez à d'autres variables qui ne présentent pas de multicollinéarité, vous pouvez les interpréter normalement.

Si vous utilisez le modèle de régression pour faire une prédiction, la multicollinéarité n'affecte pas le résultat de la prédiction. La multicollinéarité n'affecte que les coefficients individuels et la valeur p.

Comment éviter la multicollinéarité?

Pour éviter la multicollinéarité, il ne doit pas y avoir de dépendance linéaire entre les prédicteurs ; c'est le cas, par exemple, lorsqu'une variable est le multiple d'une autre variable. Dans ce cas, comme les variables sont parfaitement corrélées, une variable explique 100% de l'autre variable et il n'y a aucune valeur ajoutée à prendre les deux variables dans un modèle de régression. S'il n'y a pas de corrélation entre les variables indépendantes, alors il n'y a pas de multicollinéarité.

En réalité, une corrélation linéaire parfaite ne se produit presque jamais, c'est pourquoi nous parlons de multicollinéarité lorsque les variables individuelles sont fortement corrélées entre elles. Et dans ce cas, l'effet des variables individuelles ne peut être clairement séparé les unes des autres.

Il faut noter que les coefficients de régression ne peuvent plus être interprétés de manière significative, mais la prédiction avec le modèle de régression est possible.

Test de multicollinéarité

Comme il existe toujours une certaine multicollinéarité dans un ensemble de données donné, des ratios ont été introduits pour indiquer la multicollinéarité. Pour tester la multicollinéarité, un nouveau modèle de régression est créé pour chaque variable indépendante. Dans ces modèles de régression, la variable dépendante originale est laissée de côté et l'une des variables indépendantes devient la variable dépendante dans chaque cas.

Ainsi, on teste dans quelle mesure une variable indépendante peut être représentée par les autres variables indépendantes. Si une variable indépendante peut être très bien représentée par les autres variables indépendantes, c'est un signe de multicollinéarité.

Par exemple, si x1 peut être entièrement composée par les autres variables, alors le modèle de régression ne peut pas savoir ce qu'est b1 ou ce que doivent être les autres coefficients. En mathématiques, on dit que l'équation est surdéterminée.

Valeur de tolérance

Pour savoir s'il y a multicollinéarité, on considère d'une part la tolérance des prédicteurs individuels. La tolérance _Ti pour le prédicteur i. est calculée avec

Pour calculer _Ri2, un nouveau modèle de régression est créé, comme indiqué ci-dessus. Ce modèle contient tous les prédicteurs, le prédicteur i. étant utilisé comme nouveau critère (variable dépendante). Cela permet maintenant de déterminer dans quelle mesure le prédicteur i. peut être représenté par les autres prédicteurs.

Une valeur de tolérance (T) inférieure à 0,1 est considérée comme critique et la multicollinéarité est présente. Dans ce cas, plus de 90% de la variance peut être expliquée par les autres prédicteurs.

Multicollinéarité VIF

Une autre mesure utilisée pour tester la multicollinéarité est le VIF (facteur d'inflation de la variance). La statistique VIF est calculée comme suit

Plus la valeur VIF est élevée, plus la multicollinéarité est probable. Dans le test VIF, les valeurs supérieures à 10 sont considérées comme critiques. La valeur VIF augmente donc avec l'augmentation de la multicollinéarité.