Menu

Analyse de régression

La régression est une méthode statistique qui permet de modéliser les relations entre une variable dépendante et une ou plusieurs variables indépendantes.

Une analyse de régression permet de déduire ou de prédire une autre variable sur la base d'une ou plusieurs variables.

Par exemple, vous pouvez vous intéresser à ce qui influence le salaire d'une personne. Pour le savoir, vous pourriez prendre le niveau d'études le plus élevé, les heures de travail hebdomadaires et l'âge d'une personne.

Régression

Vous pourriez ensuite chercher à savoir si ces trois variables ont une influence sur le salaire d'une personne. Si c'est le cas, vous pouvez prédire le salaire d'une personne en utilisant le niveau d'études le plus élevé, les heures de travail hebdomadaires et l'âge d'une personne.

Que sont les variables dépendantes et indépendantes ?

La variable à déduire est appelée variable dépendante (critère). Les variables utilisées pour la prédiction sont appelées variables indépendantes (prédicteurs).

Ainsi, dans l'exemple ci-dessus, le salaire est la variable dépendante et le niveau d'études le plus élevé, les heures de travail hebdomadaires et l'âge sont les variables indépendantes.

Quand dois-je utiliser une analyse de régression ?

En effectuant une analyse de régression, deux objectifs peuvent être poursuivis. D'une part, l'influence d'une ou plusieurs variables sur une autre variable peut être mesurée, et d'autre part, la régression peut être utilisée pour prédire une variable par une ou plusieurs autres variables.

1) Mesure de l'influence d'une ou plusieurs variables sur une autre variable

  • Qu'est-ce qui influence la capacité de concentration des enfants ?
  • Le niveau d'études des parents et le lieu de résidence ont-ils une incidence sur les résultats scolaires futurs des enfants ?

2) Prédiction d'une variable par une ou plusieurs autres variables

  • Combien de temps un patient reste-t-il à l'hôpital ?
  • Quel produit une personne a-t-elle le plus de chances d'acheter dans un magasin en ligne ?

L'analyse de régression fournit donc des informations sur la manière dont la valeur de la variable dépendante change si l'une des variables indépendantes est modifiée.

Types d'analyse de régression

Les analyses de régression se divisent en régression linéaire simple, régression linéaire multiple et régression logistique. Le type d'analyse de régression à utiliser dépend du nombre de variables indépendantes et de l'échelle de mesure de la variable dépendante.

Nombre de variables indépendantes Échelle de mesure variable dépendante Échelle de mesure variable indépendante
Régression linéaire simple un métrique métrique, ordinale, nominale
Régression linéaire multiple multiple métrique métrique, ordinale, nominale
Régression logistique multiple ordinale, nominale métrique, ordinale, nominale

Si vous souhaitez utiliser une seule variable pour la prédiction, une régression simple est utilisée. Si vous utilisez plus d'une variable, vous devez effectuer une régression multiple. Si la variable dépendante est à échelle nominale, une régression logistique doit être calculée. Si la variable dépendante est à échelle métrique, une régression linéaire est utilisée. L'utilisation d'une régression linéaire ou non linéaire dépend de la relation elle-même. Pour effectuer une régression linéaire, une relation linéaire entre les variables indépendantes et la variable dépendante est nécessaire.

Variable indépendante de la régression

Quelle que soit la régression calculée, le niveau d'échelle des variables indépendantes peut prendre n'importe quelle forme (métrique, ordinale et nominale). Cependant, s'il existe une variable ordinale ou nominale avec plus de deux valeurs, il faut former des variables dites factices.

Variables fictives et catégorie de référence

Lorsqu'une variable indépendante est catégorique, elle est codée sous la forme d'un ensemble de variables fictives binaires avant d'être incluse dans le modèle de régression.

Lorsque des variables fictives sont créées, une variable comportant plusieurs catégories est transformée en plusieurs variables ne comportant que 2 catégories chacune.

L'une des catégories est définie comme la catégorie de référence et une nouvelle variable est créée pour chacune des catégories restantes.

Prenons un exemple pour illustrer cela. Supposons que tu étudies l'effet du niveau d'éducation aux États-Unis (une variable catégorielle avec trois niveaux : lycée, collège et diplômé) sur le salaire. Pour inclure cette variable catégorielle dans un modèle de régression, il faut la coder sous forme de variables fictives.

Disons que nous utilisons le lycée comme catégorie de référence et que nous créons deux variables fictives : is_college et is_graduate. La variable is_college par exemple prendra la valeur 1 si l'individu a un diplôme universitaire et 0 sinon.

Variable de contrôle (covariable)

Dans l'analyse de régression, une variable de contrôle (également appelée "covariable") est une variable indépendante supplémentaire qui est incluse dans le modèle de régression pour tenir compte des facteurs de confusion potentiels. L'objectif principal de l'inclusion de variables de contrôle est d'isoler la relation d'intérêt entre la ou les variables indépendantes principales et la variable dépendante, en s'assurant que la relation observée n'est pas due à d'autres facteurs non observés.

L'inclusion de variables de contrôle peut être utile de plusieurs façons :

  1. Réduire le biais de la variable omise : s'il existe une variable qui affecte à la fois la variable dépendante et l'une des variables indépendantes et qu'elle n'est pas incluse dans le modèle, le coefficient de la variable indépendante pourrait être biaisé. L'inclusion de la variable de contrôle permet de réduire ou d'éliminer ce biais.
  2. Augmenter la précision : Contrôler les sources supplémentaires de variabilité peut réduire la variance résiduelle, ce qui permet d'obtenir des estimations plus précises.
  3. Prise en compte des facteurs de confusion : Dans de nombreux cas, la relation entre deux variables peut être fausse à cause d'une troisième variable qui influence les deux. L'inclusion de cette troisième variable en tant que contrôle peut aider à révéler la véritable relation.

Exemple

Par exemple, disons que tu étudies l'effet de l'exercice sur la perte de poids. L'âge peut également influencer la perte de poids (le métabolisme change avec l'âge) et peut être lié à la quantité d'exercice (peut-être que les jeunes font plus d'exercice). Si tu ignores l'âge, tu risques d'attribuer à tort tout l'effet sur la perte de poids à l'exercice, alors que l'âge joue également un rôle. En incluant l'âge comme variable de contrôle dans ta régression, tu peux mieux isoler l'impact spécifique de l'exercice sur la perte de poids.

Considérations

Cependant, il est essentiel de bien réfléchir aux variables de contrôle à inclure dans un modèle. L'inclusion de variables de contrôle non pertinentes peut compliquer inutilement le modèle et réduire la puissance de l'analyse. D'un autre côté, l'omission de variables de contrôle importantes peut conduire à des estimations biaisées. Un raisonnement théorique approprié et des tests de diagnostic empiriques peuvent guider le choix des variables de contrôle.

Corrélation et causalité dans l'analyse de régression

Dans le cas de la régression linéaire, la variable indépendante peut être utilisée pour prédire la variable dépendante s'il existe une corrélation entre les deux variables. Cependant, il est important de noter qu'une corrélation entre deux variables ne signifie pas nécessairement une causalité. Qu'est-ce que cela signifie ? Si les valeurs élevées d'une variable sont accompagnées de valeurs élevées de l'autre variable, cela ne signifie pas que les valeurs d'une variable vont augmenter parce que les valeurs de l'autre variable vont augmenter.

Exemples de régression

Régression linéaire simple

Le temps de travail hebdomadaire a-t-il une influence sur le salaire horaire des employés ?

Régression linéaire multiple

Le temps de travail hebdomadaire et l'âge des employés ont-ils une influence sur leur salaire horaire ?

Régression logistique

Le temps de travail hebdomadaire et l'âge des employés ont-ils une influence sur la probabilité qu'ils soient à risque de burnout ?

  • Variable dépendante
  • Variables indépendantes
Analyse de régression

Calculer la régression

Trois étapes simples suffisent et le calculateur de régression vous donnera tous les chiffres clés importants :

  • 1. Copiez vos données dans le tableau de la calculatrice de statistiques.
  • 2. Cliquez sur "Régression".
  • 3. Sélectionnez une variable dépendante et une ou plusieurs variables indépendantes.

Si l'une des variables indépendantes a un niveau de mesure catégorique (ordinal ou nominal), des variables fictives sont automatiquement générées et une catégorie de référence est définie. Dès qu'une série ne contient que des chiffres, la calculatrice de statistiques la définit automatiquement comme une variable métrique.

Cité DATAtab: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.net

Contact FAQ et à propos de nous Politique de confidentialité Logiciel de statistiques