Menu

Régression linéaire

Qu'est-ce qu'une analyse de régression linéaire ?

L'analyse de régression linéaire est utilisée pour créer un modèle qui décrit la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Selon qu'il y a une ou plusieurs variables indépendantes, on distingue l'analyse de régression linéaire simple et l'analyse de régression linéaire multiple.

Régression linéaire

Dans le cas d'une régression linéaire simple, l'objectif est d'examiner l'influence d'une variable indépendante sur une variable dépendante. Dans le second cas, une régression linéaire multiple, on analyse l'influence de plusieurs variables indépendantes sur une variable dépendante.

Dans la régression linéaire, une condition préalable importante est que l'échelle de mesure de la variable dépendante soit métrique et que la distribution soit normale. Si la variable dépendante est catégorique, une régression logistique est utilisée. Vous pouvez facilement effectuer une analyse de régression dans la calculatrice de régression linéaire sur DATAtab.

Exemple : Régression linéaire simple

La taille a-t-elle une influence sur le poids d'une personne ?

Exemple : Régression linéaire multiple

La taille et le sexe ont-ils une influence sur le poids d'une personne ?

  • Variable dépendante
  • Variables indépendantes

Régression linéaire simple

L'objectif d'une régression linéaire simple est de prédire la valeur d'une variable dépendante en fonction d'une variable indépendante. Plus la relation linéaire entre la variable indépendante et la variable dépendante est grande, plus la prédiction est précise. Cela va de pair avec le fait que plus la proportion de la variance de la variable dépendante qui peut être expliquée par la variable indépendante est grande, plus la prédiction est précise. Visuellement, la relation entre les variables peut être représentée par un diagramme de dispersion. Plus la relation linéaire entre les variables dépendantes et indépendantes est importante, plus les points de données se situent sur une ligne droite.

Régression linéaire simple

La tâche de la régression linéaire simple consiste à déterminer exactement cette ligne droite qui décrit le mieux la relation linéaire entre la variable dépendante et la variable indépendante. Dans l'analyse de régression linéaire, une ligne droite est tracée dans le nuage de points. Pour déterminer cette droite, la régression linéaire utilise la méthode des moindres carrés.

La droite de régression peut être décrite par l'équation suivante :

La droite de régression

Définition des "coefficients de régression" :

  • a : le point d'intersection avec l'axe des ordonnées (y)
  • b : la pente de la droite

ŷ est l'estimation respective de la valeur y. Cela signifie que pour chaque valeur x, la valeur y correspondante est estimée. Dans notre exemple, cela signifie que la taille des personnes est utilisée pour estimer leur poids.

Erreur de la regression linéaire

Si tous les points (valeurs mesurées) se trouvaient exactement sur une ligne droite, l'estimation serait parfaite. Toutefois, ce n'est presque jamais le cas et il faut donc, dans la plupart des cas, trouver une ligne droite qui soit aussi proche que possible des différents points de données. On s'efforce donc de maintenir l'erreur d'estimation aussi faible que possible, de sorte que la distance entre la valeur estimée et la valeur réelle soit aussi réduite que possible. Cette distance ou erreur est appelée "résidu" et est abrégée en "e" (erreur).

Lors du calcul de la droite de régression, on tente de déterminer les coefficients de régression (a et b) de manière à ce que la somme des carrés des résidus soit minimale (MCO - "moindres carrés ordinaires").

Le coefficient de régression b peut maintenant avoir différents signes, qui peuvent être interprétés comme suit :

  • b > 0 : il existe une corrélation positive entre x et y (plus x est grand, plus y est grand)
  • b< 0 : il existe une corrélation négative entre x et y (plus x est grand, plus y est petit)
  • b = 0 : il n'y a pas de corrélation entre x et y.

Les coefficients de régression standardisés sont généralement désignés par la lettre "bêta". Il s'agit de valeurs comparables entre elles. Ici, l'unité de mesure de la variable n'a plus d'importance. Le coefficient de régression standardisé (bêta) est automatiquement édité par DATAtab.

Régression linéaire multiple

Contrairement à la régression linéaire simple, la régression linéaire multiple permet de prendre en compte plus de deux variables indépendantes. L'objectif est d'estimer une variable en fonction de plusieurs autres variables. La variable à estimer est appelée variable dépendante (critère). Les variables utilisées pour la prédiction sont appelées variables indépendantes (prédicteurs).

La régression linéaire multiple est fréquemment utilisée dans la recherche sociale empirique ainsi que dans les études de marché. Dans ces deux domaines, il est intéressant de déterminer l'influence de différents facteurs sur une variable. Par exemple, quels sont les déterminants qui influencent la santé ou le comportement d'achat d'une personne ?

Exemple de marketing :

Pour un service de streaming vidéo, vous devez prédire combien de fois par mois une personne visionne des vidéos. Pour ce faire, vous obtenez un enregistrement des données des visiteurs (âge, revenu, sexe, ...).

Exemple en médecine :

Vous souhaitez déterminer les facteurs qui influencent le taux de cholestérol des patients. À cette fin, vous analysez un ensemble de données relatives aux patients, comprenant le taux de cholestérol, l'âge, le nombre d'heures de sport par semaine, etc.

L'équation nécessaire au calcul d'une régression multiple est obtenue avec k variables dépendantes.

Régression linéaire multiple

Les coefficients peuvent maintenant être interprétés de manière similaire à l'équation de régression linéaire. Si toutes les variables indépendantes sont égales à 0, la valeur résultante est a. Si une variable indépendante change d'une unité, le coefficient associé indique de combien la variable dépendante change. Ainsi, si la variable indépendante xi augmente d'une unité, la variable dépendante y augmente de bi.

Régression multivariée et régression multiple

La régression multiple ne doit pas être confondue avec la régression multivariée. Dans le premier cas, l'influence de plusieurs variables indépendantes sur une variable dépendante est examinée. Dans le second cas, plusieurs modèles de régression sont calculés pour permettre de tirer des conclusions sur plusieurs variables dépendantes. Par conséquent, dans une régression multiple, une seule variable dépendante est prise en compte, alors que dans une régression multivariée, plusieurs variables dépendantes sont analysées.

Coefficient de détermination

Afin de déterminer dans quelle mesure le modèle de régression peut prédire ou expliquer la variable dépendante, deux mesures principales sont utilisées. Il s'agit, d'une part, du coefficient de détermination R2 et, d'autre part, de l'erreur d'estimation standard. Le coefficient de détermination R2, également connu sous le nom d'explication de la variance, indique l'importance de la part de la variance qui peut être expliquée par les variables indépendantes. Plus la variance peut être expliquée, meilleur est le modèle de régression. Pour calculer R2, la variance de la valeur estimée est liée à la variance des valeurs observées:

Explication de la Variance

R² ajusté

Le coefficient de détermination R² est influencé par le nombre de variables indépendantes utilisées. Plus il y a de variables indépendantes dans le modèle de régression, plus la résolution de la variance R² est importante. Pour en tenir compte, on utilise le R² ajusté.

Variance Clarification

Erreur d'estimation standard

L'erreur d'estimation standard est l'écart-type de l'erreur d'estimation. Elle donne une idée de l'ampleur de l'écart entre la prédiction et la valeur correcte. Interprétée graphiquement, l'erreur standard d'estimation est la dispersion des valeurs observées autour de la ligne de régression.

Le coefficient de détermination et l'erreur d'estimation standard sont utilisés pour les régressions linéaires simples et multiples.

Coefficient de régression normalisé et non normalisé

On distingue le coefficient de régression standardisé et le coefficient de régression non standardisé. Les coefficients de régression non standardisés sont les coefficients qui apparaissent ou sont utilisés dans l'équation de régression et sont abrégés b.

Les coefficients de régression standardisés sont obtenus en multipliant le coefficient de régression bi par l'écart-type de la variable dépendante Sxi et en divisant la variable dépendante par l'écart-type de la variable indépendante Sy.

Conditions préalables de la régression linéaire

Afin d'interpréter les résultats de l'analyse de régression de manière significative, certaines conditions doivent être remplies.

  • Linéarité : il doit exister une relation linéaire entre les variables dépendantes et indépendantes.
  • Homoscédasticité : les résidus doivent avoir une variance constante.
  • Normalité : l'erreur est normalement distribuée.
  • Absence de multicolinéarité : il n'existte pas de forte corrélation entre les variables indépendantes.
  • Absence de multicolinéarité : il n'existte pas de forte corrélation entre les variables indépendantes.
  • Pas d'auto-corrélation : la composante d'erreur ne doit pas présenter d'auto-corrélation

Linéarité

Dans la régression linéaire, une ligne droite est tracée à travers les données. Cette ligne droite doit représenter tous les points aussi bien que possible. Si les points sont distribués de manière non linéaire, la ligne droite ne peut pas remplir cette tâche.

Condition de linéarité de la régression linéaire

Dans le graphique supérieur gauche, il existe une relation linéaire entre la variable dépendante et la variable indépendante. Dans le graphique de droite, vous pouvez voir qu'il existe une relation clairement non linéaire entre la variable dépendante et la variable indépendante. Il n'est donc pas possible de faire passer la droite de régression par les points de manière significative. Comme ce n'est pas possible, les coefficients ne peuvent pas être interprétés de manière significative par le modèle de régression ou bien il pourrait y avoir des erreurs de prédiction plus importantes que prévu.

Il est donc important de vérifier au préalable s'il existe une relation linéaire entre la variable dépendante et chacune des variables indépendantes. Cette vérification se fait généralement sous forme de graphique.

Homoscédasticité

Étant donné que, dans la pratique, le modèle de régression ne prédit jamais exactement la variable dépendante, il y a toujours une erreur. Cette erreur doit avoir une variance constante sur toute la plage prédite.

Homoscédasticité de la régression linéaire

Pour tester l'homoscédasticité, c'est-à-dire la variance constante des résidus, la variable dépendante est représentée sur l'axe des abscisses et l'erreur sur l'axe des ordonnées. L'erreur doit se répartir uniformément sur l'ensemble de la plage. Si c'est le cas, il y a homoscédasticité. Si ce n'est pas le cas, il y a hétéroscédasticité. Dans le cas de l'hétéroscédasticité, l'erreur a des variances différentes, en fonction de la plage de valeurs de la variable dépendante.

Distribution normale de l'erreur

La condition suivante de la régression linéaire est que l'erreur epsilon doit être normalement distribuée. Il y a deux façons de le déterminer : l'une est analytique et l'autre est graphique. Dans la méthode analytique, vous pouvez utiliser le test de Kolmogorov-Smirnov ou le test de Shapiro-Wilk. Si la valeur p est supérieure à 0,05, les données ne s'écartent pas de la distribution normale et l'on peut supposer que les données sont normalement distribuées.

Distribution normale de l'erreur de la régression

Toutefois, ces tests analytiques sont de moins en moins utilisés car ils ont tendance à attester la distribution normale pour les petits échantillons et deviennent très rapidement significatifs pour les grands échantillons, rejetant ainsi l'hypothèse nulle selon laquelle les données sont normalement distribuées. C'est pourquoi la variante graphique est de plus en plus utilisée.

Dans la variante graphique, on examine soit l'histogramme, soit, mieux encore, ce que l'on appelle le Q-Q plot ou Quantile-Quantile plot. Plus les données se situent sur la ligne, meilleure est la distribution normale.

Multicollinéarité

Lamulticolinéarité signifie que deux variables indépendantes ou plus sont fortement corrélées entre elles. Le problème de la multicolinéarité est que les effets de chaque variable indépendante ne peuvent pas être clairement séparés les uns des autres.

Multicollinéarité de la régression

Si, par exemple, il existe une forte corrélation entre x1 et x2, il est difficile de déterminer b1 et b2. Si les deux sont, par exemple, complètement égaux, le modèle de régression ne sait pas quelle doit être la taille de b1 et de b2. Le modèle de régression devient donc instable.

Ceci n'est bien sûr pas tragique si le modèle de régression n'est utilisé que pour une prédiction ; dans le cas d'une prédiction, on ne s'intéresse qu'à la prédiction, mais pas à l'importance de l'influence des variables respectives. Toutefois, si le modèle de régression est utilisé pour mesurer l'influence des variables indépendantes sur la variable dépendante, il ne doit pas y avoir de multicolinéarité. En cas de multicolinéarité, les coefficients ne peuvent pas être interprétés de manière significative.

Vous trouverez des informations plus détaillées sur la multicollinéarité en cliquant sur le lien ici.

Test de signification et régression

L'analyse de régression est souvent effectuée pour faire des affirmations sur la population à partir d'un échantillon. Les coefficients de régression sont donc calculés à partir des données de l'échantillon. Pour exclure la possibilité que les coefficients de régression ne soient pas le fruit du hasard et qu'ils aient des valeurs complètement différentes dans un autre échantillon, les résultats sont testés statistiquement à l'aide d'un test de signification. Ce test se déroule à deux niveaux :

  • Test de signification pour l'ensemble du modèle de régression
  • Test de signification pour les coefficients de régression

Il convient toutefois de noter que les hypothèses énoncées dans la section précédente doivent être satisfaites.

Test de signification pour le modèle de régression

On vérifie ici si le coefficient de détermination R2 dans la population est différent de zéro. L'hypothèse nulle est donc que le coefficient de détermination R2 dans la population est nul. Pour confirmer ou rejeter l'hypothèse nulle, on calcule le test F suivant

Test de signification pour le modèle de régression

La valeur F calculée doit maintenant être comparée à la valeur F critique. Si la valeur F calculée est supérieure à la valeur F critique, l'hypothèse nulle est rejetée et le R2 s'écarte de zéro dans la population. La valeur F critique peut être lue dans le tableau de distribution F. Les degrés de liberté au numérateur sont k et les degrés de liberté au dénominateur sont n-k-1.

Test de signification pour les coefficients de régression

L'étape suivante consiste à vérifier quelles variables contribuent de manière significative à la prédiction de la variable dépendante. Pour ce faire, on vérifie si les pentes (coefficients de régression) diffèrent également de zéro dans la population. Les statistiques de test suivantes sont calculées pour l'analyse :

Test de signification pour les coefficients de régression

où bj est le coefficient de régression j. et sb_j est l'erreur standard de bj. Cette statistique de test est distribuée en t avec les degrés de liberté n-k-1. La valeur t critique peut être lue dans le tableau de distribution t.

Calculer avec DATAtab

Recalculez l'exemple directement avec DATAtab gratuitement :

Ensemble de données de régression linéaire à télécharger

Comme exemple de régression linéaire, un modèle est mis en place pour prédire le poids corporel d'une personne. La variable dépendante est donc le poids corporel, tandis que la taille, l'âge et le sexe sont choisis comme variables indépendantes. L'exemple de données suivant est disponible :

poids taille âge sexe
79 1.80 35 homme
69 1.68 39 homme
73 1.82 25 homme
95 1.70 60 homme
82 1.87 27 homme
55 1.55 18 femme
69 1.50 89 femme
71 1.78 42 femme
64 1.67 16 femme
69 1.64 52 femme

Après avoir copié vos données dans la calculatrice de statistiques, vous devez sélectionner les variables qui vous concernent. Vous obtenez ensuite les résultats sous forme de tableau.

Calculer la régression linéaire

Interprétation des résultats

Ce tableau montre que 75,4% de la variation du poids peut être déterminée par la taille, l'âge et le sexe. Le modèle estime une moyenne de 6,587 lorsqu'il s'agit de prédire le poids d'une personne. L'équation de régression donne les résultats suivants :

Poids = 47,379 - Taille + 0,297 - Âge + 8,922 - Homme -24,41

L'équation montre par exemple que si l'âge augmente d'un an, le poids augmente de 0,297 kg selon le modèle. Dans le cas de la variable dichotomique sexe, la pente doit être interprétée comme la différence : selon le modèle, un homme pèse 8,922 kg de plus qu'une femme. Si toutes les variables indépendantes sont nulles, le résultat est un poids de -24,41.

Les coefficients bêta standardisés sont mesurés séparément et se situent toujours entre -1 et +1. Plus le coefficient bêta est élevé, plus la contribution de chaque variable indépendante à l'explication de la variable dépendante est importante. Dans cette analyse de régression, la variable âge a la plus grande influence sur la variable poids.

Les coefficients calculés se rapportent à l'échantillon utilisé pour le calcul de l'analyse de régression. Il est donc intéressant de savoir si les valeurs B s'écartent de zéro uniquement par hasard ou si elles sont également différentes de zéro dans la population. À cette fin, l'hypothèse nulle est formulée selon laquelle la valeur B calculée est égale à zéro dans la population. Si c'est le cas, cela signifie que la variable dépendante concernée n'a pas d'influence significative sur la variable dépendante.

La valeur sigma indique si une variable a une influence significative. Les valeurs sigma inférieures à 0,05 sont considérées comme significatives. Dans cet exemple, seul l'âge peut être considéré comme un facteur prédictif significatif du poids d'une personne.

Présentation des résultats de la régression

Lorsque vous présentez vos résultats, vous devez inclure l'effet estimé, c'est-à-dire le coefficient de régression, l'erreur standard de l'estimation et la valeur p. Bien entendu, il est également utile d'interpréter les résultats de la régression afin que tout le monde sache ce que les coefficients de régression signifient.

Par exemple : une relation significative (p < 0,041) a été trouvée entre le poids d'une personne et son âge AL.

Si une régression linéaire simple a été calculée, le résultat peut également être affiché à l'aide d'un diagramme de dispersion.

Cité DATAtab: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.net

Contact FAQ et à propos de nous Politique de confidentialité Logiciel de statistiques