Menu

Régression logistique

La régression logistique est un cas particulier d'analyse de régression et est utilisée lorsque la variable dépendante est nominalement échelonnée. C'est le cas, par exemple, de la variable décision d'achat avec les deux valeurs "achète un produit" et "n'achète pas de produit".

L'analyse de régression logistique est donc le pendant de la régression linéaire, dans laquelle la variable dépendante du modèle de régression doit au moins être échelonnée par intervalles.

Avec la régression logistique, il est désormais possible d'expliquer la variable dépendante ou d'estimer la probabilité d'occurrence des catégories de la variable.

Exemple en marketing :

Pour un détaillant en ligne, vous devez prédire quel produit un client donné est le plus susceptible d'acheter. Pour ce faire, vous disposez d'un ensemble de données concernant les visiteurs précédents et leurs achats auprès du détaillant en ligne.

Exemple en médecine :

Vous souhaitez déterminer si une personne est susceptible ou non de contracter une certaine maladie. Pour ce faire, vous recevez un ensemble de données comprenant des personnes malades et non malades, ainsi que d'autres paramètres médicaux.

Exemple en politique :

Une personne voterait-elle pour le parti A s'il y avait des élections le week-end prochain ?

Si vous avez besoin de calculer une régression logistique, vous pouvez facilement utiliser la calculatrice d'analyse de régression ici sur DATAtab.

Qu'est-ce qu'une régression logistique ?

Dans la forme de base de la régression logistique, des variables dichotomiques (0 ou 1) peuvent être prédites. Pour ce faire, la probabilité d'apparition de la valeur 1 (= caractéristique présente) est estimée.

Régression logistique et variables dichotomiques

En médecine, par exemple, une application fréquente consiste à déterminer quelles variables ont une influence sur une maladie. Dans ce cas, 0 pourrait signifier "non malade" et 1 "malade". Par la suite, l'influence de l'âge, du sexe et du statut tabagique (fumeur ou non) sur cette maladie particulière peut être examinée.

Exemple de régression logistique

Régression logistique et probabilités

Dans la régression linéaire, les variables indépendantes (par exemple, l'âge et le sexe) sont utilisées pour estimer la valeur spécifique de la variable dépendante (par exemple, le poids corporel).

Dans la régression logistique, en revanche, la variable dépendante est dichotomique (0 ou 1) et la probabilité que l'expression 1 se produise est estimée. Pour revenir à l'exemple ci-dessus, cela signifie : quelle est la probabilité que la maladie soit présente si la personne considérée a un certain âge, un certain sexe et un certain tabagisme.

Calculer la régression logistique

Pour construire un modèle de régression logistique, l'équation de régression linéaire est utilisée comme point de départ.

Équation de régression linéaire

Cependant, si une régression linéaire était simplement calculée pour résoudre une régression logistique, le résultat suivant apparaîtrait graphiquement :

Dérivation de la régression linéaire

Comme le montre le graphique, des valeurs comprises entre plus et moins l'infini peuvent être obtenues. L'objectif de la régression logistique est toutefois d'estimer la probabilité d'occurrence et non la valeur de la variable elle-même. Par conséquent, cette équation doit encore être transformée.

Pour ce faire, il est nécessaire de restreindre la plage de valeurs de la prédiction à la plage comprise entre 0 et 1. Pour s'assurer que seules les valeurs comprises entre 0 et 1 sont possibles, la fonction logistique f est utilisée.

Fonction logistique

Le modèle logistique est basé sur la fonction logistique. La particularité de la fonction logistique est que pour les valeurs comprises entre moins et plus l'infini, elle ne prend toujours que des valeurs comprises entre 0 et 1.

Fonction logistique

La fonction logistique est donc parfaite pour décrire la probabilité P(y=1). Si la fonction logistique est maintenant appliquée à l'équation de régression supérieure, le résultat est le suivant :

Probabilité de la regression logistique

Cela garantit maintenant que, quelle que soit la plage des valeurs x, seuls les nombres compris entre 0 et 1 seront obtenus. Le nouveau graphique se présente désormais comme suit :

Régression logistique

La probabilité que, pour des valeurs données de la variable indépendante, la variable dépendante dichotomique y soit 0 ou 1 est donnée par :

Probabilité de la régression logistique

Pour calculer la probabilité qu'une personne soit malade ou non en utilisant la régression logistique pour l'exemple ci-dessus, les paramètres du modèle b1, b2, b3 et a doivent d'abord être déterminés. Une fois ces paramètres déterminés, l'équation de l'exemple ci-dessus est la suivante :

Analyse de la régression logistique

Méthode du maximum de vraisemblance

Pour déterminer les paramètres du modèle pour l'équation de régression logistique, la méthode du maximum de vraisemblance est appliquée. La méthode du maximum de vraisemblance est l'une des méthodes utilisées en statistique pour estimer les paramètres d'un modèle mathématique. Un autre estimateur bien connu est la méthode des moindres carrés, utilisée dans la régression linéaire.

La fonction de vraisemblance

Pour comprendre la méthode du maximum de vraisemblance, nous introduisons la fonction de vraisemblance L. L est une fonction des paramètres inconnus du modèle, dans le cas de la régression logistique, il s'agit de b1,... bn, a. Par conséquent, nous pouvons également écrire L(b1,... bn, a) ou L(θ) si les paramètres sont résumés en θ.

L(θ) indique maintenant la probabilité que les données observées se produisent. Avec la modification de θ, la probabilité que les données se produisent telles qu'elles ont été observées change.

Estimation du maximum de vraisemblance

Estimation du maximum de vraisemblance

L'estimateur du maximum de vraisemblance peut être appliqué à l'estimation de modèles non linéaires et linéaires complexes. Dans le cas de la régression logistique, l'objectif est d'estimer les paramètres b1,... bn, a, qui maximisent la fonction dite de log-vraisemblance LL(θ). La fonction de log-vraisemblance est simplement le logarithme de L(θ).

Pour cette optimisation non linéaire, différents algorithmes ont été établis au fil des ans, tels que la descente de gradient stochastique.

Régression logistique multinomiale

Tant que la variable dépendante présente deux caractéristiques (par exemple, homme, femme), c'est-à-dire qu'elle est dichotomique, la régression logistique binaire est utilisée. Toutefois, si la variable dépendante comporte plus de deux instances, par exemple, quel moyen de mobilité suppose le trajet d'une personne pour se rendre au travail (voiture, transport public, bicyclette), la régression logistique multinomiale doit être utilisée.

Chaque expression de la variable mobilité (voiture, transport public, vélo) est transformée en une nouvelle variable. Le concept de mobilité à une variable devient les trois nouvelles variables :

  • la voiture est utilisée
  • les transports publics sont utilisés
  • le vélo est utilisé

Chacune de ces nouvelles variables ne comporte alors que les deux expressions oui ou non, par exemple la variable la voiture est utilisée ne comporte que les deux options de réponse oui ou non (soit elle est utilisée, soit elle ne l'est pas). Ainsi, pour la variable unique "concept de mobilité" à trois valeurs, il y a trois nouvelles variables à deux valeurs chacune oui et non (0 et 1). Trois modèles de régression logistique sont maintenant créés pour ces trois variables.

Interprétation des résultats

La relation entre les variables dépendantes et indépendantes dans la régression logistique n'est pas linéaire. Par conséquent, les coefficients de régression ne peuvent pas être interprétés de la même manière que dans la régression linéaire. C'est pourquoi les cotes sont interprétées dans la régression logistique.

Régression linéaire :

Une variable indépendante est qualifiée de bonne si elle présente une forte corrélation avec la variable dépendante.

Régression logistique :

Une variable indépendante est dite bonne si elle permet de distinguer significativement les groupes de la variable dépendante.

Les cotes sont calculées en mettant en relation les deux probabilités que y soit "1" et que y ne soit pas "1".

Cotes

Ce quotient peut prendre n'importe quelle valeur positive. Si cette valeur est maintenant logarithmée, des valeurs entre moins et plus sont possibles à l'infini.

Cotes

Ces probabilités logarithmiques sont généralement appelées "logits".

Pseudo-R au carré

Dans une régression linéaire, le coefficient de détermination R2 indique la proportion de la variance expliquée. Dans la régression logistique, la variable dépendante est échelonnée nominalement ou ordinalement et il n'est pas possible de calculer une variance, de sorte que le coefficient de détermination ne peut pas être calculé dans la régression logique.

Toutefois, afin de se prononcer sur la qualité du modèle de régression logistique, des pseudo-corps de détermination ont été établis, également appelés pseudo-R au carré. Les pseudo-coefficients de détermination sont construits de telle sorte qu'ils se situent entre 0 et 1, tout comme le coefficient de détermination original. Les coefficients de détermination les plus connus sont le R-carré de Cox et Snell et le R-carré de Nagelkerke.

Modèle nul

Pour calculer le coefficient de détermination de Cox et Snell et le coefficient de détermination de Nagelkerke, on a besoin de la vraisemblance du modèle dit nul L0 et de la vraisemblance L1 du modèle calculé. Le modèle zéro est un modèle dans lequel aucune variable indépendante n'est incluse, L1 est la vraisemblance du modèle avec les variables dépendantes.

R-carré de Cox et Snell

Dans le carré R de Cox et Snell, le rapport de la fonction de vraisemblance du modèle zéro L0 et L1 est comparé. Plus le modèle entier est comparé au modèle zéro, plus le rapport entre L0 et L1 est faible. Le carré R de Cox et Snell est obtenu avec :

Carré R de Cox et Snell

R-carré de Nagelkerkes

Le pseudo-coefficient de détermination de Cox et Snell ne peut pas être égale à 1 même pour un modèle avec prédiction parfaite, ce que corrige le R-carré de Nagelkerkes. Le pseudo-coefficient de détermination de Nagelkerkes est égal à 1 si le modèle complet donne une prédiction parfaite avec une probabilité de 1.

R-carré de Nagelkerkes

R-carré de McFadden

Le R-carré de McFadden utilise également le modèle nul et le modèle total pour calculer le R2.

R-carré de McFadden

Test du khi-deux et régression logistique

Dans le cas de la régression logistique, le test du khi-deux vous indique si le modèle est globalement significatif ou non.

Test du khi-deux et régression logistique

Ici, deux modèles sont comparés. Dans un modèle, toutes les variables indépendantes sont utilisées et dans l'autre, les variables indépendantes ne sont pas utilisées.

Test du khi-deux et interprétation de la régression logistique

Le test du chi-deux compare la qualité de la prédiction lorsque les variables dépendantes sont utilisées et lorsqu'elles ne le sont pas.

Le test du khi-deux nous indique maintenant s'il existe une différence significative entre ces deux résultats. L'hypothèse nulle est que les deux modèles sont identiques. Si la valeur p est inférieure à 0,05, l'hypothèse nulle est rejetée.

Exemple de régression logistique

Un exemple de régression logistique est l'étude du comportement d'achat dans une boutique en ligne. L'objectif est de déterminer les facteurs d'influence qui amènent une personne à acheter "immédiatement", "plus tard" ou "pas du tout" dans la boutique en ligne après avoir visité le site web. La boutique en ligne fournit les données collectées à cette fin. La variable dépendante présente donc les trois caractéristiques suivantes :

  • Achat immédiat
  • Acheter plus tard
  • N'achète rien

Le sexe, l'âge, le revenu et le temps passé dans la boutique en ligne sont disponibles en tant que variables indépendantes.

Comportement d'achat Sexe Âge Temps passé dans la boutique en ligne
Achat immédiat femme 22 40
Achat en ligne femme 25 78
Acheter maintenant homme 18 65
... ... ... ...
Acheter plus tard femme 27 28
Acheter plus tard femme 27 15
Acheter plus tard homme 48 110
... ... ... ...
N'achète rien femme 33 65
N'achète rien femme 43 34

Après avoir copié le tableau ci-dessus dans la calculatrice de statistiques, vous obtiendrez les résultats suivants :

Présentation des résultats de la régression logistique

Cité DATAtab: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.net

Contact FAQ et à propos de nous Politique de confidentialité Logiciel de statistiques