Courbe ROC

Une courbe ROC est une représentation graphique des performances d'un modèle de classification binaire pour tous les seuils de classification. ROC signifie Receiver Operating Characteristic (caractéristique de fonctionnement du récepteur ou caractéristique de performance).

Exemple de courbe ROC

Nous souhaitons déterminer, sur la base d'un dépistage, si une personne est atteinte d'un cancer ou non.

Cette classification se fait à l'aide d'une certaine valeur sanguine, où des valeurs élevées indiquent un cancer. La question est maintenant de savoir quelle valeur nous choisissons comme seuil de classification. À partir de quelle valeur pouvons-nous prédire une maladie ?

Pour ce faire, nous obtenons les données de 10 personnes concernant le niveau de la valeur sanguine et la présence ou non d'une maladie.

Nous pourrions alors choisir un seuil de classification de 45, par exemple. Dans ce cas, sur les 5 personnes atteintes d'une maladie, nous en classerions correctement 4 comme "malades" et 1 comme "en bonne santé". Ainsi, nous avons correctement classé 4 personnes sur 5 comme "malades".

Seuil de classification de la courbe ROC

Cette valeur est appelée taux de vrais positifs (TPR) et est égale à la sensibilité.

En revanche, sur les 5 individus sains, 2 ont été mal classés comme "malades" et 3 correctement classés comme "sains". Nous avons donc mal classé 2 personnes sur 5 en tant que "malades". Cette valeur est appelée taux de faux positifs (FPR) et correspond à 1 - spécificité.

Taux de faux positif du seuil de classification

Ainsi, pour un seuil de 45, nous obtenons un taux de vrais positifs de 4/5, soit 0,8, et un taux de faux positifs de 3/5, soit 0,6.

Taux de vrais et de faux positifs

Le taux de vrais positifs (TPR) est calculé à l'aide de l'équation suivante :

Le taux de vrais positifs est égal au nombre de vrais positifs divisé par le nombre de vrais positifs plus le nombre de faux négatifs. Les vrais positifs sont ceux qui sont correctement classés comme malades et les faux négatifs sont ceux qui sont incorrectement classés comme sains.

Le taux de faux positifs (FPR) est obtenu à l'aide de l'équation suivante :

Le taux de faux positifs est égal au nombre de faux positifs divisé par le nombre de faux positifs plus le nombre de vrais négatifs. Les faux positifs sont les individus sains mal classés comme malades et les vrais négatifs sont les individus correctement classés comme sains.

Tracer la courbe ROC

Nous pouvons maintenant calculer, pour chaque seuil, le taux de vrais positifs et le taux de faux positifs. Ces deux valeurs sont ensuite reportées sur la courbe ROC. Le taux de vrais positifs est représenté sur l'axe des y (les ordonnées) et le taux de faux positifs sur l'axe des x (les abscisses).

Traçons maintenant la courbe ROC complète pour notre exemple !

Si nous choisissons une valeur seuil très faible, c'est-à-dire poussée complètement vers la gauche, nous classons correctement les 5 individus malades. Notre taux de vrais positifs est donc de 5 sur 5, soit 1.

De la même manière, cependant, nous classons à tort les 5 personnes saines comme "malades". Notre taux de faux positifs est donc de 5 sur 5, soit 1.

Ceci nous donne le premier point :

Nous pouvons maintenant pousser le seuil plus loin. Ici, nous continuons à classer correctement les 5 malades comme "malades". Cependant, sur les 5 individus sains, nous n'en classons plus que 4 sur 5 comme "malades". Nous avons donc 4 sur 5, soit 0,8.

Taux de vrais positifs et taux de faux positifs

Au seuil suivant, nous avons toujours un taux de vrais positifs de 1. Les 5 personnes malades sont correctement classées et le taux de faux positifs est de 3/5, soit 0,6.

Au seuil suivant, pour la première fois, une personne malade est mal classée comme "saine". On obtient donc un taux de vrais positifs de 4/5, soit 0,8, et un taux de faux positifs de 3/5, soit 0,6.

À ce stade, par exemple, 80 % des personnes malades ont été correctement classées comme "malades" et 20 % des personnes saines ont été incorrectement classées comme "malades".

Valeur de la SSC

La courbe ROC nous permet de comparer différentes méthodes de classification. Un modèle de classification est d'autant meilleur que la courbe est élevée. Par conséquent, plus l'aire sous la courbe est grande, meilleur est le classificateur. Cette aire est reflétée par la valeur AUC, c'est-à-dire l'aire sous la courbe.

La valeur de l'aire sous la courbe varie entre 0 et 1. Plus la valeur est élevée, meilleur est le classificateur.

Courbe ROC et régression logistique

Mais qu'en est-il de la courbe ROC et de la régression logistique ? Nous pourrions, par exemple, créer un nouveau classificateur utilisant la régression logistique. Dans ce cas, nous pourrions utiliser, en plus de la valeur sanguine, l'âge et le sexe de la personne.

Dans une régression logistique, la valeur estimée est alors la probabilité qu'une personne donnée soit atteinte de la maladie.

Seuil de classification par régression logistique

Très souvent, 50 % est alors simplement considéré comme le seuil permettant de déterminer si une personne est malade ou non. Mais bien sûr, ce n'est pas forcément le cas ! N'importe quel seuil peut être utilisé.

Par conséquent, nous pouvons également créer une courbe ROC pour les différentes valeurs de seuil dans la régression logistique.

Créer une courbe ROC avec DATAtab

Bien entendu, nous pouvons facilement créer une courbe ROC en ligne avec DATAtab. Pour ce faire, il suffit de copier nos données dans ce tableau et de cliquer sur Calculatrice ROC. Vous pouvez également créer une courbe ROC dans le Calculateur de régression dans Régression logistique.

Il nous suffit maintenant de sélectionner les deux variables Malade et Valeur sanguine et de spécifier ce que nous considérons comme un événement positif, dans notre cas la réponse "oui". Nous obtenons alors la courbe ROC. Dans le tableau situé sous la courbe ROC, nous trouvons la valeur seuil respective pour chaque point de la courbe ROC.