Menu

Analyse de la variance (ANOVA)

Qu'est-ce qu'une analyse de la variance ?

Une analyse de la variance (ANOVA) permet de vérifier s'il existe des différences statistiquement significatives entre plus de deux échantillons. Pour ce faire, les moyennes et les variances des groupes respectifs sont comparées entre elles. Contrairement au test t, qui vérifie s'il existe une différence entre deux échantillons, l'ANOVA vérifie s'il existe une différence entre plus de deux groupes.

Il existe différents types d'analyse de la variance, les plus courants étant l'analyse de la variance à une voie (un facteur) et l'analyse de la variance à deux voies (deux facteurs), chacune pouvant être calculée avec ou sans mesures répétées.

Ce tutoriel présente les bases de l'ANOVA. Pour chacun des quatre types d'analyse de la variance, vous trouverez un tutoriel détaillé séparé :

ANOVA

Astuce : les quatre variantes de l'ANOVA peuvent être facilement calculées en ligne sur DATAtab. Il suffit d'utiliser la calculatrice ANOVA.

Pourquoi les tests t multiples ne sont-ils pas calculés ?

L'ANOVA est appliquée lorsqu'il y a plus de deux groupes. Bien entendu, il serait également possible de calculer un test t pour chaque combinaison de groupes. Le problème est que tout test d'hypothèse comporte un certain degré d'erreur. Cette probabilité d'erreur est généralement fixée à 5 %, de sorte que, d'un point de vue purement statistique, un test sur 20 donne un résultat erroné.

Si, par exemple, on compare 20 groupes dans lesquels il n'y a en réalité aucune différence, l'un des tests montrera une différence significative uniquement grâce à l'échantillonnage.

Différence entre l'ANOVA à une voie et l'ANOVA à deux voies

L'analyse de variance à une voie vérifie uniquement si une variable indépendante a une influence sur une variable dépendante métrique. C'est le cas, par exemple, lorsqu'il s'agit de vérifier si le lieu de résidence (variable indépendante) a une influence sur le salaire (variable dépendante). Toutefois, si l'on considère deux facteurs, c'est-à-dire deux variables indépendantes, il faut utiliser une analyse de variance à deux facteurs.

ANOVA à un facteur ANOVA à deux facteurs
Le lieu de résidence d'une personne (variable indépendante) influence-t-il son salaire ? Le lieu de résidence (1ère variable indépendante) et le sexe (2e variable indépendante) d'une personne influencent-ils son salaire ?

L'analyse de variance à deux facteurs permet de vérifier s'il existe une différence entre plus de deux échantillons indépendants répartis entre deux variables ou facteurs.

Les factors dans l'analyse de la variance

Analyse de la variance avec et sans mesures répétées

Selon que l'échantillon est indépendant ou dépendant, on utilise l'analyse de la variance avec ou sans mesures répétées. Si la même personne a été interrogée à plusieurs reprises, l'échantillon est un échantillon dépendant et l'analyse de la variance avec mesures répétées est utilisée.

ANOVA à un facteur

L'analyse de variance à un facteur est une extension du test t pour les groupes indépendants. Avec le test t, seuls deux groupes au maximum peuvent être comparés ; cette possibilité est désormais étendue à plus de deux groupes. Pour deux groupes (k = 2), l'analyse de variance est donc équivalente au test t. La variable indépendante est donc une variable à échelle nominale avec au moins deux valeurs caractéristiques. La variable dépendante est sur une échelle métrique. Dans le cas de l'analyse de la variance, la variable indépendante est appelée facteur.

Définition

Existe-t-il une différence dans la population entre les différents groupes de la variable indépendante par rapport à la variable dépendante ?

Le but de l'ANOVA est d'expliquer autant de variances que possible dans la variable dépendante en la divisant en groupes. Considérons l'exemple suivant :

Exemple d'ANOVA à sens unique

À l'aide de la variable dépendante, par exemple, le niveau d'études le plus élevé, et des trois caractéristiques que sont le groupe 1, le groupe 2 et le groupe 3, il convient d'expliquer la plus grande partie possible de la variance de la variable dépendante qu'est le salaire. Dans le graphique ci-dessous, sous A) une grande partie de la variance peut être expliquée avec les trois groupes et sous B) seulement une très petite variance.

analyse de la variance

Par conséquent, dans le cas A), les groupes ont une très grande influence sur le salaire et dans le cas B), ils n'en ont pas.

Dans le cas A), les valeurs des groupes respectifs ne s'écartent que légèrement de la moyenne du groupe, la variance au sein des groupes est donc très faible. Dans le cas B), par contre, la variance à l'intérieur des groupes est importante. La variance entre les groupes est inversée : elle est grande dans le cas de A) et petite dans le cas de B). Dans le cas de B), les moyennes des groupes sont proches, dans le cas de A), elles ne le sont pas.

Hypothèses de l'analyse de la variance

L'hypothèse nulle et l'hypothèse alternative résultent d'une analyse de variance à une voie comme suit :

  • Hypothèse nulle H0: la valeur moyenne de tous les groupes est la même.
  • Hypothèse alternative H1: il existe des différences entre les valeurs moyennes des groupes.

Les résultats de l'analyse de variance peuvent uniquement indiquer s'il existe des différences entre au moins deux groupes. Cependant, il n'est pas possible de déterminer quels groupes sont exactement différents. Un test post-hoc est nécessaire pour déterminer quels groupes sont différents. Il existe plusieurs méthodes, les plus courantes étant Duncan, Dunnet C et Scheffe.

Exemple

Dans une usine de vis, une vis est produite par trois lignes de production différentes. Il s'agit maintenant de déterminer si toutes les lignes de production produisent des vis de même poids. Pour ce faire, on prélève 50 vis sur chaque ligne de production et on mesure leur poids. La procédure ANOVA permet ensuite de déterminer si le poids moyen des vis des trois lignes de production diffère significativement les unes des autres.

Un exemple d'analyse de variance à une voie consisterait à rechercher si la consommation quotidienne de café des étudiants de différents domaines d'études diffère de manière significative.

Variable dépendante Variable indépendante
Niveau de mesure Variable à échelle d'intervalle Variable à échelle nominale avec
au moins deux niveaux
Exemple d'une variable à échelle nominale avec au moins deux niveaux Consommation hebdomadaire de café Sujet (mathématiques, psychologie, économie)

Conditions préalables pour l'analyse de variance à sens unique

  • Niveau d'échelle : le niveau d'échelle de la variable dépendante doit être métrique par rapport à l'échelle nominale de la variable indépendante.
  • Homogénéité: les variances dans chaque groupe doivent être à peu près les mêmes. Ceci peut être vérifié avec le test de Levene.
  • Distribution normale : les données au sein des groupes doivent être normalement distribuées. Cela signifie que la majorité des valeurs se situent dans la moyenne et que très peu de valeurs sont significativement inférieures ou supérieures. Si cette condition n'est pas remplie, le test de Kruskal-Wallis peut être utilisé.

S'il n'y a pas d'échantillons indépendants mais des échantillons dépendants, une analyse de variance à un facteur avec mesures répétées est utilisée.

ANOVA de Welch

Si la condition d'homogénéité de la variance n'est pas remplie, l'ANOVA de Welch peut être calculée à la place de l'ANOVA "normale". Si le test de Levene entraîne une déviation significative des variances dans les groupes, DATAtab calcule automatiquement l'ANOVA de Welch en plus.

ANOVA de Welch

Taille de l'effet Eta au carré (η²)

Les mesures les plus connues de l'ampleur de l'effet pour l'analyse de la variance sont l'Eta au carré et l'Eta au carré partiel. Pour une ANOVA à un seul facteur, l'Eta au carré et l'Eta au carré partiel sont identiques.

L'Eta au carré estime la variance qu'une variable explique. Toutefois, il convient de noter que la variance expliquée est toujours surestimée. L'Eta au carré est calculé en divisant la somme des carrés entre les groupes (ou inter groupes) par la somme totale des carrés.

Taille de l'effet Eta au carré (η²)

Analyse de la variance à deux facteurs

Comme son nom l'indique, l'analyse de la variance à deux facteurs examine l'influence de deux facteurs sur une variable dépendante. Elle étend l'analyse de variance à un facteur en y ajoutant un facteur supplémentaire, c'est-à-dire une variable indépendante supplémentaire à échelle nominale. La question est à nouveau de savoir si la moyenne des groupes diffère de manière significative.

Variable dépendante Variable indépendante
Niveau de mesure Une variable à échelle d'intervalle Deux variables à échelle nominale
Exemple Consommation hebdomadaire de café Matière (mathématiques, psychologie, économie)
et semestre (hiver, été)

Exemple

Dans une usine de vis, une vis est produite par trois systèmes de production différents (facteur 1), en deux équipes (facteur 2). On veut maintenant déterminer si les installations de production ou les équipes ont une influence sur le poids des vis. Pour ce faire, il faut prendre 50 vis de chaque ligne de production et de chaque équipe et en mesurer le poids. L'ANOVA à deux facteurs permet de déterminer si le poids moyen des vis des trois lignes de production et des deux équipes est significativement différent l'un de l'autre.

Exemple avec DATAtab


Analyse de la variance à un facteur :

Vous voulez vérifier s'il y a une différence dans la consommation de café entre les étudiants de différentes matières. Pour ce faire, vous interrogez 10 étudiants de chaque filière.

Consommation de café Sujet
21 Mathématiques
23 Mathématiques
18 Économie
22 Économie
... ...

Après avoir copié le tableau ci-dessus dans la calculatrice de test d'hypothèse, il suffit de cliquer sur Test d'hypothèse et de sélectionner les trois variables. Le résultat ressemble à ceci :

Analyse de variance à un facteur :
n Moyenne SD
Math 10 16.6 7.291
Economie 10 19.8 4.131
Psychologie 10 17.8 6.443
Total 30 18.067 5.938
Somme des carrés ddl Carrés moyen F p
Entre les groupes 52.267 2 26.133 0.702 0.505
Au sein des groupes 1005.6 27 37.244
Total 1057.867 29

Cité DATAtab: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.net

Contact FAQ et à propos de nous Politique de confidentialité Logiciel de statistiques