Analyse de la variance (ANOVA)
Qu'est-ce qu'une analyse de la variance ?
Une analyse de la variance (ANOVA) permet de vérifier s'il existe des différences statistiquement significatives entre plus de deux échantillons. Pour ce faire, les moyennes et les variances des groupes respectifs sont comparées entre elles. Contrairement au test t, qui vérifie s'il existe une différence entre deux échantillons, l'ANOVA vérifie s'il existe une différence entre plus de deux groupes.
Il existe différents types d'analyse de la variance, les plus courants étant l'analyse de la variance à une voie (un facteur) et l'analyse de la variance à deux voies (deux facteurs), chacune pouvant être calculée avec ou sans mesures répétées.
Ce tutoriel présente les bases de l'ANOVA. Pour chacun des quatre types d'analyse de la variance, vous trouverez un tutoriel détaillé séparé :
- ANOVA à un facteur (ou à sens unique)
- ANOVA à deux facteurs (ou à deux voies)
- ANOVA à un facteur avec mesures répétées
- ANOVA à deux facteurs avec mesures répétées
Astuce : les quatre variantes de l'ANOVA peuvent être facilement calculées en ligne sur DATAtab. Il suffit d'utiliser la calculatrice ANOVA.
Pourquoi les tests t multiples ne sont-ils pas calculés ?
L'ANOVA est appliquée lorsqu'il y a plus de deux groupes. Bien entendu, il serait également possible de calculer un test t pour chaque combinaison de groupes. Le problème est que tout test d'hypothèse comporte un certain degré d'erreur. Cette probabilité d'erreur est généralement fixée à 5 %, de sorte que, d'un point de vue purement statistique, un test sur 20 donne un résultat erroné.
Si, par exemple, on compare 20 groupes dans lesquels il n'y a en réalité aucune différence, l'un des tests montrera une différence significative uniquement grâce à l'échantillonnage.
Différence entre l'ANOVA à une voie et l'ANOVA à deux voies
L'analyse de variance à une voie vérifie uniquement si une variable indépendante a une influence sur une variable dépendante métrique. C'est le cas, par exemple, lorsqu'il s'agit de vérifier si le lieu de résidence (variable indépendante) a une influence sur le salaire (variable dépendante). Toutefois, si l'on considère deux facteurs, c'est-à-dire deux variables indépendantes, il faut utiliser une analyse de variance à deux facteurs.
ANOVA à un facteur | ANOVA à deux facteurs |
---|---|
Le lieu de résidence d'une personne (variable indépendante) influence-t-il son salaire ? | Le lieu de résidence (1ère variable indépendante) et le sexe (2e variable indépendante) d'une personne influencent-ils son salaire ? |
L'analyse de variance à deux facteurs permet de vérifier s'il existe une différence entre plus de deux échantillons indépendants répartis entre deux variables ou facteurs.
Analyse de la variance avec et sans mesures répétées
Selon que l'échantillon est indépendant ou dépendant, on utilise l'analyse de la variance avec ou sans mesures répétées. Si la même personne a été interrogée à plusieurs reprises, l'échantillon est un échantillon dépendant et l'analyse de la variance avec mesures répétées est utilisée.
ANOVA à un facteur
L'analyse de variance à un facteur est une extension du test t pour les groupes indépendants. Avec le test t, seuls deux groupes au maximum peuvent être comparés ; cette possibilité est désormais étendue à plus de deux groupes. Pour deux groupes (k = 2), l'analyse de variance est donc équivalente au test t. La variable indépendante est donc une variable à échelle nominale avec au moins deux valeurs caractéristiques. La variable dépendante est sur une échelle métrique. Dans le cas de l'analyse de la variance, la variable indépendante est appelée facteur.
Définition
Existe-t-il une différence dans la population entre les différents groupes de la variable indépendante par rapport à la variable dépendante ?
Le but de l'ANOVA est d'expliquer autant de variances que possible dans la variable dépendante en la divisant en groupes. Considérons l'exemple suivant :
Exemple d'ANOVA à sens unique
À l'aide de la variable dépendante, par exemple, le niveau d'études le plus élevé, et des trois caractéristiques que sont le groupe 1, le groupe 2 et le groupe 3, il convient d'expliquer la plus grande partie possible de la variance de la variable dépendante qu'est le salaire. Dans le graphique ci-dessous, sous A) une grande partie de la variance peut être expliquée avec les trois groupes et sous B) seulement une très petite variance.
Par conséquent, dans le cas A), les groupes ont une très grande influence sur le salaire et dans le cas B), ils n'en ont pas.
Dans le cas A), les valeurs des groupes respectifs ne s'écartent que légèrement de la moyenne du groupe, la variance au sein des groupes est donc très faible. Dans le cas B), par contre, la variance à l'intérieur des groupes est importante. La variance entre les groupes est inversée : elle est grande dans le cas de A) et petite dans le cas de B). Dans le cas de B), les moyennes des groupes sont proches, dans le cas de A), elles ne le sont pas.
Hypothèses de l'analyse de la variance
L'hypothèse nulle et l'hypothèse alternative résultent d'une analyse de variance à une voie comme suit :
- Hypothèse nulle H0: la valeur moyenne de tous les groupes est la même.
- Hypothèse alternative H1: il existe des différences entre les valeurs moyennes des groupes.
Les résultats de l'analyse de variance peuvent uniquement indiquer s'il existe des différences entre au moins deux groupes. Cependant, il n'est pas possible de déterminer quels groupes sont exactement différents. Un test post-hoc est nécessaire pour déterminer quels groupes sont différents. Il existe plusieurs méthodes, les plus courantes étant Duncan, Dunnet C et Scheffe.
Exemple
Dans une usine de vis, une vis est produite par trois lignes de production différentes. Il s'agit maintenant de déterminer si toutes les lignes de production produisent des vis de même poids. Pour ce faire, on prélève 50 vis sur chaque ligne de production et on mesure leur poids. La procédure ANOVA permet ensuite de déterminer si le poids moyen des vis des trois lignes de production diffère significativement les unes des autres.
Un exemple d'analyse de variance à une voie consisterait à rechercher si la consommation quotidienne de café des étudiants de différents domaines d'études diffère de manière significative.
Variable dépendante | Variable indépendante | |
---|---|---|
Niveau de mesure | Variable à échelle d'intervalle |
Variable à échelle nominale avec au moins deux niveaux |
Exemple d'une variable à échelle nominale avec au moins deux niveaux | Consommation hebdomadaire de café | Sujet (mathématiques, psychologie, économie) |
Conditions préalables pour l'analyse de variance à sens unique
- Niveau d'échelle : le niveau d'échelle de la variable dépendante doit être métrique par rapport à l'échelle nominale de la variable indépendante.
- Homogénéité: les variances dans chaque groupe doivent être à peu près les mêmes. Ceci peut être vérifié avec le test de Levene.
- Distribution normale : les données au sein des groupes doivent être normalement distribuées. Cela signifie que la majorité des valeurs se situent dans la moyenne et que très peu de valeurs sont significativement inférieures ou supérieures. Si cette condition n'est pas remplie, le test de Kruskal-Wallis peut être utilisé.
S'il n'y a pas d'échantillons indépendants mais des échantillons dépendants, une analyse de variance à un facteur avec mesures répétées est utilisée.
ANOVA de Welch
Si la condition d'homogénéité de la variance n'est pas remplie, l'ANOVA de Welch peut être calculée à la place de l'ANOVA "normale". Si le test de Levene entraîne une déviation significative des variances dans les groupes, DATAtab calcule automatiquement l'ANOVA de Welch en plus.
Taille de l'effet Eta au carré (η²)
Les mesures les plus connues de l'ampleur de l'effet pour l'analyse de la variance sont l'Eta au carré et l'Eta au carré partiel. Pour une ANOVA à un seul facteur, l'Eta au carré et l'Eta au carré partiel sont identiques.
L'Eta au carré estime la variance qu'une variable explique. Toutefois, il convient de noter que la variance expliquée est toujours surestimée. L'Eta au carré est calculé en divisant la somme des carrés entre les groupes (ou inter groupes) par la somme totale des carrés.
Analyse de la variance à deux facteurs
Comme son nom l'indique, l'analyse de la variance à deux facteurs examine l'influence de deux facteurs sur une variable dépendante. Elle étend l'analyse de variance à un facteur en y ajoutant un facteur supplémentaire, c'est-à-dire une variable indépendante supplémentaire à échelle nominale. La question est à nouveau de savoir si la moyenne des groupes diffère de manière significative.
Variable dépendante | Variable indépendante | |
---|---|---|
Niveau de mesure | Une variable à échelle d'intervalle | Deux variables à échelle nominale |
Exemple | Consommation hebdomadaire de café |
Matière (mathématiques, psychologie, économie) et semestre (hiver, été) |
Exemple
Dans une usine de vis, une vis est produite par trois systèmes de production différents (facteur 1), en deux équipes (facteur 2). On veut maintenant déterminer si les installations de production ou les équipes ont une influence sur le poids des vis. Pour ce faire, il faut prendre 50 vis de chaque ligne de production et de chaque équipe et en mesurer le poids. L'ANOVA à deux facteurs permet de déterminer si le poids moyen des vis des trois lignes de production et des deux équipes est significativement différent l'un de l'autre.
Exemple avec DATAtab
Analyse de la variance à un facteur :
Vous voulez vérifier s'il y a une différence dans la consommation de café entre les étudiants de différentes matières. Pour ce faire, vous interrogez 10 étudiants de chaque filière.
Consommation de café | Sujet |
---|---|
21 | Mathématiques |
23 | Mathématiques |
18 | Économie |
22 | Économie |
... | ... |
Après avoir copié le tableau ci-dessus dans la calculatrice de test d'hypothèse, il suffit de cliquer sur Test d'hypothèse et de sélectionner les trois variables. Le résultat ressemble à ceci :
Analyse de variance à un facteur :
n | Moyenne | SD | |
---|---|---|---|
Math | 10 | 16.6 | 7.291 |
Economie | 10 | 19.8 | 4.131 |
Psychologie | 10 | 17.8 | 6.443 |
Total | 30 | 18.067 | 5.938 |
Somme des carrés | ddl | Carrés moyen | F | p | |
---|---|---|---|---|---|
Entre les groupes | 52.267 | 2 | 26.133 | 0.702 | 0.505 |
Au sein des groupes | 1005.6 | 27 | 37.244 | ||
Total | 1057.867 | 29 |