Tests d'hypothèses

Les tests d'hypothèses sont des procédures statistiques, telles que le test t ou l'analyse de la variance, qui vous permettent de tester des hypothèses basées sur des données collectées.

Quand ai-je besoin d'un test d'hypothèse ?

Un test d'hypothèse est utilisé chaque fois que vous souhaitez tester une hypothèse sur la population à l'aide d'un échantillon. Les tests d'hypothèses sont donc utilisés chaque fois que vous souhaitez prouver ou affirmer quelque chose sur la population à l'aide d'un échantillon.

Population, échantillon et tests d'hypothèses

Par exemple, l'entreprise My-Muesli aimerait savoir si les barres de muesli qu'elle produit pèsent réellement 250 g. Pour ce faire, un échantillon aléatoire est prélevé et un test d'hypothèse est ensuite utilisé pour tirer des conclusions sur l'ensemble des barres de muesli produites.

En statistique, les tests d'hypothèse visent à vérifier des hypothèses sur la population sur la base des caractéristiques de l'échantillon.

Tests d'hypothèses et hypothèse nulle

Comme nous l'avons vu dans le précédent cours sur les hypothèses, il existe toujours une hypothèse nulle et une hypothèse alternative. En statistique inférentielle "classique", l'hypothèse nulle est toujours testée à l'aide d'un test d'hypothèse. L'hypothèse est testée pour voir s'il n'y a pas de différence ou de relation.

Si vous voulez être précis à 100 % (même DATAtab ne l'est pas toujours), l'hypothèse nulle H0 ne peut être rejetée ou non rejetée qu'à l'aide d'un test d'hypothèse. Le non-rejet de H0 n'est pas une raison suffisante pour conclure que H0 est vraie. Il faut donc toujours dire "H0 n'a pas été rejetée" et non "H0 a été retenue".

Anticiper brièvement la valeur p : si la valeur p est inférieure à 0,05, l'hypothèse nulle est rejetée ; si la valeur p est supérieure à 0,05, elle n'est pas rejetée.

Pourquoi existe-t-il une probabilité d'erreur dans un test d'hypothèse ?

Le rejet ou le non-rejet d'une supposition ou d'une hypothèse sur la population par un test d'hypothèse ne peut jamais être déterminé qu'avec une certaine probabilité d'erreur. Mais pourquoi cette probabilité d'erreur existe-t-elle ?

Voici la réponse courte : chaque fois que vous prélevez un échantillon, vous obtenez évidemment un échantillon différent, ce qui signifie que les résultats seront différents à chaque fois. Dans le pire des cas, on prélève un échantillon qui s'écarte très fortement de la population et on produit une affirmation erronée. Par conséquent, il existe toujours une probabilité d'erreur pour chaque affirmation ou hypothèse.

Niveau de signification

Un test d'hypothèse ne peut jamais rejeter l'hypothèse nulle avec une certitude absolue. Il existe toujours une certaine probabilité d'erreur que l'hypothèse nulle soit rejetée alors qu'en fait elle est vraie. Cette probabilité d'erreur est appelée niveau de signification ou α.

Le niveau de signification est utilisé pour décider si l'hypothèse nulle doit être rejetée ou non. Si la valeur p est inférieure au seuil de signification, l'hypothèse nulle doit être rejetée ; dans le cas contraire, elle ne doit pas être rejetée.

Habituellement, un seuil de signification de 5 % ou de 1 % est fixé. Si un seuil de signification de 5 % est fixé, cela signifie qu'il y a 5 % de chances de rejeter l'hypothèse nulle même si en fait elle est vraie.

Représenté par le test t à deux échantillons, cela signifie : les moyennes observées de deux échantillons ont une certaine distance l'une par rapport à l'autre. Plus la distance observée entre les valeurs moyennes est grande, moins il est probable que les deux échantillons proviennent de la même population. La question qui se pose maintenant est de savoir à partir de quel moment il est "suffisamment improbable" de rejeter l'hypothèse nulle. Si l'on fixe un seuil de signification de 5 %, il est "suffisamment improbable" de rejeter l'hypothèse nulle à 5 %.

La probabilité que deux échantillons soient tirés d'une même population et qu'ils présentent la différence moyenne observée, ou même une différence plus importante, est indiquée par la valeur p. En conséquence, si la valeur p est inférieure au seuil de signification, l'hypothèse nulle est rejetée ; si la valeur p est supérieure au seuil de signification, l'hypothèse nulle n'est pas rejetée.

Si, par exemple, on obtient une valeur p de 0,04, la probabilité que deux groupes ayant une distance moyenne observée ou une distance encore plus grande proviennent de la même population est de 4 %. La valeur p est donc inférieure au seuil de signification de 5 % et l'hypothèse nulle est donc rejetée.

Il est important de noter que le seuil de signification est toujours fixé avant le test et qu'il ne peut pas être modifié par la suite afin d'obtenir l'affirmation "souhaitée". Pour garantir un certain degré de comparabilité, le niveau de signification est généralement de 5 % ou de 1 %.

α ≤ 0,01 hautement significatif (h.s.)
α ≤ 0,05 significatif (s.)
α > 0,05 non significatif (n.s.)

Exemple du niveau de signification et de la valeur p

H0 : Les hommes et les femmes en Autriche ne diffèrent pas en ce qui concerne leur revenu net mensuel moyen.

Pour tester cette hypothèse, un seuil de signification de 5 % est fixé et une enquête est menée auprès de 600 femmes et 600 hommes pour les interroger sur leur revenu mensuel net. Un test t indépendant donne une valeur p de 0,04.

La valeur p de 0,04 est inférieure au seuil de signification de 0,05, ce qui nous permet de rejeter l'hypothèse nulle. Sur la base des données collectées, nous disposons de suffisamment d'éléments pour affirmer qu'il existe une différence statistiquement significative du revenu mensuel moyen entre la population respective d'hommes et de femmes en Autriche.

Types d'erreurs

Étant donné qu'une hypothèse ne peut être rejetée qu'avec une certaine probabilité, différents types d'erreurs peuvent se produire. En raison de la sélection de l'échantillon, il peut arriver que l'hypothèse nulle soit rejetée par hasard, bien qu'en réalité il n'y ait pas de différence, c'est-à-dire que l'hypothèse nulle est valide. Inversement, le résultat du test d'hypothèse peut également être que l'hypothèse nulle n'est pas rejetée, bien qu'en réalité il y ait une différence et donc que l'hypothèse alternative soit vraie.

Il existe donc deux types d'erreurs dans les tests d'hypothèses :

Erreur de type 1 : l'hypothèse alternative est acceptée alors que l'hypothèse nulle est valide.
Erreur de type 2 : l'hypothèse nulle est retenue alors que l'hypothèse alternative est valable.

Globalement, les cas suivants se présentent :

Significativité vs taille de l'effet

Nous savons maintenant que nous acceptons généralement l'hypothèse alternative lorsque la valeur p est inférieure à 0,05. Nous supposons alors qu'il y a un effet, par exemple une différence entre deux groupes.

Cependant, il est important de garder à l'esprit que ce n'est pas parce qu'un effet est statistiquement significatif qu'il est pertinent.

Si un très grand échantillon est prélevé et que la dispersion de l'échantillon est très faible, même une très petite différence entre deux groupes peut être significative, mais elle peut ne pas être pertinente pour vous.

Exemple :

Une entreprise vend des pizzas surgelées et souhaite vérifier si un emballage de meilleure qualité entraîne une augmentation des ventes.

Les données recueillies montrent que la valeur p est inférieure à 0,05 et qu'il y a donc une augmentation statistiquement significative.

L'entreprise peut donc supposer que l'emballage de meilleure qualité entraîne une augmentation statistiquement significative des ventes. Il est probable à moins de 5 % que cette augmentation ou une augmentation encore plus importante se produirait si l'emballage n'avait pas d'influence.

La question est maintenant de savoir si cette augmentation est également pertinente d'un point de vue économique. Il se peut que les revenus provenant de l'augmentation des ventes ne compensent pas les coûts plus élevés de l'emballage.

Par conséquent, il faut toujours se demander si un effet est significatif et s'il est pertinent.

Comment trouver le bon test d'hypothèse ?

Pour tester les hypothèses, il existe différentes procédures de test. Celles-ci sont divisées en fonction des niveaux de mesure de l'échantillon :

et, d'autre part, selon le nombre d'échantillons présents et la manière dont les échantillons sont liés les uns aux autres.

DATAtab vous aide à trouver le bon test, il vous suffit de sélectionner les données que vous souhaitez évaluer. En fonction du niveau d'échelle de vos données, DATAtab vous proposera le test approprié.

En fonction des variables sélectionnées, l'un des test suivants est calculé :

Test t pour un échantillon
Test t pour échantillons indépendants
Test t pour échantillons dépendants
Test de Khi-deux
Test binomial
ANOVA avec/sans mesures rép.
ANOVA à 2 voies avec/sans mesures rép.
Test de Wilcoxon
Test U de Mann-Whitney
Test de Friedman
Test de Kruskal-Wallis
...

Le tableau suivant énumère les procédures de test pertinentes. Si vous connaissez le niveau d'échelle des variables de votre hypothèse, vous pouvez voir dans le tableau quel test pourrait convenir.

	Niveau de mesure
	nominal	ordinal	métrique
Test binomial	1 x nominal
Test t pour un échantillon			1 x métrique
Test du khi-deux	1 x ou 2 x nominal
Test t pour les échantillons indépendants	1 x nominal avec deux catégories		1 x métrique
Test U de Mann-Whitney	1 x nominal avec deux catégories	1 x ordinal
Analyse de la variance à un facteur	1 x nominal avec plus de deux catégories		1 x métrique
Test de Kruskal-Wallis	1 x nominal avec plus de deux catégories	1 x ordinal
Corrélation de Pearson			2 x métrique
Corrélation de Spearman		2 x ordinal
Corrélation biserial de point	1 x nominal avec deux catégories		1 x métrique
Test t pour les échantillons dépendants			2 x métrique
Test de Wilcoxon		2 x ordinal
Analyse de la variance pour les mesures répétées			plus de 2 x métrique
Test de Friedman		plus de 2 x ordinal

Si une hypothèse de corrélation doit être testée, une analyse de corrélation est calculée. On utilise alors soit la corrélation de Pearson, soit la corrélation de Spearman.