t-Test, khi-deux, ANOVA, Régression, Corrélation...

Qu'est-ce qu'un test t pour échantillons indépendants ?

Le test t non apparié (ou test t indépendant) est un test statistique qui détermine s'il existe une différence entre deux groupes non apparentés.

Le test t non apparié est utilisé pour avoir un renseignement sur la population à partir de deux échantillons indépendants. Pour ce faire, la valeur moyenne des deux échantillons est comparée. Si la différence entre les moyennes est suffisamment importante, on suppose que les deux groupes sont différents.

Pourquoi le test t non apparié est-il nécessaire?

Supposons que l'on veuille tester s'il existe une différence entre deux groupes de la population, par exemple, s'il existe une différence de salaire entre les hommes et les femmes. Bien sûr, il n'est pas possible de demander à tous les hommes et à toutes les femmes de donner leur salaire, alors nous prenons un échantillon. Nous créons une enquête et l'envoyons au hasard à des personnes. Pour pouvoir avoir un renseignement sur la population à partir de cet échantillon, nous avons besoin du test t indépendant.

Comment fonctionne le test t non apparié ?

Le test t non apparié compare la différence moyenne à l'erreur standard de la moyenne. L'erreur standard de la moyenne indique à quel point la valeur moyenne est dispersée, elle indique à quel point la moyenne de l'échantillon des données est susceptible de s'éloigner de la véritable moyenne de la population. Si la fluctuation de la valeur moyenne est importante, cela indique qu'une grande différence entre les valeurs moyennes des deux groupes est très probable, même par hasard.

Différence moyenne dans le test t independant

Par conséquent, plus la différence moyenne entre les deux groupes est importante et plus l'erreur standard de la moyenne est petite, moins il est probable que la différence moyenne donnée entre les deux échantillons soit due au hasard.

Qu'est-ce qu'un échantillon indépendant ?

Il existe des échantillons indépendants si aucun cas ou personne d'un groupe ne peut être attribué à un cas ou une personne de l'autre groupe. C'est le cas, par exemple, lorsqu'on compare le groupe des femmes et le groupe des hommes, ou le groupe des étudiants en psychologie avec celui des étudiants en mathématiques.

Test t apparié ou non apparié

La principale différence entre le test t apparié et le test t non apparié est l'échantillon.

Si l'on dispose d'un seul et même échantillon interrogé à deux moments différents, on utilise un test t apparié.
Si l'on veut comparer deux groupes différents, qu'ils proviennent d'un seul ou de deux échantillons, on utilise un test t non apparié.

Exemples de tests t non appariés

Le test t indépendant a de nombreuses applications. Il s'agit d'un test important, par exemple en biostatistique ou en marketing.

Exemple médical :

Un laboratoire pharmaceutique souhaite vérifier si un médicament XY aide ou non à perdre du poids. Pour ce faire, on donne le médicament à 20 personnes et un placebo à 20 autres.

Exemple en sciences sociales :

On veut savoir s'il y a une différence entre la santé des personnes qui ont un diplôme universitaire et celle des personnes qui n'en ont pas.

Exemple technique :

Dans une usine de vis, on veut savoir si deux lignes de production produisent des vis de même poids. Pour ce faire, on pèse 50 vis provenant d'une machine et 50 vis provenant de l'autre machine et on les compare.

Question de recherche et hypothèses

Pour savoir si deux groupes indépendants sont différents, il faut calculer un test t non apparié. Toutefois, avant de pouvoir calculer le test t, il faut d'abord formuler une question de recherche et définir les hypothèses.

Question de recherche pour le test t non apparié

La question de recherche permet de limiter l'objet de l'enquête. Dans un test t pour des échantillons indépendants, la question générale est la suivante: Existe-t-il une différence statistiquement significative entre les valeurs moyennes de deux groupes ?

Dans les exemples ci-dessus, les questions de recherche sont les suivantes :

Le médicament XY aide-t-il à perdre du poids ?
Y a-t-il une différence dans la santé des personnes avec et sans diplôme universitaire ?
Les deux usines de production produisent-elles des vis de même poids ?

Hypothèses pour le test t pour échantillons indépendants

L'étape suivante consiste à déduire de la question les hypothèses à tester. Les hypothèses sont des suppositions sur la réalité dont la validité est possible mais pas encore prouvée. On formule toujours deux hypothèses qui affirment exactement le contraire. Ces deux hypothèses sont l'hypothèse nulle et l'hypothèse alternative.

Hypothèse nulle H₀	Hypothèse alternative H₁
Il n'y a pas de différence de moyenne entre les deux groupes de la population Les moyennes des deux populations sont égales. Les deux groupes sont issus de la même population H₀: μ₁ = μ₂ Exemple: Il n'y a pas de différence entre le salaire des hommes et celui des femmes	Il existe une différence de moyenne entre les deux groupes de la population Les deux moyennes de la population ne sont pas égales Les deux groupes ne sont pas issus de la même population H₁: μ₁ ≠ μ₂ Exemple: Il y a une différence entre le salaire des hommes et celui des femmes.

Hypothèse nulle H₀

Hypothèse alternative H₁

Il n'y a pas de différence de moyenne entre les deux groupes de la population

Les moyennes des deux populations sont égales.
Les deux groupes sont issus de la même population
H₀: μ₁ = μ₂

Exemple: Il n'y a pas de différence entre le salaire des hommes et celui des femmes

Il existe une différence de moyenne entre les deux groupes de la population

Les deux moyennes de la population ne sont pas égales
Les deux groupes ne sont pas issus de la même population
H₁: μ₁ ≠ μ₂

Exemple: Il y a une différence entre le salaire des hommes et celui des femmes.

Prémisses du test t pour échantillons indépendants

Pour calculer un test t indépendant, il faut une variable indépendante (par exemple le sexe) qui présente deux caractéristiques ou groupes (par exemple homme et femme) et une variable dépendante métrique (par exemple le revenu). Ces deux groupes doivent être comparés dans l'analyse. La question est de savoir s'il existe une différence entre les deux groupes en ce qui concerne la variable dépendante (par exemple, le revenu). Les prémisses sont maintenant les suivantes :

1. Les deux groupes ou échantillons doivent être indépendants

Comme le suggère le nom de ce test t, les échantillons doivent être indépendants. Cela signifie qu'une valeur dans un échantillon ne doit pas influencer une valeur dans l'autre échantillon.

Mesure du poids de personnes ayant suivi un régime et de personnes n'ayant pas suivi de régime.
Mesure du poids d'une personne avant et après un certain régime.

2. Les variables doivent être à l'échelle métrique

Pour le test t sur des échantillons indépendants, la valeur moyenne de l'échantillon doit être calculée, ce qui n'a de sens que si la variable est à échelle métrique.

Le poids d'une personne (en kg).
Le niveau d'études d'une personne.

3. Les variables doivent être normalement distribuées

Le test t pour les échantillons indépendants donne les résultats les plus précis lorsque les données de chaque groupe sont normalement distribuées. Il existe cependant des exceptions dans des cas particuliers.

Le poids, l'âge ou la taille d'une personne.
Le nombre obtenu après avoir lancé un dé.

4. La variance au sein des groupes doit être similaire

Étant donné que la variance est nécessaire pour calculer la valeur de t, la variance au sein de chaque groupe doit être similaire.

Le poids, l'âge ou la taille d'une personne.
La crise boursière en temps "normal" et en période de récession.

Hypothèses non respectées ?

Si les hypothèses du test t indépendant ne sont pas respectées, la valeur p calculée peut être incorrecte. Toutefois, si les deux échantillons sont de taille égale, le test t est assez robuste à une légère asymétrie des données. Le test t n'est pas robuste si les variances diffèrent de manière significative.

Si les variables ne sont pas normalement distribuées, le test U de Mann-Whitney peut être utilisé. Le test U de Mann-Whitney est la contrepartie non paramétrique du test t indépendant.

Calculer le test t pour des échantillons indépendants

Selon que la variance entre les deux groupes est supposée égale ou inégale, on obtient une formule différente pour la statistique du test t. La vérification de l'égalité ou de l'inégalité des variances se fait à l'aide du test t. L 'hypothèse nulle du test de Levene est que les deux variances ne sont pas différentes. Si la valeur p du test de Levene est inférieure à 5 %, on suppose qu'il existe une différence entre les variances des deux groupes.

Formule pour une variance égale (homogène)

Si le test de Levene donne une valeur p supérieure à 5 %, on suppose que les deux groupes ont la même variance et les statistiques du test sont :

La valeur p peut alors être déterminée à partir du tableau de la distribution t. Le nombre de degrés de liberté est donné par

où n₁ et n₂ sont à nouveau le nombre de cas dans les deux échantillons.

Formule pour une variance inégale (hétérogène)

La statistique de test t pour un test t sur échantillons indépendants avec variance inégale est calculée comme suit :

La valeur p découle alors du tableau avec la distribution t, où les degrés de liberté sont obtenus par l'équation suivante :

Intervalle de confiance pour la différence moyenne réelle

La différence moyenne calculée dans le test t indépendant a été calculée à partir de l'échantillon. Il est maintenant intéressant de savoir dans quelle fourchette se situe la véritable différence moyenne. Pour déterminer dans quelles limites la différence réelle est susceptible de se situer, on calcule l'intervalle de confiance.

L'intervalle de confiance à 95 % pour la différence moyenne réelle peut être calculé à l'aide de la formule suivante :

Intervalle de confiance Test t non apparié

où t^* est la valeur t obtenue à 97,5 % et les degrés de liberté df.

Test t unilatéral et bilatéral non apparié

Comme expliqué dans l'article sur les hypothèses, il existe des hypothèses unilatérales et bilatérales (également appelées hypothèses dirigées et non dirigées). Pour tenir compte de cela, il existe également un test t unilatéral et bilatéral pour les échantillons indépendants. Par défaut, le test t bilatéral non apparié est calculé, ce qui est également affiché dans DATAtab.

Pour obtenir le test t unilatéral pour échantillons indépendants, la valeur p doit être divisée par deux. Tout dépend maintenant si les données vont "dans le sens" de l'hypothèse ou non. Si l'hypothèse dit que la moyenne d'un groupe est plus grande ou plus petite que la moyenne de l'autre groupe, cela doit également se voir dans le résultat. Si ce n'est pas le cas, il faut calculer 1 moins la valeur p divisée par deux.

Test t non apparié : calcul de l'ampleur de l'effet

L'ampleur de l'effet dans un test t non apparié est généralement calculée à l'aide du g de Hedges, également appelé d. Le calculateur de test t non apparié sur DATAtab permet d'obtenir facilement l'ampleur de l'effet.

Pourquoi avoir besoin de la taille de l'effet ?

La valeur p calculée dépend fortement de la taille de l'échantillon. Par exemple, s'il existe une différence dans la population, plus la taille de l'échantillon est grande, plus la valeur p "montrera" clairement cette différence. Si la taille choisie de l'échantillon est très élevée, même de très petites différences, qui peuvent ne plus être pertinentes, peuvent être "détectées" dans la population. Pour normaliser cela, l'intensité de l'effet est utilisée en plus de la valeur p.

Calculer le test t pour des échantillons indépendants avec DATAtab

Une enseignante souhaite savoir si les résultats des examens de statistiques du semestre d'été diffèrent de ceux du semestre d'hiver. À cette fin, elle crée une vue d'ensemble des points obtenus par examen.

Question de recherche :

Existe-t-il une différence significative entre les résultats des examens du semestre d'été et du semestre d'hiver ?

Hypothèse nulle H0 :

Il n'y a pas de différence entre les deux échantillons. Il n'y a pas de différence entre les résultats des examens de statistiques au semestre d'été et au semestre d'hiver.

Hypothèse alternative H1 :

Il existe une différence entre les deux échantillons. Il y a une différence entre les résultats des examens de statistiques au semestre d'été et au semestre d'hiver.

Semestre d'été	Semestre d'hiver
52	53
61	71
40	38
46	34
50	68
56	68
44	46
47	41
70	38
40	23
65	28
38
68

Après avoir copié les données de l'échantillon ci-dessus dans la calculatrice de test d'hypothèse sur DATAtab, vous pouvez calculer le test t pour les échantillons indépendants. Les résultats de l'exemple de test t ressemblent à ceci :

Statistiques du groupe

	n	Moyenne	Écart-type	Erreur standard de la moyenne
Semestre d'été	13	52.077	11.026	3.058
Semestre d'hiver	11	46.182	16.708	5.038

Test t non apparié

		t	ddl	p
Semestre d'été et semestre d'hiver	Variance égale	1.035	22	0.312
Semestre d'été et semestre d'hiver	Variance inégale	1	16.824	0.331

Intervalle de confiance à 95

		Différence de valeur moyenne	Erreur standard de la différence	Inférieure	Supérieure
Semestre d'été et semestre d'hiver	Variance égale	5.895	5.893	-6,328	18.118
Semestre d'été et semestre d'hiver	Variance inégale	5.895	5.893	-6.55	18.34

Comment interpréter un test t pour des échantillons indépendants ?

Pour déterminer si l'hypothèse est significative ou non, on utilise l'une des deux valeurs suivantes :

la valeur p (bilatérale)
l'intervalle de confiance inférieur et supérieur de la différence

Dans cet exemple de test t, la valeur p (bilatérale) est de 0,312 ou 31 %. Cela signifie que la probabilité d'obtenir un échantillon dans lequel les deux groupes diffèrent davantage que les groupes de l'exemple est de 31 %. Le seuil de signification ayant été fixé à 5 %, il est donc inférieur à 31 %. Pour cette raison, on suppose qu'il n'y a pas de différence significative entre les deux échantillons et qu'ils proviennent donc de la même population.

La deuxième façon de déterminer s'il existe ou non une différence significative est d'utiliser l'intervalle de confiance de la différence. Si les limites inférieure et supérieure se recoupent, il n'y a pas de différence significative. Si ce n'est pas le cas, il y a une différence significative. Dans cet exemple de test t, la valeur inférieure est de -6,328 et la valeur supérieure de 18,118. Comme les valeurs inférieure et supérieure sont nulles, il n'y a pas de différence significative.

Il est courant d'afficher d'abord les deux échantillons dans un graphique avant de calculer un test t pour des échantillons indépendants. À cette fin, un diagramme en boîte convient, car il permet de très bien visualiser la mesure de la tendance centrale et la mesure de la variabilité des deux échantillons indépendants.

Test t pour échantillons indépendants