Test du khi-deux

Charger l'ensemble des données du test du khi-deux

Le test du Khi-deux est un test d'hypothèse utilisé pour déterminer s'il existe une relation entre deux variables catégorielles.

Qu'est-ce qu'une variable catégorielle? Les variables catégorielles sont, par exemple, le sexe, le journal préféré, la fréquence d'écoute de la télévision ou le niveau d'études le plus élevé d'une personne. Par conséquent, lorsque deux variables catégorielles doivent être testées pour déterminer s'il existe une relation, on utilise le test du khi-deux.

Définition:

Le test du khi-deux est un test d'hypothèse utilisé pour les variables catégorielles avec une échelle de mesure nominale ou ordinale. Le test du khi-deux vérifie si les fréquences observées dans l'échantillon diffèrent significativement des fréquences attendues. Les fréquences observées sont donc comparées aux fréquences attendues et leurs écarts sont examinés.

Supposons que nous voulions étudier s'il existe un lien entre le sexe et le niveau d'éducation le plus élevé. Pour ce faire, nous créons un questionnaire dans lequel les participants cochent leur sexe et leur niveau d'études le plus élevé. Le résultat de l'enquête est ensuite affiché dans un tableau de contingence.

Le test du Khi-deux est utilisé pour déterminer s'il existe une relation entre le sexe et le niveau d'études le plus élevé.

Hypothèse nulle et hypothèse alternative

L'hypothèse nulle et l'hypothèse alternative se traduisent alors par:

Hypothèse nulle: il n'y a pas de relation entre le sexe et le niveau d'éducation le plus élevé.

Hypothèse alternative: Il existe une corrélation entre le sexe et le niveau d'études le plus élevé.

Conseil: Sur DATAtab, tu peux calculer le test du khi-deux en ligne. Il suffit de se rendre sur la page Calculatrice de test du khi-deux.

Applications du test du khi-deux

Le test du khi-deux a plusieurs applications. Il peut être utilisé pour répondre aux questions suivantes:

1) Test d'indépendance

Deux variables catégorielles sont-elles indépendantes l'une de l'autre? Par exemple, le sexe a-t-il un impact sur le fait qu'une personne soit abonnée ou non à Netflix?

2) Test de distribution

Les valeurs observées de deux variables catégorielles sont-elles égales aux valeurs attendues? Une question pourrait être la suivante: l'abonnement à l'un des trois services de streaming vidéo Netflix, Amazon et Disney est-il supérieur à la moyenne?

3) Test d'homogénéité

Deux échantillons ou plus sont-ils issus de la même population? Une question pourrait être de savoir si les fréquences d'abonnement aux trois services de streaming vidéo Netflix, Amazon et Disney diffèrent selon les groupes d'âge.

Calculer le khi-deux

La valeur du khi-deux est calculée de la manière suivante:

Pour clarifier le calcul de la valeur du khi-deux, nous nous référons au cas suivant: Pour les variables 1 et 2 de catégorie A et B, une observation a été faite ou un échantillon existe. Nous voulons maintenant vérifier si les fréquences de l'échantillon correspondent aux fréquences attendues de la population.

Fréquence observée:

		Catégorie A	Catégorie B
		Variable 2
Variable 1	Catégorie A	10	13
	Catégorie B	13	14

Fréquence attendue:

	Catégorie A	Catégorie B
Catégorie A	9	11
Catégorie B	12	13

Avec la formule ci-dessus, tu peux maintenant calculer le khi-deux:

Après avoir calculé le khi-deux, il faut connaître le nombre de degrés de liberté df. Ce nombre est donné par

avec

p: nombre de lignes
q: nombre de colonnes

À partir du tableau de la distribution du khi-deux, on peut maintenant lire la valeur critique du khi-deux. Pour un niveau de signification de 5 %, on obtient 3,841. Étant donné que la valeur du khi-deux calculée est plus petite, il n'y a pas de différence significative.

Comme condition préalable à ce test, il convient de noter que toutes les fréquences attendues doivent être supérieures à 5.

Test d'indépendance du khi-deux

Le test d'indépendance du khi-deux est utilisé lorsqu'il s'agit de tester l'indépendance de deux variables catégorielles. L'objectif est d'analyser si les valeurs caractéristiques de la première variable sont influencées par les valeurs caractéristiques de la seconde variable et vice versa.

Par exemple, le sexe a-t-il une influence sur le fait qu'une personne soit abonnée ou non à Netflix? Pour les deux variables sexe (homme, femme) et a un abonnement Netflix (oui, non), on teste si elles sont indépendantes. Si ce n'est pas le cas, il existe une relation entre les caractéristiques.

La question de recherche, à laquelle le test du Khi-deux permet de répondre, est la suivante: "Les caractéristiques du sexe et de la possession d'un abonnement Netflix sont-elles indépendantes? Les caractéristiques du sexe et de la possession d'un abonnement Netflix sont-elles indépendantes l'une de l'autre?

Pour calculer le khi-deux, il faut donner une fréquence observée et une fréquence attendue. Dans le test d'indépendance, la fréquence attendue est celle qui résulte de l'indépendance des deux variables. Si deux variables sont indépendantes, les fréquences attendues des cellules individuelles sont obtenues avec

où i et j sont respectivement les lignes et les colonnes du tableau.

Pour l'exemple fictif de Netflix, les tableaux suivants pourraient être utilisés. À gauche, le tableau des fréquences observées dans l'échantillon, et à droite, le tableau qui résulterait d'une indépendance parfaite.

Fréquence observée:

	Homme	Femme
Netflix Oui	10	13
Netflix Non	15	14

Fréquence attendue en cas d'indépendance:

	Homme	Femme
Netflix Oui	(23 - 25) / 52 = 11.06	(23 - 27) / 52 = 11.94
Netflix Non	(29 - 25) / 52 = 13.94	(29 - 27) / 52 = 15.06

Le Khi-deux est alors calculé comme suit

Le tableau du Khi-deux permet de lire à nouveau la valeur critique et de la comparer au résultat.

Les hypothèses pour le test d'indépendance du Khi-deux sont que les observations proviennent d'un échantillon aléatoire et que les fréquences attendues par cellule sont supérieures à 5.

Test de distribution du khi-deux

Si une variable comporte deux valeurs ou plus, les différences de fréquence des valeurs individuelles peuvent être examinées.

Le test de distribution du Khi-deux, ou test d'adéquation, vérifie si les fréquences des valeurs caractéristiques individuelles dans l'échantillon correspondent aux fréquences d'une distribution définie. Dans la plupart des cas, cette distribution définie correspond à celle de la population. Dans ce cas, on vérifie si l'échantillon provient de la population correspondante.

Pour les études de marché, il pourrait être intéressant de savoir s'il existe une différence dans la pénétration du marché des trois services de streaming vidéo Netflix, Amazon et Disney entre Berlin et l'ensemble de l'Allemagne. La fréquence attendue correspond donc à la distribution des services de streaming dans toute l'Allemagne et la fréquence observée résulte d'une enquête menée à Berlin. Les résultats fictifs sont présentés dans les tableaux suivants

Fréquence observée à Berlin:

Service vidéo	Fréquence
Netflix	25
Amazon	29
Disney	13
Autres ou aucun	20

Fréquence attendue (toute l'Allemagne):

Service vidéo	Fréquence
Netflix	23
Amazon	26
Disney	16
Autres ou aucun	22

Le Khi-deux donne alors le résultat suivant

Test d'homogénéité du Khi-deux

Le test d'homogénéité du Khi-deux peut être utilisé pour vérifier si deux échantillons ou plus proviennent de la même population. Une question pourrait être de savoir si la fréquence d'abonnement à trois services de streaming vidéo (Netflix, Amazon et Disney) diffère selon les groupes d'âge. À titre d'exemple fictif, une enquête est réalisée auprès de trois groupes d'âge et donne les résultats suivants

Fréquence observée:

Âge en années	15-25	25-35	35-45
Netflix	25	23	20
Amazon	29	30	33
Disney	11	13	12
Autres ou aucun	16	24	26

Comme pour le test d'indépendance du Khi-deux, ce résultat est comparé au tableau qui résulterait si les distributions des fournisseurs de streaming étaient indépendantes de l'âge.

Taille de l'effet dans le test du Khi-deux

Jusqu'à présent, nous savons seulement si nous pouvons rejeter l'hypothèse nulle ou non, mais il est souvent très intéressant de savoir quelle est la force de la relation entre les deux variables. On peut répondre à cette question à l'aide de l'intensité de l'effet.

Dans le test du Khi-deux, le V de Cramers peut être utilisé pour calculer l'ampleur de l'effet. Ici, une valeur de 0,1 est petite, une valeur de 0,3 est moyenne et une valeur de 0,5 est grande. DATAtab calcule bien sûr très facilement l'ampleur de l'effet.

Taille de l'effet	V de Cramér
Faible	0.1
Moyen	0.3
Grand	0.5

Exemple de test du khi-deux

Test d'indépendance

Comme exemple de test du khi-deux où l'indépendance est testée, nous considérons l'utilisation des parapluies. Un jour de pluie, nous avons compté combien de femmes et combien d'hommes venaient à l'université avec un parapluie.

Sexe	Parapluie inclus
femme	oui
homme	oui
femme	oui
femme	oui
homme	oui
homme	non
femme	non
homme	non
femme	non
femme	non
homme	non
femme	oui
homme	oui
femme	oui
homme	oui
homme	oui
homme	non
femme	non
homme	non
femme	non
femme	non
femme	non

Question:

La différence entre l'utilisation d'un parapluie par les femmes et les hommes est-elle statistiquement significative ou aléatoire?

Voici comment fonctionne le calculateur de statistiques en ligne: Après avoir copié le tableau ci-dessus dans la calculatrice de tests d'hypothèses, tu peux calculer le test du khi-deux. Pour ce faire, il suffit de cliquer sur les deux variables Sexe et Parapluie. On obtient alors (1) le tableau de contingence, (2) la fréquence attendue pour des variables parfaitement indépendantes et (3) le test du khi-deux.

		Parapluie inclus
		oui	non	Total
Sexe	femme	5	7	12
	homme	5	5	10
	Total	10	12	22

Fréquences attendues pour des variables parfaitement indépendantes:

		Parapluie inclus
		oui	non	Total
Sexe	femme	5.455	6.545	12
	homme	4.545	5.455	10
	Total	10	12	22

Test du khi-deux
khi-deux	0.153
ddl	1
p-Wert	0.696

Avec un niveau de 5% et un degré de liberté de 1, le tableau des valeurs du khi-deux donne une valeur critique de 3,841. La valeur du khi-deux calculée étant inférieure à la valeur critique, il n'y a pas de différence significative dans cet exemple et l'hypothèse nulle est retenue. En termes de contenu, cela signifie que les hommes et les femmes ne diffèrent pas dans la fréquence de leur utilisation des écrans.

Test de distribution

Dans un quartier de Vienne, l'appartenance à un parti de 22 personnes a été enregistrée. Il s'agit maintenant de vérifier si les habitants de ce quartier (échantillon aléatoire) ont le même comportement électoral que les habitants de l'ensemble de la ville de Vienne (population).

Parti
Parti A
Parti C
Parti A
Parti C
Parti A
Parti C
Parti B
Parti B
Parti C
Parti A
Parti C
Parti A
Parti A
Parti B
Parti B
Parti A
Parti A
Parti B
Parti A
Parti A
Parti C
Partie C

Pour calculer le test du khi-deux pour l'exemple, il suffit de copier le tableau supérieur dans la calculatrice de test d'hypothèse.

Le parti A détient 40 % des parts de Vienne et le parti C 35 %. Tu obtiendras donc les résultats suivants:

	Catégorie	n	Probabilité observée	Probabilité attendue
Parti A	Parti A	10	45.455%	40%
	Parti C	7	31.818%	35%
	Parti B	5	22.727%
	Total	22	100%

Test du khi-deux
Khi-deux	0.264
ddl	2
p	0.876