Test du khi-deux
Le test du Khi-deux est un test d'hypothèse utilisé pour déterminer s'il existe une relation entre deux variables catégorielles.
Qu'est-ce qu'une variable catégorielle? Les variables catégorielles sont, par exemple, le sexe, le journal préféré, la fréquence d'écoute de la télévision ou le niveau d'études le plus élevé d'une personne. Par conséquent, lorsque deux variables catégorielles doivent être testées pour déterminer s'il existe une relation, on utilise le test du khi-deux.
Définition:
Le test du khi-deux est un test d'hypothèse utilisé pour les variables catégorielles avec une échelle de mesure nominale ou ordinale. Le test du khi-deux vérifie si les fréquences observées dans l'échantillon diffèrent significativement des fréquences attendues. Les fréquences observées sont donc comparées aux fréquences attendues et leurs écarts sont examinés.
Supposons que nous voulions étudier s'il existe un lien entre le sexe et le niveau d'éducation le plus élevé. Pour ce faire, nous créons un questionnaire dans lequel les participants cochent leur sexe et leur niveau d'études le plus élevé. Le résultat de l'enquête est ensuite affiché dans un tableau de contingence.
Le test du Khi-deux est utilisé pour déterminer s'il existe une relation entre le sexe et le niveau d'études le plus élevé.
Hypothèse nulle et hypothèse alternative
L'hypothèse nulle et l'hypothèse alternative se traduisent alors par:
Hypothèse nulle: il n'y a pas de relation entre le sexe et le niveau d'éducation le plus élevé.
Hypothèse alternative: Il existe une corrélation entre le sexe et le niveau d'études le plus élevé.
Conseil: Sur DATAtab, tu peux calculer le test du khi-deux en ligne. Il suffit de se rendre sur la page Calculatrice de test du khi-deux.
Applications du test du khi-deux
Le test du khi-deux a plusieurs applications. Il peut être utilisé pour répondre aux questions suivantes:
1) Test d'indépendance
Deux variables catégorielles sont-elles indépendantes l'une de l'autre? Par exemple, le sexe a-t-il un impact sur le fait qu'une personne soit abonnée ou non à Netflix?
2) Test de distribution
Les valeurs observées de deux variables catégorielles sont-elles égales aux valeurs attendues? Une question pourrait être la suivante: l'abonnement à l'un des trois services de streaming vidéo Netflix, Amazon et Disney est-il supérieur à la moyenne?
3) Test d'homogénéité
Deux échantillons ou plus sont-ils issus de la même population? Une question pourrait être de savoir si les fréquences d'abonnement aux trois services de streaming vidéo Netflix, Amazon et Disney diffèrent selon les groupes d'âge.
Calculer le khi-deux
La valeur du khi-deux est calculée de la manière suivante:
Pour clarifier le calcul de la valeur du khi-deux, nous nous référons au cas suivant: Pour les variables 1 et 2 de catégorie A et B, une observation a été faite ou un échantillon existe. Nous voulons maintenant vérifier si les fréquences de l'échantillon correspondent aux fréquences attendues de la population.
Fréquence observée:
Variable 2 | |||
Catégorie A | Catégorie B | ||
Variable 1 | Catégorie A | 10 | 13 |
Catégorie B | 13 | 14 |
Fréquence attendue:
Catégorie A | Catégorie B | |
---|---|---|
Catégorie A | 9 | 11 |
Catégorie B | 12 | 13 |
Avec la formule ci-dessus, tu peux maintenant calculer le khi-deux:
Après avoir calculé le khi-deux, il faut connaître le nombre de degrés de liberté df. Ce nombre est donné par
avec
- p: nombre de lignes
- q: nombre de colonnes
À partir du tableau de la distribution du khi-deux, on peut maintenant lire la valeur critique du khi-deux. Pour un niveau de signification de 5 %, on obtient 3,841. Étant donné que la valeur du khi-deux calculée est plus petite, il n'y a pas de différence significative.
Comme condition préalable à ce test, il convient de noter que toutes les fréquences attendues doivent être supérieures à 5.
Test d'indépendance du khi-deux
Le test d'indépendance du khi-deux est utilisé lorsqu'il s'agit de tester l'indépendance de deux variables catégorielles. L'objectif est d'analyser si les valeurs caractéristiques de la première variable sont influencées par les valeurs caractéristiques de la seconde variable et vice versa.
Par exemple, le sexe a-t-il une influence sur le fait qu'une personne soit abonnée ou non à Netflix? Pour les deux variables sexe (homme, femme) et a un abonnement Netflix (oui, non), on teste si elles sont indépendantes. Si ce n'est pas le cas, il existe une relation entre les caractéristiques.
La question de recherche, à laquelle le test du Khi-deux permet de répondre, est la suivante: "Les caractéristiques du sexe et de la possession d'un abonnement Netflix sont-elles indépendantes? Les caractéristiques du sexe et de la possession d'un abonnement Netflix sont-elles indépendantes l'une de l'autre?
Pour calculer le khi-deux, il faut donner une fréquence observée et une fréquence attendue. Dans le test d'indépendance, la fréquence attendue est celle qui résulte de l'indépendance des deux variables. Si deux variables sont indépendantes, les fréquences attendues des cellules individuelles sont obtenues avec
où i et j sont respectivement les lignes et les colonnes du tableau.
Pour l'exemple fictif de Netflix, les tableaux suivants pourraient être utilisés. À gauche, le tableau des fréquences observées dans l'échantillon, et à droite, le tableau qui résulterait d'une indépendance parfaite.
Fréquence observée:
Homme | Femme | |
---|---|---|
Netflix Oui | 10 | 13 |
Netflix Non | 15 | 14 |
Fréquence attendue en cas d'indépendance:
Homme | Femme | |
---|---|---|
Netflix Oui | (23 - 25) / 52 = 11.06 | (23 - 27) / 52 = 11.94 |
Netflix Non | (29 - 25) / 52 = 13.94 | (29 - 27) / 52 = 15.06 |
Le Khi-deux est alors calculé comme suit
Le tableau du Khi-deux permet de lire à nouveau la valeur critique et de la comparer au résultat.
Les hypothèses pour le test d'indépendance du Khi-deux sont que les observations proviennent d'un échantillon aléatoire et que les fréquences attendues par cellule sont supérieures à 5.
Test de distribution du khi-deux
Si une variable comporte deux valeurs ou plus, les différences de fréquence des valeurs individuelles peuvent être examinées.
Le test de distribution du Khi-deux, ou test d'adéquation, vérifie si les fréquences des valeurs caractéristiques individuelles dans l'échantillon correspondent aux fréquences d'une distribution définie. Dans la plupart des cas, cette distribution définie correspond à celle de la population. Dans ce cas, on vérifie si l'échantillon provient de la population correspondante.
Pour les études de marché, il pourrait être intéressant de savoir s'il existe une différence dans la pénétration du marché des trois services de streaming vidéo Netflix, Amazon et Disney entre Berlin et l'ensemble de l'Allemagne. La fréquence attendue correspond donc à la distribution des services de streaming dans toute l'Allemagne et la fréquence observée résulte d'une enquête menée à Berlin. Les résultats fictifs sont présentés dans les tableaux suivants
Fréquence observée à Berlin:
Service vidéo | Fréquence |
---|---|
Netflix | 25 |
Amazon | 29 |
Disney | 13 |
Autres ou aucun | 20 |
Fréquence attendue (toute l'Allemagne):
Service vidéo | Fréquence |
---|---|
Netflix | 23 |
Amazon | 26 |
Disney | 16 |
Autres ou aucun | 22 |
Le Khi-deux donne alors le résultat suivant
Test d'homogénéité du Khi-deux
Le test d'homogénéité du Khi-deux peut être utilisé pour vérifier si deux échantillons ou plus proviennent de la même population. Une question pourrait être de savoir si la fréquence d'abonnement à trois services de streaming vidéo (Netflix, Amazon et Disney) diffère selon les groupes d'âge. À titre d'exemple fictif, une enquête est réalisée auprès de trois groupes d'âge et donne les résultats suivants
Fréquence observée:
Âge en années | 15-25 | 25-35 | 35-45 |
---|---|---|---|
Netflix | 25 | 23 | 20 |
Amazon | 29 | 30 | 33 |
Disney | 11 | 13 | 12 |
Autres ou aucun | 16 | 24 | 26 |
Comme pour le test d'indépendance du Khi-deux, ce résultat est comparé au tableau qui résulterait si les distributions des fournisseurs de streaming étaient indépendantes de l'âge.
Taille de l'effet dans le test du Khi-deux
Jusqu'à présent, nous savons seulement si nous pouvons rejeter l'hypothèse nulle ou non, mais il est souvent très intéressant de savoir quelle est la force de la relation entre les deux variables. On peut répondre à cette question à l'aide de l'intensité de l'effet.
Dans le test du Khi-deux, le V de Cramers peut être utilisé pour calculer l'ampleur de l'effet. Ici, une valeur de 0,1 est petite, une valeur de 0,3 est moyenne et une valeur de 0,5 est grande. DATAtab calcule bien sûr très facilement l'ampleur de l'effet.
Taille de l'effet | V de Cramér |
---|---|
Faible | 0.1 |
Moyen | 0.3 |
Grand | 0.5 |
Exemple de test du khi-deux
Test d'indépendance
Comme exemple de test du khi-deux où l'indépendance est testée, nous considérons l'utilisation des parapluies. Un jour de pluie, nous avons compté combien de femmes et combien d'hommes venaient à l'université avec un parapluie.
Sexe | Parapluie inclus |
---|---|
femme | oui |
homme | oui |
femme | oui |
femme | oui |
homme | oui |
homme | non |
femme | non |
homme | non |
femme | non |
femme | non |
homme | non |
femme | oui |
homme | oui |
femme | oui |
homme | oui |
homme | oui |
homme | non |
femme | non |
homme | non |
femme | non |
femme | non |
femme | non |
Question:
La différence entre l'utilisation d'un parapluie par les femmes et les hommes est-elle statistiquement significative ou aléatoire?
Voici comment fonctionne le calculateur de statistiques en ligne: Après avoir copié le tableau ci-dessus dans la calculatrice de tests d'hypothèses, tu peux calculer le test du khi-deux. Pour ce faire, il suffit de cliquer sur les deux variables Sexe et Parapluie. On obtient alors (1) le tableau de contingence, (2) la fréquence attendue pour des variables parfaitement indépendantes et (3) le test du khi-deux.
Parapluie inclus | ||||
---|---|---|---|---|
oui | non | Total | ||
Sexe | femme | 5 | 7 | 12 |
homme | 5 | 5 | 10 | |
Total | 10 | 12 | 22 |
Fréquences attendues pour des variables parfaitement indépendantes:
Parapluie inclus | ||||
---|---|---|---|---|
oui | non | Total | ||
Sexe | femme | 5.455 | 6.545 | 12 |
homme | 4.545 | 5.455 | 10 | |
Total | 10 | 12 | 22 |
Test du khi-deux | |
---|---|
khi-deux | 0.153 |
ddl | 1 |
p-Wert | 0.696 |
Avec un niveau de 5% et un degré de liberté de 1, le tableau des valeurs du khi-deux donne une valeur critique de 3,841. La valeur du khi-deux calculée étant inférieure à la valeur critique, il n'y a pas de différence significative dans cet exemple et l'hypothèse nulle est retenue. En termes de contenu, cela signifie que les hommes et les femmes ne diffèrent pas dans la fréquence de leur utilisation des écrans.
Test de distribution
Dans un quartier de Vienne, l'appartenance à un parti de 22 personnes a été enregistrée. Il s'agit maintenant de vérifier si les habitants de ce quartier (échantillon aléatoire) ont le même comportement électoral que les habitants de l'ensemble de la ville de Vienne (population).
Parti |
---|
Parti A |
Parti C |
Parti A |
Parti C |
Parti A |
Parti C |
Parti B |
Parti B |
Parti C |
Parti A |
Parti C |
Parti A |
Parti A |
Parti B |
Parti B |
Parti A |
Parti A |
Parti B |
Parti A |
Parti A |
Parti C |
Partie C |
Pour calculer le test du khi-deux pour l'exemple, il suffit de copier le tableau supérieur dans la calculatrice de test d'hypothèse.
Le parti A détient 40 % des parts de Vienne et le parti C 35 %. Tu obtiendras donc les résultats suivants:
Catégorie | n | Probabilité observée | Probabilité attendue | |
---|---|---|---|---|
Parti A | Parti A | 10 | 45.455% | 40% |
Parti C | 7 | 31.818% | 35% | |
Parti B | 5 | 22.727% | ||
Total | 22 | 100% |
Test du khi-deux | |
---|---|
Khi-deux | 0.264 |
ddl | 2 |
p | 0.876 |