Test de normalité

L'une des hypothèses les plus courantes pour les procédures de test statistique est que les données utilisées doivent être normalement distribuées. Par exemple, si un test t ou une ANOVA doit être calculé, il faut d'abord vérifier si les données ou les variables sont normalement distribuées.

Si la distribution normale des données n'est pas donnée, les procédures ci-dessus ne peuvent pas être utilisées et les tests non paramétriques, qui ne nécessitent pas une distribution normale des données, doivent être utilisés.

Dans le cas d'une analyse de régression, les hypothèses de distribution normale sont également importantes, mais il est important que l'erreur commise par le modèle soit normalement distribuée et non les données elles-mêmes.

Comment tester la distribution normale?

La distribution normale peut être testée de manière analytique ou graphique. Les tests analytiques les plus courants pour vérifier la distribution normale des données sont les suivants:

le test de Kolmogorov-Smirnov
le test de Shapiro-Wilk
le test d'Anderson-Darling.

Pour le test graphique, on utilise soit un histogramme, soit le graphique Q-Q. Q-Q est l'abréviation de Quantile Quantile Plot, il compare la distribution réelle observée et la distribution théorique attendue.

Test analytique de la normalité des données

Pour tester analytiquement la distribution normale de vos données, il existe plusieurs procédures de test, les plus connues étant le test de Kolmogorov-Smirnov, le test de Shapiro-Wilk et le test d'Anderson Darling.

Analytically test data for normal distribution

Avec tous ces tests, vous testez l'hypothèse nulle selon laquelle vos données sont normalement distribuées. L'hypothèse nulle est donc que la distribution des fréquences de vos données est normalement distribuée. Pour rejeter ou ne pas rejeter l'hypothèse nulle, vous obtenez une valeur p à partir de tous ces tests. La grande question est de savoir si cette valeur p est inférieure ou supérieure à 0,05.

Si la valeur p est inférieure à 0,05, elle est interprétée comme un écart significatif par rapport à la distribution normale et vous pouvez supposer que vos données ne sont pas normalement distribuées. Si la valeur p est supérieure à 0,05 et que vous voulez être complètement propre d'un point de vue statistique, vous ne pouvez pas nécessairement dire que la distribution des fréquences correspond à la distribution normale, vous ne pouvez simplement pas réfuter l'hypothèse nulle.

Dans la pratique, même si la distribution n'est pas complètement propre, elle est toujours traitée de telle sorte qu'une valeur supérieure à 0,05 est supposée être une distribution normale. Néanmoins, il convient toujours d'examiner la solution graphique.

Pour votre information, vous pouvez utiliser le test de Kolmogorov-Smirnov et le test d'Anderson-Darling pour tester des distributions autres que la distribution normale.

Inconvénient des tests analytiques pour la distribution normale

Malheureusement, les procédures analytiques présentent un inconvénient majeur, ce qui explique pourquoi les méthodes graphiques sont de plus en plus utilisées.

Le problème est que la valeur p calculée est affectée par la taille de l'échantillon. Par conséquent, si vous avez un très petit échantillon, votre valeur p peut être beaucoup plus grande que 0,05, mais si vous avez un très très grand échantillon de la même population, votre valeur p peut être plus petite que 0,05.

Disadvantage of the analytical tests for normal distribution

Supposons que la distribution de votre population s'écarte très légèrement de la distribution normale. Vous obtiendrez alors une valeur p très élevée avec un très petit échantillon et supposerez donc que les données sont normalement distribuées. Cependant, si vous prenez un échantillon plus grand, la valeur p devient de plus en plus petite, même si les échantillons proviennent de la même population avec la même distribution. Avec un très grand échantillon, vous pouvez même obtenir une valeur p inférieure à 0,05 et donc rejeter l'hypothèse nulle d'une distribution normale.

Pour résoudre ce problème, vous devez utiliser de plus en plus les méthodes graphiques.

Test graphique de la distribution normale

Si la distribution normale est testée graphiquement, on examine soit l'histogramme, soit, mieux encore, le graphique QQ.

Si vous optez pour l'histogramme, vous tracez la distribution normale sur l'histogramme de vos données et vous voyez si la courbe de la distribution normale correspond à peu près à celle de la courbe de la distribution normale.

Toutefois, il est préférable d'utiliser ce que l'on appelle le tracé des quantiles ou tracé QQ en abrégé. Il s'agit ici de comparer les quantiles théoriques que les données devraient avoir si elles étaient parfaitement distribuées normalement et les quantiles des valeurs mesurées.

Si les données sont parfaitement normales, tous les points se situent sur la ligne. Plus les données s'écartent de la ligne, moins elles sont normalement distribuées.

En outre, DATAtab trace l'intervalle de confiance à 95 %. Si la totalité ou la quasi-totalité de vos données se situe dans cet intervalle, cela indique très clairement que vos données sont normalement distribuées. Vos données ne sont pas normalement distribuées si, par exemple, elles forment un arc et sont éloignées de la ligne dans certaines zones.

Tester la distribution normale dans DATAtab

Si vous testez la distribution normale de vos données avec DATAtab, vous obtenez l'évaluation suivante: vous obtenez d'abord les procédures de test analytiques clairement organisées dans un tableau, puis les procédures de test graphiques.

Si vous souhaitez tester la distribution normale de vos données, il vous suffit de copier vos données dans le tableau de DATAtab, de cliquer sur Statistiques descriptives et de sélectionner la variable dont vous souhaitez tester la distribution normale. Cliquez ensuite sur Test de la distribution normale et vous obtiendrez les résultats.

En outre, si vous calculez un test d'hypothèse avec DATAtab, vous pouvez tester les conditions préalables pour chaque test d'hypothèse. Si l'une des conditions préalables est la distribution normale, vous obtiendrez le test de distribution normale de la même manière.