I.3. ANALYSE DE LA VARIANCE (ANOVA)
A. GENERALITE
L'analyse de la variance terme souvent abrégé
par le terme anglais ANOVA : (analysis of variance) est un test
statistique permettant de vérifier que plusieurs échantillons
sont issus d'une même population. Ce test s'applique lorsque l'on mesure
une ou plusieurs variables explicatives catégorielles (appelées
alors facteurs de variabilité, leurs différentes modalités
étant parfois appelées « niveaux ») qui ont de
l'influence sur la distribution d'une variable continue à expliquer. On
parle d'analyse à un facteur lorsque l'analyse porte sur un
modèle décrit par un seul facteur de variabilité,
d'analyse à deux facteurs ou d'analyse multifactorielle sinon.
a. Principe
Le principe de l'interprétation statistique des
résultats reste cependant analogue à celui des tests des
hypothèses en ce sens que l'on testera toujours une hypothèse
nulle.
L'analyse de la variance permet d'étudier le
comportement d'une variable qualitative à expliquer en fonction d'une ou
de plusieurs variables nominales catégorielles. Lorsque l'on souhaite
étudier le comportement de plusieurs variables à expliquer en
même temps, on utilisera une analyse de la variance multiple (MANOVA).
b. Modèle
La première étape d'une analyse de la variance
consiste à écrire le modèle théorique en fonction
de la problématique à étudier. Il est souvent possible
d'écrire plusieurs modèles pour un même problème, en
fonction des éléments que l'on souhaite intégrer dans
l'étude.
Le modèle générale s'écrit : Yijk...
=
Avec Yijk... la variable expliqué, une
constante, une relation entre les
variables explicatives et on suppose que l'erreur suit une loi
normale : (0, 2)
~ 14 ~
c. Variables explicatives
On distingue deux types de variables catégorielles : avec
ou sans effet aléatoire.
Pour une variable à effet
fixe, pour chaque modalité, il existe une valeur fixe
correspondante. Elles s'écrivent dans le modèle théorique
avec une lettre majuscule :
=
avecA0= A pour i=0, A1=A pour i=1, etc.
Dans le cas d'une variable à effet
aléatoire, la variable est issue d'une loi supposée
normale qui s'ajoute à la valeur fixe. Elles s'écrivent dans le
modèle théorique avec une lettre grecque minuscule :
=
Avec = et 2)
Un modèle basé seulement sur des variables
explicatives à effets fixes et effets aléatoires est
appelé modèle mixte.
d. Hypothèses fondamentales
La forme générale de l'analyse de variance
repose sur le test de Fisher et donc sur la normalité des distributions
et l'indépendance des échantillons.
? Normalité de la distribution : on suppose, sous
l'hypothèse nulle, que les échantillons sont issus d'une
même population et suivent une loi normale. Il est donc nécessaire
de vérifier la normalité des distributions et
l'homoscédaticité (homogénéité des
variances, par des tests de Bartlett ou de
Levene par exemple). Dans le cas contraire, on pourra
utiliser les variantes non paramétriques de l'analyse de variance (ANOVA
de Kruskal-Wallis ou ANOVA
de Friedman).12
? Indépendance des échantillons : on suppose que
chaque échantillon analysé est indépendant des autres
échantillons. En pratique, c'est la problématique
12 B. Scherrer, Comparaison des moyennes de plusieurs
échantillons indépendants, tiré de Bio-statistiques,
Gaëtan Morin Éditeur. (1984)
~ 15 ~
qui permet de supposer que les échantillons sont
indépendants. Un exemple fréquent d'échantillons
dépendants est le cas des mesures avec répétitions (chaque
échantillon est analysé plusieurs fois). Pour les
échantillons dépendants, on utilisera l'analyse de variance
à mesures répétées ou l'ANOVA de Friedman pour les
cas non paramétriques.13
e. Hypothèses à tester
L'hypothèse nulle correspond au cas où les
distributions suivent la même loi normale. L'hypothèse alternative
est qu'il existe au moins une distribution dont la moyenne s'écarte des
autres moyennes :
H0 : m1=m2=...=mk=m ; H1 : (i, j) tel que mi mj
f. Décomposition de la variance
La première étape de l'analyse de la variance
consiste à expliquer la variance totale sur l'ensemble des
échantillons en fonction de la variance due aux facteurs (la variance
expliquée par le modèle), de la variance due à
l'interaction entre les facteurs et de la variance résiduelle
aléatoire (la variance non expliquée par le modèle).
2 étant un estimateur biaisé de la
variance, on utilise la somme des carrés des écarts
(SCE en français, SS pour Sum Square en anglais) pour
les calculs et l'estimateur non biaisé de la
variance (également appelé carré moyen ou
CM).
|