7) Tests d'hypothèse
Les principaux tests d'hypothèse examinés ici
portent sur la nullité d'un ou plusieurs paramètres du
modèle : la (ou les) valeur(s) estimée(s) par le maximum de
vraisemblance d'un ou plusieurs paramètres est-elle (sont-elles)
suffisamment éloignée(s) de 0 pour qu'on puisse en inférer
sans grand risque de se tromper que la (les) variable(s) correspondante(s) a
(ont) un effet sur le choix j ? En principe, puisqu'on a
utilisé la méthode du maximum de vraisemblance pour estimer les
paramètres, on a le choix entre plusieurs tests qui sont
équivalents à condition de disposer d'un échantillon
suffisamment important. En pratique, la méthode dépend du test
à effectuer :
· Si on a à tester la nullité d'un seul
paramètre, on emploiera la statistique de Student ;
· Si on a à tester la nullité
simultanée de plusieurs paramètres, il est plus commode
d'utiliser le test du rapport de vraisemblance.
a. Test de nullité d'un paramètre
On veut tester la nullité du paramètre y
attaché à une variable zj caractéristique de choix
dans un logit conditionnel, ou du paramètre äj d'une variable
individuelle, associé à la catégorie j, dans un
logit multinomial. Pour ce faire, on utilise la statistique de Student. Cette
statistique est égale au rapport de la valeur estimée du
paramètre à son écart-type estimé. Sa valeur
absolue mesure une « distance » à zéro du
paramètre estimé, compte tenu de l'aléa du fait qu'on
observe un échantillon d'individus. Plus elle est élevée,
plus faible est le risque de se tromper en affirmant que le paramètre
est non nul.
Avec un échantillon de taille importante, elle suit la
loi normale centrée réduite. Les valeurs-repères sont
traditionnellement 1.65 (si la valeur absolue de la statistique est
supérieure à 1.65, le risque de se tromper en affirmant la non
-nullité est inférieur à 10 %), 1.96 (risque
inférieur à 5 %) et 2.57 (risque inférieur à 1
%).
41
b. Test de nullité de plusieurs
paramètres
Si on veut tester la nullité simultanée de
plusieurs paramètres, on utilise le test du rapport de vraisemblance. En
toute généralité, il consiste à tester un
modèle avec K2 variables explicatives (modèle 2) contre un
modèle avec K1 variables explicatives (modèle 1), où les
variables du modèle 1 constituent un sous-ensemble des variables du
modèle 2 (donc K1< K2). On dit que le modèle 1 est
emboîté dans le modèle 2. L'idée est la suivante :
On part du modèle 1. On lui ajoute une ou plusieurs variables
explicatives pour aboutir au modèle 2. Ceci augmente sa vraisemblance :
un modèle explique mieux la réalité avec davantage de
variables explicatives. La vraisemblance du modèle 2 est donc
supérieure à celle du modèle 1. On aurait donc tendance
à choisir le modèle 2. Mais s'il se trouve que l'écart
entre les deux vraisemblances est insignifiant, alors on choisira le
modèle 1, car il explique aussi bien la réalité que le
modèle 2, mais avec moins de variables. On le retient si on
préfère les modèles parcimonieux.
Cette idée se traduit statistiquement de la
manière suivante : Soit L1 (resp L2) la vraisemblance du modèle 1
(resp modèle 2) obtenue avec les valeurs des paramètres
estimées par le maximum de vraisemblance. Une des
propriétés dérivées de l'estimation par le maximum
de vraisemblance est que la statistique -2 [ln L1-ln L2] suit asymptotiquement
la loi du ÷2 dont le nombre de degrés de liberté
est égal à la différence entre le nombre de
paramètres du modèle 2 et le nombre de paramètres du
modèle 1. Si la valeur de la statistique est faible, c'est-à-dire
si la « distance » entre les deux modèles n'est pas
suffisamment importante pour affirmer sans risque élevé de se
tromper que les deux modèles soient différents, alors on
préfèrera le modèle 1 au modèle 2.
|