Chapitre 2 :
Calibrage des tests d'évaluatio
Chapitre 2
Calibrage des tests d'évaluation
I. Principe de base
L'objectif de ce présent chapitre est de fournir une
méthode simple pour comparer, d'une manière objective, deux
groupes d'élèves ayant passé deux tests différents.
En effet, dans le cadre de notre études, l'estimation du score vrai a
pour but l'évaluation des capacités des élèves de
la manière la plus juste et équitable possible.
Ainsi, après estimation du modèle, on obtient
les valeurs de la variable latente ainsi que celles des paramètres de
difficulté et de discrimination des items pour des modèles
IRT.
Pour deux groupes d'élèves ayant
été évalués avec des tests d'acquisition
différents, il convient de mettre ces estimations sur une même
échelle afin de pouvoir les comparer. On utilise, dans ce cas, des items
communs aux deux tests. Ceci grâce à la particularité des
IRT qui mette sur une même échelle le niveau de difficulté
des items et la variable latente.
Soient deux groupes A et B évalués
respectivement par les tests d'acquisition X et Y. Ceux-ci ont en commun des
items qui forment un sous test W (confère le schéma ci-dessous).
L'un des groupes, en occurrence le groupe A, sera considéré comme
le groupe de référence. Les paramètres de
difficulté du sous-test W estimés dans les deux groupes seront
utilisés pour mettre les traits latents des individus du groupe B sur
l'échelle de groupe A. Selon le modèle utilisé dans
l'estimation, les transformations sont différentes. Pour celles-ci nous
utilisons des méthodes de calcul qui sont reprises par LINDA L. Cook et
Daniel R. Eignor dans leur document « IRT Equating Methods
».
II. Hypothèses
Pour pouvoir les mettre à l'échelle, il faut
vérifier quelques conditions (Angoff et Kolen):
1. le nombre d'items d'ancrage doivent correspondre à 20%
du nombre total d'items du test
2. les tests doivent mesurer les mêmes aptitudes
3. les tests doivent vérifier l'indépendance des
réponses aux items
4. les tests doivent être unidimensionnels
5. l'échantillon doit etre de taille suffisante (au moins
1800 élèves)
6. les items d'ancrage doivent etre placés dans le meme
ordre dans les deux tests
7. les items d'ancrage doivent etre représentatifs en
contenu et en valeurs statistiques des deux tests
8. les deux tests contiennent le meme nombre d'items
III. Méthodologie
III.1. Selon le modèle de Rasch
Dans ce modèle, les deux tests sont sur une même
échelle si la moyenne des paramètres de difficulté
estimés du test W est la même dans les deux groupes. Soit k le
nombre d'items communs on a:
On postule que les paramètres estimés du test Y
sont mis sur l'échelle du test X par les transformations suivantes :
P1* - P w(y) = P1 - Pw(x)
D'où
P1* = P1 - Pw(x) + Pw(y)
??
?? ?? ??~ = ?? ?? ?????? ??~ ?? ?????? ??~
???? *
|
=
|
?? ????
|
??~
|
+ ??
|
(1)
|
|
|
??
|
|
|
|
*
????
|
=
|
?? ????
|
??0
|
|
(2)
|
De même pour le trait latent è :
???? * = ?? ?? ?? (??) + ?? (3)
Ainsi, par un simple calcule on peut vérifier que :
???? ????*~ = ????(???? ??~) ;
avec ???? ????) la fonction de réponse à l'item j
de l'individu i qui s'exprime,
rappelons le, comme suit :
???? ????) =
|
?????? (???? ??? - ????))
?? + ?????? (???? ??? - ????))
|
Les coefficients A et B se déterminent à partir
de l'équation suivante :
?????? ??o - ????(??)
|
?????? ??) - ????(??)
=
????(??)
|
????(??)
|
Avec ????(??) et ???? (??)les variances du paramètre de
difficulté du sous test W estimés respectivement dans le groupe A
et B.
Sachant que ces paramètres de difficulté
vérifient l'équation (1) on tire les coefficients a et b:
??=
|
????(??)
|
et ?? = ?? ??(??) - ?? ??(??) ????(??)
????(??)
|
????(??)
|
On notera que pour le modèle à trois
paramètres on applique la même procédure pour l'indice de
difficulté ainsi que l'indice de discrimination. Vous devinerez que,
puisque le paramètre de pseudo-chance est déterminer à
partir de l'axe des ordonnés de la courbe caractéristique
c'est-à-dire indépendamment du trait latent, aucune mise à
l'échelle n'est requise ; il reste inchangé.
A partir du moment où les paramètres
estimés sont mis sur une même échelle, on peut calculer le
score vrai (true score) des deux groupes pour comparer ainsi leur niveau de
compétence. On obtient ainsi le score vrai estimé par la relation
suivante :
?? ?? = ?? ??
????
??=1 ??),
?? ?? = ?? ??
|