WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

L'application de la théorie des réponses aux items dans la comparaison des résultats aux tests d'acquisition:cas du Cameroun

( Télécharger le fichier original )
par Karima BELHAJ
Institut national de statistique et d'économie appliquée Maroc - Ingénieur d'état 2012
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

ROYAUME DU MAROC
*-*-*-*-*
HAUT COMMISSARIAT AU PLAN
*-*-*-*-*-*-*-*

INSTITUT NATIONAL
DE STATISTIQUE ET D'ECONOMIE APPLIQUEE

Stage d'application

*-*-*-*-*

L'APPLICATION DE LA THEORIE DES REPONSES AUX
ITEMS DANS LA COMPARAISON DES RESULTATS AUX
TESTS D'ACQUISITION : CAS DU CAMEROUN

Préparé par : Mlle. BELHAJ Karima

Sous la direction de : M. VARLY Pierre (VARLYPROJECT)

Option : Actuariat-Finance

Année universitaire

2011/2012

Résumé

Résumé

La qualité de l'éducation et de la formation est une question qui revêt la plus haute priorité politique. On estime que des niveaux élevés de connaissances, de compétences et de qualifications sont des conditions fondamentales de la citoyenneté active, de l'emploi et de la cohésion sociale. La qualité de l'éducation a ainsi constitué une question prioritaire à analyser.

Le présent rapport présente une nouvelle approche permettant d'évaluer la qualité de l'éducation : la théorie des réponses aux items (TRI ou IRT de son acronyme anglais). Pour illustrer l'utilisation de cette théorie, cette étude se fera sur le cas du Cameroun à travers deux tests administrés aux élèves de 5ème année du primaire en 2005 et 2011.

Mots dles: Théorie de Réponses aux Items, Fiabilité, Unidimensionnalité, Test equating.

Dédicaces

Dédicaces

Ce travail est dédié à mes chers parents sans qui ces lignes

n'auraient guerre étaient écrites.

Je tiens également à le dédier à Ismail mon grand frère ainsi que mes amies : Salma El Hamri, Imane Motia, Imane Benajiba et Chaimae Belhadj en leurs souhaitant beaucoup de

succes...

Je vous aime tous du plus profond de mon coeur.

K.B

Remerciements

Remerciements

Avant d'entamer mon rapport, je tiens tout d'abord à adresser mes sincères remerciements à M. Varly P. pour m'avoir accordé toute sa confiance, pour le temps qu'il m'a consacré tout au long de cette période sachant répondre à toutes mes interrogations, sans oublier son soutien technique et ses précieuses remarques qui ont grandement contribué à améliorer la qualité de ce rapport

Je tiens également à exprimer ma plus profonde gratitude à l'équipe d'Education et Territoire Magreb pour leur accueil, leur sympathie, ainsi que leurs idées constructives. C'est avec un réel plaisir que j'ai effectué mon stage au sein de ses locaux

Je remercie tout particulièrement Justine, étudiante en économétrie à l'université lumiqre Lyon 2, stagiaire avec qui j'ai travaillé au sein des locaux Varlyproject.

D'une façon plus générale je remercie tous ceux qui ont participé de prés ou de loin au cheminement de ce modeste travail. Qu'ils trouvent ici l'expression de mes sentiments les plus sincères.

Table des matières

RESUME 3

DEDICACES 4

REMERCIEMENTS 5

TABLE DES MATIERES 6

LISTE DES FIGURES 9

LISTE DES TABLEAUX 10

LISTE DES GRAPHIQUES 11

LISTE DES ENCADRES 12

LISTE DES ABREVIATIONS 13

INTRODUCTION ET PROBLEMATIQUE 14

CHAPITRE PRELIMINAIRE : 17

I. Présentation de l'organisme d'accueil : VARLYPROJECT 18

CHAPITRE 1 : 20

I. Bref aperçus sur la théorie classique 21

II. Analyse des items 22

II.1. Principe 22

II.2. Analyse qualitative 22

II.3. Analyse statistique 23

II.3.1. I '1XpK1l1tIl&roJ?1IK 23

II.3.2. Le point bi-sérial 25

III. Théorie des réponses aux items 26

III.1. Limites de la théorie classique et principes fondamentales de la

théorie des réponses aux items 26

III.2. Hypothèse de la théorie des réponses aux items 27

III.2.1. L'unidimensionnalité 27

III.2.2. L'indépendance locale 28

III.2.3. La monotonocité 28

III.3. Formulation mathématique du modèle 29

III.3.1. Courbe caractéristique d'items 30

III.3.2. Interprétation des paramètres du modèle 32

a) Paramètre de difficulté 32

b) Paramètre de discrimination 33

c) Paramètre de pseudo chance 35

III.4. Les différents modèles IRT 36

III.4.1. Le modèle de Rasch 36

a) Propriétés du modèle 36

III.4.2. Le modèle à deux et trois paramètres 38

a) Le modèle à deux paramètres ou le modèle de BIRNBHAUM 38

b) Le modèle à trois paramètres 39

III.5. Estimation des paramètres avec les modèles IRT et test d'ajustement 39

III.5.1. Estimation des paramètres 39

a) L'estimation des paramqtres pour le modle de Rasch 39

Estimation des paramètres de difficulté des items : spécification du modèle

43

Estimation de la variable latente et spécification du modèle. 43

b) Estimation des paramètres de difficulté et de trait latent pour le modèle de BIRNBAUM. 44

III.6. L'ajustement du modèle aux données 44

III.6.1. Choix du modèle 45

III.6.2. Test d'ajustement 46

CHAPITRE 2 : 48

I. Principe de base 49

II. Hypothèses 50

III. Méthodologie 50

III.1. Selon le modèle de Rasch 50

III.2. Selon le modèle à deux paramètres 51

CHAPITRE 3 : 54

I. Analyse des items 55

I.1. Fiabilité et validité du test 55

I.2. Items discriminants 57

II. Validation des postulats de base de TRI 58

II.1. Unidimensionnalité 58

II.2. La monotonocité 60

III. Estimation des paramètres et tests d'ajustement 61

III.1. Choix du modèle 62

III.2. Ajustement du modèle 64

III.2.1. Ajustement graphique 64

III.2.2. Ajustement statistique 66

IV. Mise à l'échelle des tests 2005 et 2011 71

IV.1. Vérification des hypothèses de la mise à l'échelle 71

IV.2. Choix de la méthode de la mise à l'échelle 73

CONCLUSION 77

BIBLIOGRAPHIE 78

WEBOGRAPHIE 78

ANNEXES 80

ANNEXE I 81

ANNEXE II 82

ANNEXE III 86

Liste des figures

Liste des figures

Figure 1: courbe caractéristique d'item 31

Figure 2 : courbe caractéristique d'item d'un test de langue (courbe théorique vs courbe empirique) 32

Figure 3 : courbe caractéristique d'item ayant même pouvoire discriminant mais des niveaux de difficulté différents 33

Figure 4 : courbe caractéristique d'item ayant un même niveau de difficultémais des pouvoir discriminants différents 34

Figure 5 : courbes caractéristique d'items ayant des paramètres de pseudo-

chance différents 35

Figure 6: analyse en composante principale (avec STATA) 60

Liste des tableaux

Liste des tableaux

Tableau 1 : Modèles et hypothèses spécifiques 45

Tableau 2: L'alpha de Cronbach des 39 items du test de langue francophone

(modifié sur Excel 56
Tableau 3: Estimations des paramètres de difficulté et de discrimination selon le

modèle à deux paramètres 63
Tableau 4 : Les moyennes et variances des paramètres de difficulté et de

discrimination des cinq sous-échantillons sont affichées comme suit : 68
Tableau 5: L'indice de discrimination des 39 items du test de langue

francophone (modifié sur Excel) 82

Tableau 6: L'indice de discrimination des 26 items du test de mathématique 83

Liste des graphiques

Liste des graphiques

Graphique 1 : indice de discrimination des items du test de langue francophone

58

Graphique 2 : analyse en composante principale (avec R) 59

Graphique 3: courbe caractéristique des items du test langue francophone

(estimé selon le modèle de Rasch) 61

Graphique 4: courbes caractéristiques d'un item bien ajusté au modèle 65

Graphique 5: exemple d'un item qui ne s'ajuste pas bien aux données 65

Graphique 6 : CCI d'items anglophone et francophone ayants un même pourvoir discriminant et un même niveau de difficulté 70
Graphique 7 : CCI d'items anglophone et francophone ayants des niveaux de

difficulté différent mais un même pourvoir discriminant 70

Graphique 8: le score vrai estimé de 2005 vs le score vrai estimé de 2011 75

Graphique 9 : package Irtoys vs Résultats produit avec notre programme R 76

Liste des Encadrés

Liste des Encadrés

Encadré 1 : Notations et notions préliminaires à l'estimation 41

Encadré 2 : Choix du modèle avec R (Output) 62

Encadré 3 : Comparaison des modèles avec R 62

Encadré 4: Test d'ajustement avec R 66

Liste des abréviations

Liste des abréviations

AFD

Agence Française de Développement

AIC

Akaike Criterium Information

CCI

Courbe Caractéristique de l'Item

ID

Indice de Discrimination

IRT

Items Responses Theorie

MRI

Modèle de Réponses aux Items

OMD

Objectifs du Millénaire pour le Développement

ONU

Organisation des Nations Unies

PASEC

Programme l'Analyse du Système Educatif de la CONFEMEN

QCM

Question à Choix Multiple

TRI

Théorie de Réponses aux Items

Introduction et problématique

« Il nous reste encore un long chemin à parcourir pour intégrer les jeunes filles et donner du pouvoir aux femmes, pour promouvoir le développement durable et protéger les plus vulnérables» a déclaré le Secrétaire général de l'ONU, M. Ban Ki-moon. En effet, des études ont montré que parmi tous les ODM, c'est l'éducation des enfants, en particulier des filles, qui a le plus d'impact sur la lutte contre la pauvreté. C'est dans cette perspective que l'appui à l'éducation primaire a été une priorité pour différente institutions et associations internationales de développement, la Banque mondiale par exemple a mis l'éducation au premier plan de sa mission de lutte contre la pauvreté depuis 1962, elle constitue dans ce secteur la première source de financement extérieur pour le monde en développement.

Par conséquent, plusieurs recherches se sont penchées sur l'évaluation de l'éducation en général, et des acquis scolaires en particulier.

La recherche sur ces objets remplit plusieurs fonctions d'accompagnement de cette évolution : celle de prendre en compte et d'étayer la diversification des problématiques d'évaluation; celle de contribuer à l'approfondissement des méthodologies de l'évaluation, celle d'éclairer la production de connaissances. Ainsi, elle vise à insuffler au sein du système éducatif tout entier une nouvelle culture de l'évaluation fondée sur la recherche de la performance.

La mesure, c'est à dire l'assignation de grandeurs à des objets en respectant certaines propriétés de ceux-ci, a posé en psychologie des problèmes particuliers qui ont abouti au développement de solutions originales au sein de cette discipline. Ces méthodes se sont trouvées rassemblées dans la psychométrie qui définit les méthodes à mettre en oeuvre, depuis les dispositifs de collecte des données jusqu'à la définition de normes de fiabilité ; pour une présentation des théories et méthodes psychométriques.

Des modèles statistiques de mesure ont pris une place importante dans les recherches concernant l'évaluation quantitative de l'éducation. Ces modèles de mesure sont généralement regroupes en deux grandes familles : la théorie classique et la théorie « moderne » dites aussi théorie de réponse aux items TRI ou IRT (Item Response Theory).

Les modèles classiques sont basés sur la décomposition du score observé (qui est égal à la somme pondérée des réponses) en un vrai score et une erreur. Les modèles IRT sont des modèles linéaires généralisés qui décrivent la probabilité d'une réponse comme une fonction du trait psychologique :

L'aptitude mentale. Cette dernière est devenue, pour les psychométriciens contemporains, un moyen très en vogue, et assez prisé en vue d'une évaluation objective.

Dans cet esprit, notre stage d'application s'est articulé d'une part sur l'analyse par les différents modèles cités ci-dessus, des données provenant des tests administrés aux élèves et d'autre part sur son application, encore très récente, dans le cadre de la comparaison du niveau des élève issu de deux groupes différent. Le but étant ainsi de donner une idée du niveau individuel des élèves sur la base de leurs résultats.

Pour ce faire, et dans un premier chapitre, nous aurons à traiter deux sections. La première décrit, dans le cadre de la théorie classique, la manière de s'assurer de la validité et de la fiabilité des instruments de mesure des acquisitions scolaires des élèves. La deuxième expose, cette fois dans le cadre de la TRI, les différents modèles de mesure de l'éducation.

Dans le deuxième Chapitre, nous tenterons d'expliciter quelques méthodes de standardisation des tests afin de comparer deux groupes d'individu n'ayant pas passé le même test.

Pour illustrer l'importance de ces questions, cette étude se fera sur le cas du Cameroun à travers deux tests administrés aux élèves de 5ème année du primaire en 2005 et 2011 Ainsi, le troisième chapitre portera sur les différents résultats et constats en se basant sur ce qu'on a vu dans les chapitres précédent.

Le Cameroun ayant bénéficié d'une subvention de l'AFD de 50 millions d'euros à travers le programme Contrat de Désendettement et développement, la question est de savoir si ces investissements ont eu les effets escomptés sur la qualité des apprentissages : le niveau des élèves s'est-il maintenu entre 2005 et 2011. Les tests utilisés en 2005 et 2011 sont différents mais comportent quelques items communs. L'objectif du stage est donc de mettre sur une même échelle les deux tests afin de mesurer l'évolution du niveau des niveaux des élèves.

Chapitre préliminaire :

Contexte et justification du stage

Chapitre préliminaire

Contexte et justification du stage

I. Présentation de l'organisme d'accueil : VARLYPROJECT

Varlyproject est une SARL individuelle basée à Rabat, Maroc, spécialisée dans l'évaluation des acquis scolaires et l'analyse des données sur l'éducation. Varlyproject s'engage dans la recherche et le développement à travers un blog et la production d'articles pour le compte d'organisations non gouvernementales, comme le projet One Laptop Per Child. La principale activité de Varlyproject reste l'analyse de données sur l'éducation pour le compte de gouvernements ou d'organismes privées, où la société agit comme sous-contractant ou en contrat direct.

La société est dirigée par Pierre VARLY, statisticien, titulaire d'un Master en Econométrie et ayant plus de 10 ans d'expérience dans l'analyse de données sur l'éducation. En tant que coordonnateur du PASEC, à Dakar de 2005 à 2009, Monsieur VARLY a encadré une équipe de six jeunes statisticiens appuyée ponctuellement par des contractuels et des stagiaires. Le PASEC a pris régulièrement en stage deux stagiaires de l'école de statistique de Dakar, mais également accueilli des élèves de l'Ecole Polytechnique par le passé. Un des stagiaires, Makan Doumbouya, a reçu un prix international de Statistiques grâce à un article tiré de son stage. Les thèmes de ces stages de recherche tournent autour de l'amélioration des méthodes économétriques utilisées en éducation (pondérations, imputations, méthodes de pseudo panels, analyses multi niveaux, théorie de réponse à l'item). La théorie de réponse aux items et ses applications Le calcul des scores aux épreuves d'évaluation des acquis scolaires mobilise de plus en plus des techniques sophistiquées, regroupées au sein des modèles de réponse aux items. Il s'agit non plus de calculer un simple score ou une note mais de modéliser la relation entre la probabilité de réussir un item (un exercice) et l'aptitude des élèves.

De tels modèles permettent de tester la validité des tests utilisés mais permettent également de vérifier l'équivalence de versions de tests rédigés dans des langues différentes ou de produire une mesure comparable dans le temps, à partir d'items d'ancrage. Ces modèles sont largement utilisés dans le domaine de la psychométrie ou du marketing afin de mettre au point des profils de comportement.

Chapitre 1 :

Modèles de mesure

I. Bref aperçus sur la théorie classique

Le modèle de mesure dit classique permet d'évaluer jusqu'à quel point un score obtenu à un test reflète bien la compétence ou l'aptitude de l'individu en question.

L'équation de base du modèle classique est donnée par :

X = V + E

Où X est le score observé d'un individu, V est le score vrai de cet individu et E est l'erreur de mesure.

L'équation de base signifie que, selon le modèle classique, le score observé à un test est constitué de deux composantes additives : V et E. le score observé à un test est obtenu lors d'une administration particulière de ce test. Chaque individu qui a passé ce test, à ce moment particulier, a donc un score observé. Ce score observé varie d'une répétition à l'autre du même test. Typiquement le score observé peut être une fonction de la somme des items réussis d'un test lorsque ces items sont corrigés de façon dichotomique : 1 pour une bonne réponse 0 pour une mauvaise réponse (Bertrand R., BLAIS J. (2004), p.39).

Il est bon de souligner que :

- le score observé est variable d'une répétition à l'autre du test

- Le score vrai est intuitivement lié à un individu particulier et à un test particulier : ainsi le score vrai changera non seulement d'un individu à un autre mais aussi d'un test à l'autre.

- l'erreur de mesure est une entité non observable, inconnue, variable d'une

répétition à l'autre du test.

II. Analyse des items

II.1. Principe

Il est important dans toute évaluation d'examiner les items du test en question, afin de s'assurer que ce dernier appréhende bien la variable qu'on cherche à mesurer répondant ainsi aux deux critères de fiabilité et validité. Avant de développer cette analyse, nous allons expliquer brièvement ce que signifient ces deux concepts dans le cadre des évaluations psychométriques.

La fiabilité indique si un test est susceptible de produire les mêmes résultats s'il est administré à un même groupe de personnes testées plusieurs fois, de même s'il est administré à différentes population. On parle d'homogénéité ou de consistance interne des items (appréciée à partir de leurs inter-corrélations).

La validité indique si le test mesure bien ce qu'il prétend mesurer .Par exemple un test d'algèbre est censé mesurer uniquement les compétences des élèves en algèbre. Mais s'il comprend des problèmes de texte, un tel test peut être un défi pour les étudiants avec de faibles compétences en langue. Il mesurerait ainsi non seulement leurs compétences en algèbre mais aussi leurs compétences de langue, s'écartant ainsi de son objectif principal.

L'analyse des items se fait en deux étapes : une analyse qualitative et une analyse statistique.

II.2. Analyse qualitative

Nous appelons analyse qualitative la procédure à suivre pour évaluer le test à priori. Cet examen est essentiel dans l'élaboration du test. Il s'agit de tester les items sur un échantillon d'élève.

« En pratique, il n'est pas toujours possible de mettre le test à l'essai avec un groupe cobaye.par exemple si les individus du groupe cobaye savent que le test ne compte pas leur comportement risque de différer, situation susceptible d'affecter

les réponses aux items [...] biaisant de la sorte les résultats de l'analyse » (R. Bertrand, JG BLAIS, 2004 p.56).

II.3. Analyse statistique

Dans le cadre de la théorie classique on peut mesurer, à posteriori, la confiance à accorder aux données afin de s'assurer que le score qui représente l'acquisition, est calculé avec précision, avec un minimum d'erreur et de biais. En effet, les conditions de passation du test, le contexte particulier de l'évaluation (culture) et les caractéristiques du sujet peuvent être des sources potentielles de biais et d'erreur. Cette remarque est particulièrement valable dans le contexte camerounais où la variété sociolinguistique est très importante avec plus de 280 langues parlées.

Il s'agit ainsi d'identifier voire de rejeter les items aberrants, à savoir ceux qui n'apportent aucune valeur ajoutée au test ; autrement dit les items faiblement liés à notre variable latente, pire ceux qui y sont négativement liés.

Pour ce faire on a recourt à différents indices statistiques qui permettent de juger de la fiabilité du test dans son ensemble ainsi que la cohérence interne des items. Les indices les plus couramment utilisés sont l'indice bi-sérial et l'alpha de Cronbach. Rappelons que ces deux indices se rapportent à la théorie du score vrai.

II.3.1. I Ial1Ka Ie &ronbaIK

L'alpha de Cronbach est utilisé pour mesurer la cohérence interne des concepts tels qu'ils sont mis en oeuvre par les questions posées (les réponses aux questions portant sur le même sujet devant être corrélées). Il permet donc l'estimation de la fiabilité du test au niveau globale.

L'alpha de Cronbach se calcule en appliquant la formule suivante:

où k est le nombre d'items, est la variance du score total et est la

variance de l'item i.

Cronbach, l'inventeur de cet indice, a également développé un alpha standardisé qui s'exprime comme suit :

avec la moyenne des corrélations entre les k items.

Il s'agit d'une mesure de corrélation au carré entre les scores observés et les scores vrai. Autrement dit, la fiabilité est mesurée en termes de ratio de variance. Un test fiable doit minimiser l'erreur de mesure de telle sorte que l'erreur n'est pas fortement corrélée avec le score vrai. D'autre part, la relation entre le score vrai et le score observé doit être forte l'alpha de Cronbach examine cette relation.

Il varie entre 0 et 1 et plus le test est fiable, plus l'alpha est proche de 1. En pratique on valide les données si l'alpha de Cronbach est supérieur ou égale à 0,8. Cependant et bien que la littérature ne fasse pas état de consensus sur le sujet, beaucoup d'auteurs considèrent qu'une valeur alpha supérieure à 0,7 est satisfaisante, un coefficient supérieur à 0,9 tendant à montrer une redondance entre items.

L'alpha de Cronbach n'est pas un test statistique c'est un coefficient de fiabilité (ou consistance). Cependant, un alpha élevé ne signifie pas que la mesure est unidimensionnelle1. Si, en plus de mesurer la cohérence interne, on souhaite apporter la preuve que l'échelle en question est unidimensionnelle des analyses supplémentaires peuvent être effectuées. Cette approche permet de repérer les poires au milieu d'un

1 Voir III.2.1.

panier de pommes, c'est-à dire les items qui ne s'inscrivent pas dans la meme dimension que les autres ou qui ne mesure pas la même compétence.

II.3.2. Le point bi-sérial

Le point-bi-sérial (rpbis) décrit la cohérence d'un item par rapport à l'objectif global du test dans lequel il s'inscrit. Il est un indice de discrimination2, de précision (fidélité) d'un item. Il varie entre -1 et +1, cependant le seuil de validité est généralement fixé à 0,2.

oil :

Al1 représente la moyenne des scores totaux pour les seuls sujets qui ont réussi l'item j,

Al2 représente la moyenne des scores totaux pour les seuls sujets qui ont échoué à l'item j,

n1 le nombre de sujets dans le groupe 1,

n2 le nombre de sujets dans le groupe 2,

Sn est la déviation standard utilisée lorsque vous avez des données pour chaque membre de la population:

Il existe une certaine relation entre ces deux indicateurs. Plus un test est composé d'items aux valeurs de point bi-sérial faibles, plus l'alpha est faible et moins le test est fiable. Cette relation va nous servir dans la validation des données.

2 Voir b)

III. Théorie des réponses aux items

III.1. Limites de la théorie classique et principes fondamentales de la

théorie des réponses aux items

Dans de nombreux domaines en sciences humaines et sociales, les chercheurs et les praticiens sont amenés à mettre au point divers dispositifs ou instruments d'évaluation destinés à recueillir des données quantitatives : tests, épreuves, échelles, questionnaires. Ce faisant, ils doivent s'assurer de la fiabilité des mesures qu'ils obtiennent.

La théorie de la réponse à l'item (TRI), développée au début des années 1960, est apparue comme une réponse aux limites de la théorie classique des tests et notamment à la dépendance existant entre les différentes mesures (estimations) et l'échantillon.

La TRI offre des techniques pour construire une échelle de mesure invariante, rendant possible une mesure objective de traits psychologiques. Le principe fondamental de cette théorie est que personnes et items peuvent être localisés sur un même continuum latent qui décrit simultanément la compétence de la personne et la difficulté de l'item. La non-dépendance à l'échantillon tient au caractère linéaire et invariant de l'échelle qui autorise l'addition ultérieure d'items mesurant le même trait latent.

Ainsi la TRI s'efforce de produire une estimation des propriétés de l'item qui soit indépendante d'un groupe particulier d'individus. En d'autres termes, elle cherche à élaborer des instruments de mesure dont les caractéristiques ne soient pas excessivement influencées par tel ou tel autre groupe de référence.

Cette propriété d'invariance est le coeur même de la justification de l'utilisation des modèles de la théorie des réponses. Une de ses applications, thème de stage, est la mise à l'échelle de deux tests différents passés à deux époques distinctes.

Par ailleurs, la TRI permet d'obtenir des erreurs d'estimation séparées pour chaque item et pour chaque personne, il sera possible alors de quantifier les sources d'erreurs et d'identifier les plus importantes afin de les corriger. Rappelons que dans la théorie du score vrai l'erreur de mesure est estimée globalement dans le test elle n'est pas différentiable mais estimée globalement sur les items du test.

Enfin, la TRI permet de calibrer la difficulté des items indépendamment des répondants cibles.

Une des reproches que les praticiens adressent à la TRI, notamment dans les pas du Sud, est sa relative complexité de mise en oeuvre. Ce rapport s'inscrit dans la suite des travaux initiés par le PASEC pour vulgariser ces techniques dans l'espace francophone.

III.2. Hypothèse de la théorie des réponses aux items

L'IRT repose sur trois hypothèses fondamentales : l'unidimensionnalité, la monotonicité et l'indépendance globale.

III.2.1. I VKidiPHKliRKK3lit'

La TRI postule l'unidimensionnalité de l'instrument de mesure (le test) auquel elle est appliquée. Concrètement cela suppose que tous les items contribuent à appréhender chez les élèves un unique attribut: leur niveau de compétence.

Il existe différente approches qui permettent d'évaluer la validité de cette hypothèse, parmi lesquelles on peut citer le coefficient alpha de Cronbach ou l'analyse factorielle et notamment l'analyse en composantes principales.

III.2.2. / 'iXCaliCDXFl lRFDll

En TRI, la validité des estimations relatives aux caractéristiques des individus suppose que la condition dite d'indépendance locale soit satisfaite ; condition selon laquelle, pour un niveau d'aptitude donné, les réponses d'un sujet sont statistiquement indépendantes, c'est-à-dire que la performance (échec ou réussite) à chaque item n'est pas influencée par la performance relative aux restes items.

Ainsi pour un niveau de compétence donné, la corrélation entre les résultats des individus à deux items quelconques doit être nulle ou, tout au moins, proche de zéro.

En termes de probabilité elle se traduit par la relation suivante :

III.2.3. La monotonocité

La monotonocité concerne la fonction de réponse aux items, elle doit être non décroissantes et monotone du trait latent thêta, en d'autres termes, on doit avoir :

????(?????? = ??????/?? ??,????) > 0

?? ????

oil íj est un vecteur de param~tres caractérisant l'item j.

Aussi, il est important de signaler que La taille de l'échantillon est un facteur à prendre en compte car plus le modèle est complexe, plus il nécessitera de sujets. Avec des échantillons de 100 à 200 personnes, le modèle de Rasch est le

seul choix possible. Le modèle à deux paramètres demandera au moins trois fois plus de sujets, et le modèle à trois paramètres dix fois plus (Jones, 1992).

Dans notre cas, nous avons des échantillons de 2361 élèves en 2005 et 2553 élèves en 2011.

III.3. Formulation mathématique du modèle

En psychométrie les modèles IRT décrivent la relation entre la probabilité de répondre correctement à un item et l'aptitude de l'élève. Il s'agit d'une relation non linéaire dont la formulation dépend d'un certain nombre de facteurs et notamment du nombre de paramètres que le modèle comporte.

La formulation mathématique générale s'exprime comme suit :

?? ?????? = ?? = ???? + ?? - ???? .?? ???? ??? - ???? )

· F représente la fonction de répartition d'une loi de probabilité.

· Xij la réponse de l'individu i à la question j (i = 1,...,n et j = 1,...,k)

· ?? ??????= ?? est la probabilité que l'individu i réponde correctement à l'item j

· ??? est (?? ?° ??) un scalaire qui représente le niveau d'acquisition scolaire de l'individu i, étant supposé normalement distribué au sein de la population, il est exprimé sur une échelle de scores, dont les valeurs sont pratiquement comprises entre -3 et +3 (distribution centrée et réduite).

· ???? est un scalaire (????° ??) qui représente le niveau de difficulté de l'item j ;

· ???? est un scalaire positif (???? ° ??) qui représente le pouvoir discriminant de la question j

· ?? ??°[0;1[ , appelé paramètre de pseudo-chance est introduit dans le modèle

quand on suppose que les répondants ont la possibilité de trouver par hasard la réponse correcte à la question. Cela est particulièrement valable dans les tests composés de Questions à Choix Multiples (QCM).

Les pionniers de la théorie ont approximé les modèles IRT par une fonction logistique du type :

?? ?????? = ?? = ???? + ?? - ????

?????? ?? ?? ??? - ???? )
?? + ?????? ???? ??? - ???? )

Les modèles Logit sont autant utilisés pour des items à réponses dichotomiques que pour des items à réponses polytomiques. On entend par items à réponses dichotomiques une question qui n'a que deux possibilité de réponse: une réponse correcte qui est codée 1 et une réponse fausse qui est codée 0. Cependant, il ne s'agit pas d'une attribution de valeurs comme dans les bases de données où l'on recode, par exemple, le sexe 0=féminin et 1=masculin. Un score dichotomique est un score basé sur les valeurs 0 et 1, où 1 a une valeur réelle plus élevée que 0. Puisque les données que nous utilisons portent sur des items à réponses dichotomique on ne travaillera que dans ce sens.

Notons que dans la littérature on retrouve d'autres formulations mathématiques, cependant les modèles Logit sont les plus souvent utilisés dans la mesure où ils sont simples à manipuler aussi les choisira t-on dans le cadre de ce présent travail.

En se basant sur cette formule il est facile de voir que plus le sujet se situe à un niveau élevé sur le trait, plus sa probabilité de réussir l'item augmente.

III.3.1. Courbe caractéristique d'items

La TRI postule que la performance (réussite ou échec) à un item peut être expliquée par un facteur appelé trait latent noté è, il s'agit dans notre cas de l'aptitude cognitive en langue. Graphiquement, cette relation est représentée par une courbe appelé courbe caractéristique d'un item, la courbe prend souvent la forme suivante :

Figure 1: courbe caractéristique d'item

Source : Richard Bertrand(2004), p.111

L'axe des abscisses représente le trait latent qui est, dans le cadre de la mesure des acquis scolaires, la compétence de l'élève. En ordonné est représentée la probabilité de réussir à l'item. Le trait latent étant supposé normalement distribué au sein de la population, il est exprimé sur une échelle de scores z, dont les valeurs sont pratiquement comprises entre -3 et +3 (distribution centrée réduite). On remarque que pour un trait latent qui est de l'ordre de -3 la probabilité de réussite est presque nulle tandis qu'elle est proche de 1 pour des très latents prochent de 3.

On remarque aussi l'existence d'un point d'inflexion aux milieux de la courbe, ce point indique que 50% des élèves d'habilité moyenne (è=0) ont réussi cet item. Toutefois gardons à l'esprit que ce graphique représente la modélisation théorique et non des données empiriques, c'est un cas quasi-idéal d'un MRI.

Notons également, que l'allure de la CCI dépend des caractéristiques métriques de l'item ainsi au simple regard à la courbe on peut évaluer les qualités psychométrique de ce dernier (voir figure 2).

Figure 2 : courbe caractéristique d'item d'un test de langue (courbe

théorique vs courbe empirique)

III.3.2. Interprétation des paramètres du modèle

Dans les modèle IRT chaque item est caractérisé pas trois indices à savoir l'indice de difficulté, l'indice de discrimination et l'indice de pseudo-chance. Chacun de ces indices décrit une propriété particulière de l'item auquel ils sont associés.

a) Paramètre de difficultéComme son nom l'indique ce paramètre exprime le degré de difficulté de

l'item. Il est défini par convention comme la valeur de thêta qui correspond à une probabilité de réussite exactement égale à 0.5. C'est précisément cette valeur de thêta qu'on appelle paramètre de difficulté de l'item.

Figure 3 : courbe caractéristique d'item ayant même pouvoire

discriminant mais des niveaux de difficulté différents

Source : Richard Bertrand et jean-gays Blais (2004) p. 128

Cette figure montre que plus la CCI se trouve à droite plus l'item est difficile, ainsi l'item 3 est plus difficile que l'item 2, lui-même plus difficile que l'item 1. Aussi, on peut voir que ces courbes ne se coupent pas, elles sont translatées les unes par rapport aux autres. Cela signifie qu'un seul paramètre influence la réponse des individus à la question.

b) Paramètre de discrimination

La discrimination de l'item renseigne sur la qualité et la quantité d'information apportées par l'item pour déterminer la compétence du sujet. Un item au pouvoir discriminant élevé apporte beaucoup d'information sur la compétence du sujet, un item peu discriminant renseigne peu sur la compétence du sujet.

La valeur de ce paramètre est proportionnelle à la pente de la CCI au point d'inflexion I. Ainsi plus la pente est abrupte plus l'item discrimine mieux.

Figure 4 : courbe caractéristique d'item ayant un même niveau de

difficulté mais des pouvoir discriminants différents

Source : http://luna.cas.usf.edu/~mbrannic/files/pmet/irt.htm, accédé le 9 septembre 2011.

Le pouvoir discriminant est un des principaux critères de sélection des items pour la construction définitive d'une épreuve.

On notera que la théorie du score vrai propose aussi une définition de l'indice de discrimination (comme étant le score des 27% des élèves les plus forts - le score des 27% les plus faibles. Dans cet optique, Ebel (1954) propose les valeurs repère suivantes pour interpréter ce coefficient :

0,40 et plus => item discrimine très bien ;

0,30 à 0,39 => item discrimine bien ;

0,20 et 0,29 => item discrimine peu ;

0,10 et 0,19 => item-limite. A améliorer ;

Inf. à 0,10 => item n'a aucune utilité.

c) Paramètre de pseudo chance

Comme on est dans un modèle portant sur des items dichotomiques il est essentiel d'introduire le paramètre de réponse au hasard. En terme mathématique, ce paramètre est égal à la probabilité de réussir un item avec un niveau d'habilitétrès faible. La figure ci-dessous illustre un exemple de trois courbes produites à partir d'un modèle à trois paramètres :

Figure 5 : courbes caractéristique d'items ayant des paramètres de pseudo-chance différents

Source : Richard Bertrand et jean-gays Blais (2004) p. 135

On remarque que la probabilité de réussir un item varie surtout pour les élèves les plus faibles.

De par leur nature, les tests à QCM ont des paramètres de pseudo chances supérieurs à des items à questions ouvertes (portant sur le même stimulus).

III.4. Les différents modèles IRT

On distingue habituellement trois grands types de modèle : le modèle logistique à un paramètre plus connu sous le nom du modèle de Rasch et les modèles à deux (Birnbaum) et trois paramètres. Ces modèles regroupés sous l'appellation générique de modèles de riSRnsHLIj LIl'LJHm (MRI) - Item Response Modeling (IRM) en anglais -- ont été créés il y a une trentaine d'années. Il faut signaler qu'ils ont été « inventés » à peu près simultanément et de manière indépendante au Danemark par le mathématicien Georg Rasch (1960) qui cherchait un modèle permettant de comparer des compétences d'élèves en lecture à plusieurs années d'intervalle et, aux États-Unis, par le statisticien Allan Birnbaum (1959, cité dans Birnbaum, 1968) qui cherchait à améliorer les modèles de mesure en psychométrie.

Des modèles comportant un nombre de paramètres supérieur à trois sont cités par certains auteurs. Nous n'en parlerons pas ici, car ils sont très peu utilisés en sciences de l'éducation.

III.4.1. Le modèle de Rasch

Le modèle de Rasch est un des modèles les plus simplifiés de l'IRT puisque chaque item est modélisé par un paramètre unique appelé le paramètre de difficulté de l'item. Il s'écrit comme suit :

?? ?????? = ?? =

?????? ??? - ???? )

??+ ?????? ??? - ???? )

a) Propriétés du modèle

Les défenseurs du modèle à un paramètre ou modèle de Rasch revendiquent que seul ce modèle permet d'obtenir une mesure objective et exhaustive. De plus, il est plus facile à manipuler mais les données doivent répondre à de nombreuses contraintes.

Une mesure objective

G. Rasch argumentait que l'estimation de la difficulté des items et de la compétence des sujets étaient indépendantes, ce qui fondait, selon lui, le concept d'objectivité3 spécifique. Quels que soient les items passés par un sujet, on obtiendra une même estimation de sa compétence. Quels que soient les groupes de sujets auxquels l'item a été administré, on obtiendra une même estimation de sa difficulté.

Le modèle de Rasch n'est pas un `modèle de données', mais une `définition de la mesure'. En d'autres termes, avec le modèle de Rasch, si les items du test ne correspondent pas au modèle, ce sont les items qui posent problème et non le modèle. Par opposition, les modèles plus complexes sont perçus comme imposant des contraintes arbitraires sur les valeurs que les paramètres peuvent prendre dans le processus d'estimation (Jones, 1992). Selon Bond et Fox (2001), « c'est précisément l'addition de paramètres supplémentaires qui dépouille les données de leurs propriétés fondamentales de mesure » (p. 191, trad.).

En termes mathématiques cette propriété s'exprime comme suit : étant donné deux individu i1et i2, la probabilité que le premier donne une réponse correcte à l'item j et que le deuxième y donne une réponse correcte sachant que l'un des deux y a répondu positivement est indépendante du paramètre de difficulté de l'item en question :

??(?????? = ??,?????? = ??/???? = ??) = ???????(??????)

?????? ??????~+???????(??????)

Une mesure exhaustive

Cette propriété4 est très importante dans la mesure où elle justifie l'utilisation du score observé comme résumé de l'information portée par

3 La démonstration de cette propriété est présentée en Annexe (annexe I)

4 La démonstration de la propriété d'exhaustivité est présentée en annexe (annexe I)

l'instrument de mesure ; c'est-à-dire que toute l'information disponible sur le trait latent d'un élève est contenue dans le score simple .

En bref, choisir le modèle de Rasch, c'est accorder la primauté au modèle de mesure et non aux données. De plus l'exigence plus réduite en termes de nombre de sujets fait du modèle de Rasch le plus économique du point de vue du temps comme du point de vue du coût.

III.4.2. Le modèle à deux et trois paramètres

a) Le modèle à deux paramètres ou le modèle de BIRNBHAUM Sa formulation mathématique se présente comme suit :

?? ?????? = ?? =

?????? ???? ??? - ???? )
??+ ?????? ???? ??? - ???? )

Le modèle logistique à deux paramètres généralise le modèle de Rasch. Il nécessite en plus du paramètre de difficulté, un paramètre pour le caractère discriminant de l'item.

Dans ce cas ces deux paramètres sont libres de varier permettant ainsi aux CCI de se croiser.

Cependant ce modèle ne possède pas de statistique exhaustive contrairement au modèle de Rasch. Toutefois, si l'on suppose les valeurs des pouvoirs discriminant áj connues alors le score pondéré est exhaustif pour le trait latent è.

Cependant les paramètres ne sont pas connus a priori ce qui empêche l'utilisation de cette propriété.

b) Le modèle à trois paramètres

Ce modèle prend en compte le paramètre de chance, il s'écrit comme suit :

?? ?????? = ?? = ???? + ??- ????

?????? ???? ??? - ???? )
??+ ?????? ???? ??? - ???? )

Il est le plus approprié dans le cas où tous les paramètres sont nécessaires pour expliquer les données, c'est-à-dire dans le cas où les items varient beaucoup du point de vue de la discrimination, et où la conjecture est un facteur incident dans les scores. Cependant il perd la propriété d'exhaustivité et d'objectivité de la mesure.

III.5. Estimation des paramètres avec les modèles IRT et test

d'ajustement

III.5.1. Estimation des paramètres

a) L'estimation des param~tres pour le modle de Rasch

On considère deux types de modèle de RASCH : le modèle de RASCH à effets aléatoires selon lequel le trait latent è est aléatoire et le modèle de RASCH à effets fixes où la variable è est considérée fixe. Dans l'encadré ci-dessous on voit que la log-vraisemblance des observations est la somme de la log-vraisemblance marginale des scores (LM) et de la log-vraisemblance conditionnellement au score qui ne dépend que des paramètres de difficultés. Ainsi on fait une estimation en deux étapes. La première consiste à une estimation par maximum de vraisemblance conditionnelle et la seconde à une estimation par maximum de vraisemblance marginale.

L'estimation par maximum de vraisemblance conditionnelle permet d'estimer les paramètres de difficulté. En effet, la log-vraisemblance conditionnelle au score ne dépend que des paramètres de difficultés. Les paramètres de difficultés estimés sont ensuite utilisés dans l'estimation des niveaux d'acquisition par la méthode du maximum de vraisemblance marginale.

Encadré 1 : Notations et notions préliminaires à l'estimation

Notations

La variable aléatoire de bernouilli

le vecteur de réponse de l'individu i qui est la

1 ~~

......

) ( ) 1 )

x x

X x P T P dG T )

j

réalisation de la variable aléatoire

la matrice des réponses de N individus aux J items, qui est

la réalisation de la variable aléatoire
Notions préliminaires

P X x S s

Soit la fonction de répartition de la variable latente pour un individu i, la

(( ) ( ))

i

, i

X x S s

? / )

? ?

i 1 J i i

probabilité d'observer le vecteur de réponse s'écrit :

[2]

La probabilité d'observer un vecteur de réponse donné sachant que l'individu à eu un score donné est définie ci-dessous : [2]

.

Pour N individus ayant répondu individuellement à J questions, La probabilité jointe de réponse des N individus aux J questions s'écrit : [2]

N

= L x ? s

( , / ) ? =L s G s

( )

C M

? ? ?

De cette écritur, on obtient la log Vraisemblance qui suit : [2]

? ? ?

( )

s exp( )

? j ?

Log vraisemblance du modèle de RASCH

Enfin

avec

la log vraisemblance conditionnelle au score

et

log vraisemblance marginale des scores

On en déduit que la log-vraisemblance des observations est la somme de la log-vraisemblance marginale des scores (LM) et de la log-vraisemblance conditionnellement au score qui ne dépend que des paramètres de difficultés.

Estimation des paramètres de difficulté des items : spécification du modèle

? 1 si k

?

Le modèle transformé donne pour un individu répondant à un item j :

Avec

Log ? p ? ? ?

I ?

i et

? ? 1)

? une variable aléatoire égale à l'erreur

k j

de spécification

Dans la pratique, la variable à expliquer est la réponse aux items et les variables explicatives sont des indicatrices Ikj . A chaque item j correspond un paramètre de difficulté .

On crée donc J variables indicatrices Ikj telles que pour k=1 ;2 ;...... ;J.

On obtient le modèle suivant :

.

On fait ensuite une estimation logistique conditionnelle sur le modèle cidessus. Cette estimation permet d'obtenir uniquement les paramètres de difficultépour chaque item à un signe près. Les estimateurs obtenus sont convergents.

Estimation de la variable latente et spécification du modèle.

On a N individus mais on a J-i-1 score (S= 0 ; 1 ; 2 ;... ; J). Puisque le score S est une statistique exhaustive pour la variable latent, on aura à estimer J-i-1 traits latents

(dans le cas où N>J). On crée J+1 variables indicatrices associées au score obtenu par chaque éleve.

La variable expliquée est la réponse aux items et les variables explicatives sont les indicatricesSsi . Les parametres de difficulté déjà estimés sont introduits dans la

modélisation comme variables offset. Une variable offset est une variable à laquelle on associe le coefficient 1 dans une modélisation :

Le modele estimé est sans constante. Les estimations des modeles présentés ci-dessus requierent la transformation des données.

b) Estimation des paramètres de difficulté et de trait latent pour

le modèle de BIRNBAUM.

Pour l'estimation du modèle à deux paramètres, on se réfère aux modeles linéaires généralisés. En effet, Les modeles IRT entrent dans le cadre des modeles linéaires généralisés. De plus le modele de BIRNBAUM perd la propriété d'exhaustivité du score simple. Dans ce cas, on ne peut plus utiliser la méthode d'estimation par maximum de vraisemblance conditionnelle.

Le modele à estimer ici est :

La variable expliquée est la réponse aux items et les variables explicatives sont les indicatrices Ikj définies plus hauts. A chaque item j correspond un parametre de difficulté . Cette estimation requiert des travaux préliminaires

liés à la transformation des données. En annexe, est présentée la démarche à suivre et la mise en oeuvre sous stata.

III.6. L'ajustement du mod~le aux données

Les trois modeles cités précédemment à savoir le modele de rasch le modele de BIRNAUM et le modele à trois parametres sont utilisés dans les évaluations à grande échelle. Cependant, il n'existe pas de consensus quant au modèle qui

conviendrait le mieux à toutes les situations. En effet le choix d'un modèle ne constitue qu'une hypothèse parmi d'autres pour formaliser la relation entre la probabilité de réussir un item et l'habilité de l'élève. Toutefois, comme nous l'avons déjà exprimé, chaque modèle possède des propriétés qui le rendent plus désirable que d'autres pour une situation donnée. Dans le cadre de cette étude, nous allons mettre les trois modèles sur un même pied d'égalité.

Ainsi, pour évaluer la qualité d'ajustement des données au modèle, nous proposerons une procédure qui se fait en deux étapes : la première, générale, qui consiste à comparer les modèles, et l'autre, plus particulière, qui nous livrera des informations précises concernant chaque item du test une fois le modèle choisi.

III.6.1. Choix du modèle

Ce choix tient compte des hypothèses spécifiques de chaque modèle, les hypothèses générales ayant été vérifiées par les procédures de sélection des items.

Ces hypothèses spécifiques, relatives aux paramètres des items, sont regroupées dans les tableaux ci-dessous.

Tableau 1 : Modèles et hypothèses spécifiques

Les

paramètres

Modè

le de Rasch

Modèle à

deux

paramètres

Modèle

à

trois

paramètres

Discri

mination de

l'item j :

= 1

1

 

1

Param ètre de pseudo - chance de

l'item j :

=

0

 

= 0

0

Dans cette section on se limitera uniquement aux deux modèles, le modèle à deux paramètres et le modèle de Rasch.

On a donc à choisir entre le modèle de BIRNBAUM et le modèle de RASCH en testant les hypothèses suivantes :

Ce test consiste donc à comparer le modèle de Rasch ( = 1

) au modèle de Birnbaum ( 1). Pour ce faire, nous disposons du critère

? j J 1

d'information d'Akaike (AIC) et du LR test (test du rapport de vraisemblance). Le AIC est calculé de la manière suivante :

Avec la log- vraisemblance du modèle et K le nombre de paramètres à estimer. La règle de décision consiste à choisir le modèle dont le AIC est le plus faible.

III.6.2. Test d'ajustement

A partir du moment où nous avons choisi le modèle, il importe d'évaluer la qualité de l'ajustement des données au modèle (goodness-of-fit).

Il existe plusieurs approches pour apprécier l'ajustement du modèle, dans le cadre de cette étude nous allons nous limiter à deux d'entre elle, la première graphique et la deuxième analytique.

a) Ajustement graphique

Cette première forme d'analyse repose sur l'examen de la différence entre la CCI prédite par le modèle et la CCI empirique construite à partir des données observées. On cherche à savoir si la courbe observé adopte l'allure générale de la courbe théorique et ceci en évaluant l'aire comprise entre ces deux courbes. Des outils informatiques ont été mis au point pour cette fin (CONQUEST).

L'analyse graphique ne suffit pas, il faut souvent s'aider de statistiques d'ajustement qui permettent une analyse beaucoup plus fine.

b) Ajustement statistique

Si nous désirons aller au -- delà d'une analyse visuelle, des tests ont été développé pour mieux appréhender la qualité d'ajustement.

« Ainsi , Bock(1972) accompagnait sa présentation du modèle nominale d'une statistique, BCHI, donc la distribution est celle de khi-carré pour tester l'ajustement du modèle :

BCHI =

I
j=1

Nj (Oij --Eij )2

Eij ( 1 -- Eij )

Ou Oij et Eij correspondent respectivement à la proportion observée de réponses endossée et à la proportion attendue selon le modèle pour l'item i et la catégorie j. la statistique BCHI possède une distribution du khi-carré avec J-m degrés de liberté où J le nombre de catégorie et m le nombre de paramètre estimés » (BERTRAND R. p 197).

Chapitre 2 :

Calibrage des tests d'évaluatio

Chapitre 2

Calibrage des tests d'évaluation

I. Principe de base

L'objectif de ce présent chapitre est de fournir une méthode simple pour comparer, d'une manière objective, deux groupes d'élèves ayant passé deux tests différents. En effet, dans le cadre de notre études, l'estimation du score vrai a pour but l'évaluation des capacités des élèves de la manière la plus juste et équitable possible.

Ainsi, après estimation du modèle, on obtient les valeurs de la variable latente ainsi que celles des paramètres de difficulté et de discrimination des items pour des modèles IRT.

Pour deux groupes d'élèves ayant été évalués avec des tests d'acquisition différents, il convient de mettre ces estimations sur une même échelle afin de pouvoir les comparer. On utilise, dans ce cas, des items communs aux deux tests. Ceci grâce à la particularité des IRT qui mette sur une même échelle le niveau de difficulté des items et la variable latente.

Soient deux groupes A et B évalués respectivement par les tests d'acquisition X et Y. Ceux-ci ont en commun des items qui forment un sous test W (confère le schéma ci-dessous). L'un des groupes, en occurrence le groupe A, sera considéré comme le groupe de référence. Les paramètres de difficulté du sous-test W estimés dans les deux groupes seront utilisés pour mettre les traits latents des individus du groupe B sur l'échelle de groupe A. Selon le modèle utilisé dans l'estimation, les transformations sont différentes. Pour celles-ci nous utilisons des méthodes de calcul qui sont reprises par LINDA L. Cook et Daniel R. Eignor dans leur document « IRT Equating Methods ».

II. Hypothèses

Pour pouvoir les mettre à l'échelle, il faut vérifier quelques conditions (Angoff et Kolen):

1. le nombre d'items d'ancrage doivent correspondre à 20% du nombre total d'items du test

2. les tests doivent mesurer les mêmes aptitudes

3. les tests doivent vérifier l'indépendance des réponses aux items

4. les tests doivent être unidimensionnels

5. l'échantillon doit etre de taille suffisante (au moins 1800 élèves)

6. les items d'ancrage doivent etre placés dans le meme ordre dans les deux tests

7. les items d'ancrage doivent etre représentatifs en contenu et en valeurs statistiques des deux tests

8. les deux tests contiennent le meme nombre d'items

III. Méthodologie

III.1. Selon le modèle de Rasch

Dans ce modèle, les deux tests sont sur une même échelle si la moyenne des paramètres de difficulté estimés du test W est la même dans les deux groupes. Soit k le nombre d'items communs on a:

On postule que les paramètres estimés du test Y sont mis sur l'échelle du test X par les transformations suivantes :

P1* - P w(y) = P1 - Pw(x)

D'où

P1* = P1 - Pw(x) + Pw(y)

??

?? ?? ??~ = ?? ?? ?????? ??~ ?? ?????? ??~

???? *

=

?? ????

??~

+ ??

(1)

 
 

??

 
 
 

*

????

=

?? ????

??0

 

(2)

De même pour le trait latent è :

???? * = ?? ?? ?? (??) + ?? (3)

Ainsi, par un simple calcule on peut vérifier que :

???? ????*~ = ????(???? ??~) ;

avec ???? ????) la fonction de réponse à l'item j de l'individu i qui s'exprime,

rappelons le, comme suit :

???? ????) =

?????? (???? ??? - ????))

?? + ?????? (???? ??? - ????))

Les coefficients A et B se déterminent à partir de l'équation suivante :

?????? ??o - ????(??)

?????? ??) - ????(??)

=

????(??)

????(??)

Avec ????(??) et ???? (??)les variances du paramètre de difficulté du sous test W estimés respectivement dans le groupe A et B.

Sachant que ces paramètres de difficulté vérifient l'équation (1) on tire les coefficients a et b:

??=

????(??)

et ?? = ?? ??(??) - ?? ??(??) ????(??)

????(??)

????(??)

On notera que pour le modèle à trois paramètres on applique la même procédure pour l'indice de difficulté ainsi que l'indice de discrimination. Vous devinerez que, puisque le paramètre de pseudo-chance est déterminer à partir de l'axe des ordonnés de la courbe caractéristique c'est-à-dire indépendamment du trait latent, aucune mise à l'échelle n'est requise ; il reste inchangé.

A partir du moment où les paramètres estimés sont mis sur une même échelle, on peut calculer le score vrai (true score) des deux groupes pour comparer ainsi leur niveau de compétence. On obtient ainsi le score vrai estimé par la relation suivante :

?? ?? = ?? ??

????

??=1 ??),

?? ?? = ?? ??

Chapitre 3 :

Applications et Résultats

Chapitre 3

Application et Résultats

I. Analyse des items

I.1. Fiabilité et validité du test

Le but de la première phase de l'étude est de vérifier la fiabilité et la validité de notre instrument de mesure (test). L'analyse et l'interprétation porte sur les indices statistiques évoqués plus haut, à savoir l'alpha de cronbach et le point bi-sérial.

La commande qui permet, sous STATA, de calculer ces statistiques de fiabilité est la commande « alpha liste_item , std item »

Cette procédure a permit de sélectionner presque tout les items.

Prenons l'exemple du test francophone de langue. Le résultat de l'estimation se trouve exposé dans le tableau ci-dessous (modifié avec Excel). La première et la deuxième colonne comportent respectivement le nom des items et le nombre d'observations utilisé pour chaque item. Les colonnes 3 à 4 sont relatives au rpbis : signe, valeur et valeur ajustée. La dernière colonne donne la valeur de l'alpha de Cronbach.

Ce test se compose de 39 items. Nous constatons que l'item lang_f génère un rpbis inférieur au seuil de validité (0,0687<0,2), par conséquent le supprimer de la base a pour effet d'améliorer la qualité de mesure. Les autres items par contre présentent des résultats satisfaisants.

Tableau 2: L'alpha de Cronbach des 39 items du test de langue

francophone (modifié sur Excel

langue average

item-test item-rest interitem

Item Obs Sign correlation correlation correlation alpha

lang_a

2557

+

0,5118

0,4754

0,2882

0,9374

lang_b

2557

+

0,4056

0,3647

0,2916

0,9384

lang_c

2557

+

0,5724

0,5391

0,2863

0,9369

lang_d

2557

+

0,5098

0,4733

0,2883

0,9374

lang_e

2557

+

0,3247

0,2811

0,2941

0,9391

lang_f

2557

+

0,0687

0,0211

0,3022

0,9413

lang_g

2557

+

0,6346

0,6049

0,2843

0,9363

lang_h

2557

+

0,5843

0,5516

0,2859

0,9368

lang_i

2557

+

0,6673

0,6396

0,2833

0,936

langj

2557

+

0,6468

0,6178

0,284

0,9362

lang_k

2557

+

0,6505

0,6217

0,2838

0,9362

lang_l

2557

+

0,518

0,4819

0,288

0,9374

lang_m

2557

+

0,4544

0,4154

0,29

0,9379

lang_n

2557

+

0,5243

0,4885

0,2878

0,9373

lang_o

2557

+

0,4943

0,4571

0,2888

0,9376

lang_p

2557

+

0,4446

0,4052

0,2903

0,938

lang_q

2557

+

0,3906

0,3492

0,292

0,9385

lang_r

2557

+

0,4852

0,4475

0,2891

0,9377

lang_s

2557

+

0,7058

0,6807

0,2821

0,9356

lang_t

2557

+

0,6959

0,6701

0,2824

0,9357

lang_u

2557

+

0,6704

0,6429

0,2832

0,936

lang_v

2557

+

0,7012

0,6757

0,2822

0,9357

lang_w

2557

+

0,6963

0,6705

0,2824

0,9357

lang_x

2557

+

0,5989

0,5671

0,2855

0,9366

lang_y

2557

+

0,5443

0,5094

0,2872

0,9371

lang_z

2557

+

0,4852

0,4475

0,2891

0,9377

lang_aa

2557

+

0,2869

0,2424

0,2953

0,9394

lang_ab

2557

+

0,6166

0,5858

0,2849

0,9365

lang_ac

2557

+

0,6268

0,5966

0,2846

0,9364

lang_ad

2557

+

0,6129

0,5818

0,285

0,9365

lang_ae

2557

+

0,7089

0,684

0,282

0,9356

lang_af

2557

+

0,6995

0,6739

0,2823

0,9357

lang_ag

2557

+

0,5834

0,5507

0,286

0,9368

lang_ah

2557

+

0,6014

0,5697

0,2854

0,9366

lang_ai

2557

+

0,6077

0,5764

0,2852

0,9366

lang_aj

2557

+

0,485

0,4474

0,2891

0,9377

lang_ak

2557

+

0,5996

0,5678

0,2854

0,9366

lang_al

2557

+

0,595

0,5629

0,2856

0,9367

Test

scale

 
 
 
 

0,2869

0,9386

I.2. Items discriminants

Pour renforcer notre analyse, nous avons calculé, dans le cadre de la théorie du score vrai, l'indice de discrimination, qui rappelons-le est la différence entre le score des 27% des élèves les plus forts « UPPER » et le score des 27% les plus faibles « LOWER ».

On reprend le même exemple précédent (Graphique ci-dessous).On remarque que ce résultat rejoint ce qui précède : l'item f affiche un indice de discrimination très faible (inférieur à 0,1). Les résultats chiffrés sont présentés en annexe.

Graphique 1 : indice de discrimination des items du test de langue francophone

Indices de discrimination langues

1,00 0,80 0,60 0,40 0,20 0,00

 
 

a b c d e f g h i j k l m flop q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am

Suite aux analyses effectuées dans cette première phase, nous avons pu identifier les items déviant (voir les résultats pour le test mathématique en annexe II).

II. Validation des postulats de base de TRI

Comme signaler précédemment, la TRI repose sur trois hypothèses fondamentales à savoir l'indépendance locale, l'unidimensionnalité et la monotonocité. Dans notre cas, les items sont indépendant par construction, par conséquent il ne s'agira, dans cette rubrique, que de vérifier la validité des deux autres hypothèses.

II.1. Unidimensionnalité

Cette analyse portera sur deux graphiques représentants les résultats d'une analyse en composante principale le premier réalisé avec R et le deuxième avec

STATA ; tout deux convergent vers le même résultat l'unidimensionnalité des items.

Reprenons le même exemple du test langue francophone 2011, Au regard des deux graphiques ci-dessous, on peut affirmer que les items mesurent bien un seul trait latent.

Graphique 2 : analyse en composante principale (avec R)

Pour réaliser cette procédure on utilise la fonction « dudi.pca() » du package « ade4 ».Comme l'indique le graphique ci-dessus, l'axe 1 explique 22,55% de l'inertie et l'axe 2 1,67%. Il y a donc a priori une seule composante principale, donc le test est unidimensionnel.

Figure 6: analyse en composante principale (avec STATA)

On voit bien que l'item « lang_f » » est proche du point d'intersection des deux axes (0,0) donc ne contribue pas beaucoup à l'inertie.

II.2. La monotonocité

Un modèle économétrique simple (le modèle de Rach par exemple) permet d'avoir une représentation graphique de la relation fonctionnelle entre le trait latent (l'habilité de l'élève) et la probabilité de réussite à l'item. Comme nous pouvons le voir dans le graphique ci-dessous les CCI du test de langue suivent une fonction monotone non décroissante.

Graphique 3: courbe caractéristique des items du test langue francophone

(estimé selon le modèle de Rasch)

III. Estimation des paramètres et tests d'ajustement

Dans cette partie on prendra comme exemple le test de langue francophone dont on a éliminé les items déviants suite à l'analyse effectuée plus haut.

Le test est constitué de 33 items. , contre 39 au départ. Six items ont été éliminés car porteurs de comportements déviant ou différentiés selon la langue du test. Il s'agit d'abord de choisir le modèle le plus adéquat aux données.

III.1. Choix du modèle

Pour cela nous disposons du critère d'information d'Akaike (AIC). Cette statistique rappelons le, permet de comparer les modèles et de déterminer celui qui s'ajuste le mieux aux données. On choisi le modèle dont le (AIC) est le plus petit.

La fonction « anova () » du package « ltm »permet de calculer cette statistique.

Comparons tout d'abord le modèle de Rasch au modèle de BIRNBHAUM, les résultats des estimations sont présenté en annexe.

Le test ANOVA donne :

Encadré 2 : Choix du modèle avec R (Output)

>anova(RSh,BIR)

Likelihood Ratio Table

AIC BIC log.Lik LRT df p.value

RSh 70746.21 70944.94 -35339.11

BIR 68484.15 68869.92 -34176.07 2326.07 32 <0.001

On constate que AIC(BIR)<AIC(RSh) et la p-value est inférieur à 0 ,01, par conséquent le modèle à deux paramètres est plus approprié aux données que le modèle à un paramètre.

Comparons maintenant le modèle de deux paramètres au modèle de trois paramètres :

Encadré 3 : Comparaison des modèles avec R

Likelihood Ratio Table

AIC BIC log.Lik LRT df p.value BIR 68484.15 68869.92 -34176.07

TP 69154.89 69546.51 -34510.45 -668.75 1 1

On remarque que la AIC(BIR)<AIC(TP) et la p-value est supérieur à 1, le modèle à deux paramètres reste le plus approprié aux données.

Les estimations des paramètres de difficulté et de discrimination sont données dans le tableau ci-dessous :

Tableau 3: Estimations des paramètres de difficulté et de discrimination selon le modèle à deux paramètres

 

coefficients

(2011)

 

items(2011)

Dffclt

Dscrmn

FIN5F__E

0,9773348

1,376736

FIN5F__A

0,45209506

1,2223902

FIN5F__Q

0,63504961

1,075596

FIN5F__B

1,43787687

0,9001128

FIN5F__S

1,29374018

1,2656595

lang_a

0,69128905

1,2758679

lang_b

-

0,06218079

0,9501138

lang_c

-

0,14287979

2,0462499

lang_d

-

0,17249183

1,542806

lang_e

1,27306386

0,6364286

lang_g

0,54200864

2,008758

lang_h

1,1671953

1,8903242

lang_i

0,83860182

2,3858874

langj

0,82042118

2,0285716

lang_k

0,84027917

2,2530731

lang_l

0,80506933

1,3109121

lang_m

1,24769438

1,1064497

lang_s

0,81026022

2,8482186

lang_t

1,00876845

2,9108182

lang_u

1,19978817

2,8347749

lang_v

0,92215826

2,9226913

lang_w

1,04348279

3,0076832

lang_x

0,75172019

1,7392454

lang_y

1,64206232

2,0389886

lang_z

1,87819997

1,8473199

lang_aa

1,90539814

0,5322742

lang_ab

1,15619583

2,0674709

lang_ac

1,25411229

2,2851117

lang_ad

1,53950906

2,5921828

lang_ae

1,16336052

2,9071115

lang_af

1,22585772

2,9066453

lang_ah

1,5973621

2,788262

lang_ai

1,59615799

2,7598394

III.2. Ajustement du modèle

III.2.1. Ajustement graphique

Il est souvent plus facile avec les modèles IRT d'utiliser les courbes caractéristiques pour analyser les items. CONCQOUEST offre la possibilitéd'avoir ces courbes. Le code est donné en annexe.

Nous avons ci-dessous deux exemples de CCI du test de langue francophone. En trait continu, nous avons la courbe la courbe quasi-idéal produite par le modèle et en pointillés la courbe empirique. La CCI de l'item langj donne l'exemple d'un item qui s'ajuste bien au modèle. L'ajustement parfait est difficile voire impossible à obtenir.

La courbe observée, malgré l'oscillation, épouse l'allure de la courbe théorique.

Graphique 4: courbes caractéristiques d'un item bien ajusté au modèle

Nous avons, à l'opposé ici, un item déviant toujours le même item lang_f (l'item 6 pour CONQUEST)

Graphique 5: exemple d'un item qui ne s'ajuste pas bien aux données

La courbe empirique s'écarte complètement de la courbe théorique. Pire elle décroit pour des traits latents compris entre -1 et 1 violant l'hypothèse de monotonicité.

III.2.2. Ajustement statistique

a) Application sur R

Comme nous l'avons déjà exprimé, cette ajustement a pour but de déterminer les items qui s'ajustent significativement au modèle.

>item.fit(BIR)

Encadré 4: Test d'ajustement avec R

Item-Fit Statistics and P-value Call:

ltm(formula = data ~ z1)

Alternative: Items do not fit the model Ability Categories: 10

X'2 Pr(>X'2)

FIN5F__E 24.1134 0.0022 FIN5F__A 57.8623 <0.0001 FIN5F__Q 63.7090 <0.0001 FIN5F__B 17.6695 0.0238 FIN5F__S 20.6680 0.0081

lang_a

24.6577

0.0018

lang_b

18.5878

0.0172

lang_c

36.6025

<0.0001

lang_d

33.7865

<0.0001

lang_e

30.2248

0.0002

lang_g

16.0449

0.0417

lang_h

27.9201

0.0005

lang_i

18.7033

0.0165

langj

25.2253

0.0014

lang_k

22.5732

0.004

lang_l

38.8514

<0.0001

lang_m 43.8923

<0.0001

lang_s

19.2971

0.0133

lang_t

20.4608

0.0087

lang_u

26.9626

0.0007

lang_v

13.5028

0.0957

lang_w

16.7123

0.0332

lang_x

26.0067

0.001

lang_y

14.7331

0.0645

lang_z

10.4916

0.2322

lang_aa 45.9957 <0.0001 lang_ab 13.2897 0.1023 lang_ac 17.0671 0.0294 lang_ad 12.5607 0.1279 lang_ae 15.4527 0.0509 lang_af 12.9743 0.1127 lang_ah 13.3439 0.1006 lang_ai 16.2935 0.0384

On conclue que 7 items seulement ne s'ajustent pas significativement au modèle.

Notons aussi que pour évaluer la robustesse de nos estimations nous avons testé le modèle sur un cinq sous échantillon de l'échantillon principal (50%) tirés aléatoirement. Les moyennes des estimations des paramètres du modèle convergent vers le même résultat trouvé précédemment. Nous avons développé cette procédure sur R (voir code en annexe III).

Tableau 4 : Les moyennes et variances des paramètres de difficulté et de discrimination des cinq sous-échantillons sont affichées comme suit :

 

Moy. Dif

Var. Dif.

Moy. Dis.

Var. Dis.

FIN5F__E

0,9617

0,0013

1,3706

0,0031

FIN5F__A

0,4208

0,0009

1,2625

0,0070

FIN5F__Q

0,5753

0,0011

1,1143

0,0032

FIN5F__B

1,5011

0,0130

0,8576

0,0055

FIN5F__S

1,2687

0,0043

1,2627

0,0079

lang_a

0,6680

0,0013

1,3304

0,0098

lang_b

-0,0800

0,0023

0,9513

0,0005

lang_c

-0,1608

0,0007

1,9604

0,0029

lang_d

-0,1980

0,0011

1,5349

0,0079

lang_e

1,2020

0,0078

0,6503

0,0020

lang_g

0,5125

0,0009

1,9389

0,0017

lang_h

1,1426

0,0017

1,8865

0,0037

lang_i

0,8068

0,0016

2,3657

0,0119

lang_j

0,7892

0,0013

2,0160

0,0134

lang_k

0,8024

0,0015

2,2156

0,0240

lang_l

0,7655

0,0106

1,3366

0,0069

lang_m

1,2267

0,0023

1,1381

0,0015

lang_s

0,7895

0,0018

2,8302

0,0397

lang_t

0,9907

0,0013

2,8860

0,0210

lang_u

1,1847

0,0011

2,8698

0,0231

lang_v

0,9243

0,0004

2,8993

0,0186

lang_w

1,0338

0,0008

3,0018

0,0211

lang_x

0,7468

0,0019

1,6812

0,0061

lang_y

1,6409

0,0021

1,9735

0,0144

lang_z

1,9007

0,0078

1,8264

0,0106

lang_aa

1,8879

0,0673

0,5489

0,0075

lang_ab

1,1594

0,0010

2,0034

0,0047

lang_ac

1,2356

0,0020

2,2813

0,0081

lang_ad

1,5244

0,0035

2,5665

0,0116

lang_ae

1,1327

0,0016

3,0144

0,0105

lang_af

1,1924

0,0019

2,9807

0,0194

lang_ah

1,5701

0,0012

2,8218

0,0152

lang_ai

1,5667

0,0041

2,8253

0,0517

Ces résultats témoignent de la robustesse de nos estimations. b) IIs F'a's dP'JIP

Une des contraintes majeures du cahier de charge des tests était de s'assurer de l'équivalence des versions francophones et anglophones des items. Le contenu des tests a été réalisé de manière à établir un dénominateur commun entre les programmes et méthodes d'enseignement des deux sous-systèmes francophone et anglophone du Cameroun. Les traductions des tests ont été vérifiées par un cabinet spécialisé et les items ayant des comportements similaires dans les deux versions ont été sélectionnés après la mise à l'essai.

Les tests finaux devraient donc être équivalents dans leur fonctionnement entre élèves francophones et anglophones.

En première instance, une analyse comparée des taux de réussite, indices de difficulté et de discrimination des versions francophones et anglophones a été réalisé et montre une grande similarité des différents valeurs des indices calculés sur la base de la théorie du score vrai dans les deux sous-systèmes.

Ceci étant, la théorie du score vrai ne nous permet pas d'affirmer que les tests sont équivalents ni de déterminer si les élèves francophones et anglophones performent identiquement.

Il nous faut donc mobiliser une fois de plus la théorie de réponse aux items qui proposent plusieurs méthodes d'étude des biais ou fonctionnement différentié des items (diferential item functionning, DIF). Ces méthodes reposent sur deux grands principes : soit sur une fonction de l'aire entre les deux courbes caractéristiques des items, soit un test de signification en rapport avec les paramètres des items.

Pour simplifier, nous avons opté pour une méthode graphique, en visualisant l'écart entre les courbes francophones et anglophones des items. Les courbes ont été tracées avec le logiciel Conquest.

Nous avons ci-dessous deux exemples de CCI du test anglophone et francophone.

Le premier exemple montre une grande similarité entre les deux items des deux tests. Quant au deuxième graphique, on remarque, en terme de difficulté, un écart entre les deux courbes mais le pouvoir discriminant des deux items est pratiquement le même.

Graphique 6 : CCI d'items anglophone et francophone ayants un même pourvoir discriminant et un même niveau de difficulté

Graphique 7 : CCI d'items anglophone et francophone ayants des niveaux de difficulté différent mais un même pourvoir discriminant

Les graphiques n'ont pas fait ressortir d'écart important entre courbes francophones et anglophones des items. On notera que les items d'ancrage ont été sélectionnés également sur la base de l'équivalence des versions francophones et anglophones. Par la suite, nous avons donc considéré comme équivalents (et donc sur une même échelle) les tests francophones et anglophones.

IV. Mise à l'échelle des tests 2005 et 2011

IV.1. Vérification des hypothqses de la mise à l'échelle

Pour pouvoir comparer le niveau d'acquisition des élève du Cameroun de 2005 (TEST PASEC 2005) à celui des élèves de 2011 il a fallu mettre les deux test sur une même échelle, par convention on prend la première année (2005) comme référence.

Pour ce faire on a repris la procédure développée dans le chapitre III.

Pour faciliter les calculs on a développé sur R un programme qui permet, en un seul clic de donner les résultats, partant ainsi de l'estimation des paramètres, jusqu'au calcul des scores calibrés passant par la mise à l'échelle. Le programme est donné en annexe III.

Nous avons comparé les résultats de notre programme avec le package R Irtoys mis au point très récemment et qui permet la mise en oeuvre d'un test equating.

Toutefois, il faut au préalable s'assurer de la validité des hypothèses postulées auparavant.

1. le nombre d'items d'ancrage doivent correspondre à 20% du nombre total d'items du test

2. les tests doivent mesurer les mêmes aptitudes

3. les tests doivent vérifier l'indépendance des réponses aux items

4. les tests doivent être unidimensionnels

5. l'échantillon doit être de taille suffisante (au moins 1800 élèves)

6. les items d'ancrage doivent être placés dans le même ordre dans les deux tests

7. les items d'ancrage doivent être représentatifs en contenu et en valeurs statistiques des deux tests

8. les deux tests contiennent le même nombre d'items

Voyons donc si nos tests vérifient bien les différentes hypothèses.

Le test PASEC contient 42 items et le test 2011 contient 39 items. Ils ne sont pas tout à fait égaux en contenus car le test 2011 contient des items de production d'écrits mobilisant des compétences supérieures et faisant appel à des questions ouvertes à réponse longue.

De même, le test 2011 contient beaucoup de questions ouvertes à réponse courte, alors que le test PASEC contient principalement des QCM.

Pour pallier à cette situation, 6 items de production d'écrits du test 2011 ont été supprimés, ainsi que 9 items du test PASEC sur la base des corrélations item-test et indices de difficulté, ou fonctionnement différentié anglophone-francophone.

On obtient ainsi deux sous test de 33 items chacun, qui mesurent les mêmes habiletés (compréhension en lecture et outils de la langue) et qui serviront à faire la mise à l'échelle, sur la base de cinq items communs (soit 15% du test total).

Les cinq items PASEC ont été choisis sur la base de l'indice de difficulté (proche de 0.5), et surtout de l'équivalence des versions francophones et anglophones des items tant sur le plan linguistique que sur le plan psychométrique (pas de biais d'items).

Les hypothèses 2, 7 et 8 sont donc vérifiées.

L'hypothèse 3 d'indépendance des items est également respectée par la construction des tests.

L'hypothèse 4 d'unidimensionnalité est également vérifiée sur la base de la cohérence interne des tests et des corrélations item-test mais également par l'analyse factorielle (voir Monseur pour l'analyse des réponses aux items des tests PASEC).

Ces deux hypothèses étant vérifiées, la mise en oeuvre des modèles de réponse à l'item est possible.

S'agissant de l'hypothèse 5, les échantillons sont respectivement de 2361 élèves en 2005 et de 2553 élèves en 2011. Par contre, l'hypothèse 6 n'est pas vérifiée, les items communs se situent au milieu du test 2011 et dans diverses parties du test PASEC 2005.

Globalement, les sous-tests qui vont servir à la mise à l'échelle respectent bien les différentes conditions, bien que le nombre d'items d'ancrage soit assez faible.

Après comparaison des différents critères tels que AIK, etc.., un modèle à deux paramètres s'ajuste bien aux deux échantillons.

Les statistiques d'ajustement des items aux modèles montrent que 7 items du test 2011 et 7 items du test 2005 ne suivent pas bien le modèle.

Néanmoins, ces items seront conservés pour la mise à l'échelle. IV.2. &KRiI -GT-la-PptKRGT-GT-la-PIIT-E-l'pFKTllT

Il existe quatre méthodes permettant de mettre sur une même échelle des tests comportant des items communs Davier (2011) :

1. La méthode mean/mean se base sur les moyennes des paramètres des items communs ;

2. La méthode mean/sigma se base sur les moyennes et les écarts types des paramètres des items communs ;

3. La méthode Stocking-Lord ;

4. La méthode Haebara .

Les deux premières méthodes reposent sur l'utilisation d'une transformation linéaire des paramètres des items d'ancrage, tandis que les deux autres méthodes se basent sur une minimisation de différences de carrés.

Nous allons utiliser la méthode N°2 qui peut être facilement mise en oeuvre et qui fournit des estimations raisonnables des différences d'habiletés des élèves entre deux vagues d'évaluation.

Cette méthode sera mise en oeuvre sur Excel, puis sur R en mettant au point un programme puis avec le package Irtoys5 mis au point récemment.

Les courbes ci-dessous présentent les scores vrais estimés en fonction du niveau d'habilité des élèves. La courbe en vert est pour 2005, la courbe en rouge est pour 2011.

5 On notera que le package Plink permet aussi la mise à l'échelle mais s'avère compliqué à paramétrer.

Graphique 8: le score vrai estimé de 2005 vs le score vrai estimé de 2011

Comme la courbe rouge est globalement en dessous de la courbe verte, cela signifie que le score vrai estimé a baissé entre 2005 et 2011. Ainsi, on en conclut que le niveau d'acquisition des élèves a globalement baissé; aussi, on remarque que pour les élèves de niveau moyen, c'est-à-dire pour des thêtas compris entre -1 et 1, la baisse est beaucoup plus importante pendant que les forts se maintiennent à leur niveau.

La méthode mean/ sigma peut être mis en oeuvre en plusieurs étapes grâce aux package ltm et irtoys sur le logiciel R (Voir code en annexe III). On a mis sur

une même graphique les 3 courbes, en vert le << true score >> 2005, en bleu le << true score >> avec le package irtoys, et en rouge le true score avec la méthode décrite cidessous.

Graphique 9 : package Irtoys vs Résultats produit avec notre programme R

Les résultats obtenus avec le package Irtoys convergent avec les résultats produits avec notre programme sur R, à savoir que le niveau des élèves a baissé entre 2005 et 2011.

Conclusion

CONCLUSION

L'objectif tracé pour ce travail était de présenter une nouvelle approche de mesure en psychométrie.

Ainsi, le premier chapitre a présenté les différentes méthodes de mesure de l'éducation et ainsi il nous a permis d'avoir une vision approfondie sur les points forts de chacune d'entre elles.

Quant au deuxième chapitre, il a été consacré à la présentation des différentes techniques de mise à l'échelle des tests. Aussi, avons-nous essayé de détailler la méthode du « test equating ».

Dans le cadre de la dernière partie, nous avons exposé les différents modèles de mesure à savoir la méthode classique que nous nous somme contentés uniquement de présenter, et la théorie de réponse aux items, but de notre analyse. En effet, au cours de cette deuxième partie, nous avons présenté le cadre théorique de cette méthode de mesure, ses différents modèles à savoir le modèle de Rasch, le modèle à deux et trois paramètres. Nous avons pu, ainsi, détecter les points forts de chacun d'entre eux.

Dans le dernier chapitre, nous avons tenté d'appliquer la théorie vue précédemment sur des données empiriques issues d'une enquête auprès des élèves de 5ème année du Cameroun.

On en conclut que le niveau des élèves a baissé entre 2005 et 2011 et ces analyses ont pu être utilisées dans le rapport fait par Varlyproject aux autorités du Cameroun.

Notre étude a été finalisée par la conception et la réalisation d'une application informatique qui servira d'outil de calibrage des paramètres des items.

Pour clore ce travail, nous pouvons dire que les modèles IRT sont des sujets qui ne cessent de susciter l'intérêt des chercheurs et spécialistes et ce, en raison de la grande valeur ajoutée qu'ils peuvent apporter s'ils sont bien maitrisés mais surtout bien appliqués en interne.

BIBLIOGRAPHIE

- Monseur (2007), Guide méthodologique sur les tests, PASEC.

- Bertrand R., Blais J. (2004), 0 RGICIIIIIPIIAL H A ESSRLIFEHl EIlicoRLiIBILV réponses aux items, Press de l'Université du Québec.

- Baker F. (2002), The Basics of Item Response Theory, ERIC.

- Rizopoulos D. (2006), ltm: An R Package for Latent Variable Modeling and Item, Journal of Statistical Software, Volume 17, Issue 5Response Theory Analyses

- Kolen M., Brennan R. (2010), Test equating, Scaling and Linking, Method and practices, Springer.

- Alina A., Davier V. (2011), Statistical Models for Test Equating, Scaling, and Linking, Springer.

- Cook L., Eignor D. (), IRT equating methods, ETS.

- Angoff W.H (1984), Scales, norms and equivalent scores, Princeton, NJ: Educational testing service.

- Kpodar K. (2007), Manuel d'initi EtiRn à1751 Et EMILsiRTI). Centre d'Etudes et de Recherches sur le Développement International.

- Emmanuel P. (2005), R pour les débutants, Institut des Science de l'Evolution Université de Monpellier II.

WEBOGRAPHIE

- http://luna.cas.usf.edu/~mbrannic/files/pmet/irt.htm - http://anaqol.org/index.php?file=raschtest.php?fr=1

- http://statmath.wu.ac.at/research/talks/resources/PresIRT.pdf - http://cran.cict.fr/

- http://www.psycho-psysoc.site.ulb.ac.be/ressources-en-statistiques/154-lalphade-cronbach

- http://www.umoncton.ca/crde/files/crde/wf/wf/pdf/AtelierRasch_UMoncton200 9 JGrondin.pdf

Annexes

Annexes

Annexe I : Démonstrations

Annexe I

Démonstration de la propriété d'objectivité

Considérons deux individus et ayant répondu à l'itemet notons et

J

? j

leurs aptitudes respectives. La statistique étant exhaustive pour le

j ? 1

paramètre :

Démonstration de la propriété d'exhaustivité du score

L'exhaustivité du score sur le trait latent signifie que, sous le modèle de Rasch, toute l'information disponible sur la valeur du trait latent d'un individu est

? 0 / 1)

2 contenue dans la statistique exhaustive

R ? ?

J j P R

( 1)

?

( X , X

(score). L'exhaustivité du score

i j i j

)

découle du fait que le modèle de RASCH appartient à la famille exponentielle [2].

1

=

Soit la densité conjointe de la loi logistique suivant :

( ? ? ( ? ? ) (

( ? )

2 j

)(+ e )

nf

ex( ?

Annexe II

Résultats des estimations

Tableau 5: L'indice de discrimination des 39 items du test de langue francophone (modifié sur Excel)

 

langue

 
 
 
 

item

UPPER

tx de reussite U

LOWER

tx de réussite L

ID

a

480

0,690647482

44

0,06918239

0,62

b

548

0,788489209

105

0,16509434

0,62

c

657

0,945323741

64

0,100628931

0,84

d

631

0,907913669

83

0,130503145

0,78

e

387

0,556834532

78

0,122641509

0,43

f

170

0,244604317

129

0,202830189

0,04

g

568

0,817266187

21

0,033018868

0,78

h

384

0,552517986

3

0,004716981

0,55

i

490

0,705035971

5

0,007861635

0,70

j

493

0,709352518

24

0,037735849

0,67

k

482

0,69352518

6

0,009433962

0,68

l

456

0,656115108

17

0,02672956

0,63

m

358

0,515107914

12

0,018867925

0,50

n

423

0,608633094

17

0,02672956

0,58

o

502

0,722302158

33

0,051886792

0,67

p

448

0,644604317

33

0,051886792

0,59

q

334

0,48057554

21

0,033018868

0,45

r

359

0,516546763

12

0,018867925

0,50

s

501

0,720863309

2

0,003144654

0,72

t

452

0,650359712

0

0

0,65

u

383

0,551079137

0

0

0,55

v

473

0,68057554

1

0,001572327

0,68

w

426

0,61294964

1

0,001572327

0,61

x

484

0,696402878

22

0,034591195

0,66

y

244

0,351079137

2

0,003144654

0,35

z

196

0,282014388

2

0,003144654

0,28

aa

305

0,438848921

66

0,103773585

0,34

ab

389

0,55971223

2

0,003144654

0,56

ac

360

0,517985612

1

0,001572327

0,52

ad

256

0,368345324

0

0

0,37

ae

392

0,564028777

0

0

0,56

af

197

0,283453237

0

0

0,28

ag

368

0,529496403

0

0

0,53

ah

226

0,325179856

1

0,001572327

0,32

ai

229

0,329496403

3

0,004716981

0,32

aj

219

0,315107914

1

0,001572327

0,31

ak

281

0,404316547

2

0,003144654

0,40

al

247

0,355395683

0

0

0,36

am

117

0,168345324

0

0

0,17

Tableau 6: L'indice de discrimination des 26 items du test de mathématique

 

math

 
 
 
 
 

UPPER

tx de reussite U

Lower

tx de réussite L

ID

a

654

0,712418301

73

0,118506494

0,59

b

654

0,712418301

60

0,097402597

0,62

c

441

0,480392157

14

0,022727273

0,46

d

668

0,727668845

65

0,105519481

0,62

e

167

0,181917211

3

0,00487013

0,18

f

376

0,409586057

42

0,068181818

0,34

g

298

0,324618736

39

0,063311688

0,26

h

552

0,60130719

12

0,019480519

0,58

i

338

0,368191721

8

0,012987013

0,36

j

104

0,11328976

1

0,001623377

0,11

k

146

0,159041394

3

0,00487013

0,15

l

436

0,474945534

30

0,048701299

0,43

m

642

0,699346405

49

0,079545455

0,62

n

290

0,315904139

5

0,008116883

0,31

o

663

0,722222222

75

0,121753247

0,60

p

397

0,432461874

103

0,167207792

0,27

q

440

0,479302832

15

0,024350649

0,45

r

257

0,279956427

25

0,040584416

0,24

s

221

0,240740741

30

0,048701299

0,19

t

401

0,436819172

14

0,022727273

0,41

u

232

0,252723312

32

0,051948052

0,20

v

192

0,209150327

114

0,185064935

0,02

w

98

0,106753813

0

0

0,11

x

524

0,5708061

16

0,025974026

0,54

y

469

0,510893246

11

0,017857143

0,49

z

179

0,194989107

1

0,001623377

0,19

Tableau4 : L'alpha de cronbach des 26 items du test de Mathématique

Math average

item-rest Inter-item

Item Obs Sign correlation correlation correlation alpha

math_a

2557

+

0,4683

0,3915

0,1383

0,8005

math_b

2557

+

0,457

0,3793

0,1387

0,801

math_c

2557

+

0,5204

0,448

0,1364

0,798

math_d

2557

+

0,4964

0,4219

0,1373

0,7991

math_e

2557

+

0,5118

0,4387

0,1367

0,7984

math_f

2557

+

0,3625

0,2784

0,1421

0,8055

math_g

2557

+

0,3501

0,2652

0,1426

0,8061

math_h

2557

+

0,5838

0,5177

0,1341

0,794

math_i

2557

+

0,5605

0,4921

0,135

0,796

mathj

2557

+

0,4126

0,3316

0,1403

0,8032

math_k

2557

+

0,4677

0,3909

0,1383

0,8005

math_l

2557

+

0,4392

0,3601

0,1394

0,8019

math_m

2557

+

0,5224

0,4502

0,1364

0,7979

math_n

2557

+

0,3845

0,3017

0,1413

0,8045

math_o

2557

+

0,4316

0,352

0,1396

0,8023

math_p

2557

+

0,2119

0,1214

0,1475

0,8123

math_q

2557

+

0,4557

0,3778

0,1388

0,8011

math_r

2557

+

0,2685

0,1798

0,1455

0,8098

math_s

2557

+

0,3422

0,2569

0,1429

0,8064

math_t

2557

+

0,506

0,4324

0,1369

0,7987

math_u

2557

+

0,3041

0,217

0,1442

0,8082

math_v

2557

+

0,1303

0,0382

0,1505

0,8158

math_w

2557

+

0,3678

0,284

0,1419

0,8053

math_x

2557

+

0,456

0,3782

0,1387

0,8011

math_y

2557

+

0,4151

0,3343

0,1402

0,803

math_z

2557

+

0,3956

0,3135

0,1409

0,804

Test scale

 
 
 
 

0,1402

0,8091

Annexe III

I. Code R pour le test de robustesse

#création d'une fonction qui estime les paramètre du modèle# #sur 50% de l'échantillon tirer aléatoirement#

estimation<- function (data11) {

echantillon <- sample(1:nrow(data11), ceiling(nrow(data11)*0.5)) y<-ltm(data11[echantillon, ] ~ z1)

coef<-coef(y)}

estimation(data11)

#appeler la fonction 5 fois avec la fonction replicate()#

resultat <- replicate(5, estimation(data11))

resultat[1,1,1]

resultat[1,1,]

#calculer la moyenne de l'indice de difficulté de l'item # #FIN5F__E dans les cinq itération#

mean(resultat[1,1,])

#toutes les moyennes et variances de tout les items#

#et des deux indices#

apply(resultat, MARGIN = c(1,2),FUN=mean)

apply(resultat, MARGIN = c(1,2),FUN=var)

II. &RGFB SRXLII IPB11111190101e

#Importation des données au format csv # data11<-read.csv(" C:/Users/acer/Desktop/stage/data11.csv", header =

TRUE,sep = ",") #

data05<-read.csv(" C:/Users/acer/Desktop/stage/data05.csv", header =

TRUE,sep = ",") #

summary(data05) ############### #library#

###############

library(ltm)

#
#

#############################################################

#le modèle à deux paramètres non contraint (BIR)#

#############################################################

#Données PASEC# P<- ltm(data11 ~ z1) Y<-coef(P)

#indice de difficulté (2011)#

y<-Y[1:33,1]

y<- as.matrix(y)

#indice de difficulté des items communs (2011)#

p<-Y[1:5,1]

p<- as.matrix(p)

#indice de discrimination des items communs (2011)#

d<-Y[1:33,2]

d<- as.matrix(d)

#moyenne et ecart-type des indices de difficulté des items communs (2005)# mean(p)

var(p)

SP<-sqrt(var(p))

#Données Cameroun 2005#

V<- ltm(data05 ~ z1)

X<-coef(V)

#indice de difficulté des items communs#

v<-X[1:5,1]

v<- as.matrix(v)

#moyenne et ecart-type des indices de difficulté des items communs (2005)# mean(v)

SV<-sqrt(var(v))

#les paramètre de transformation linéaire (slope/intercept)#

slope<-SV/SP

intercept<-(mean(p)*slope)+mean(v)

#paramètre de difficulté de 2011 mis à l'echelle de 2005#

Diff11<- y*rep(slope)+rep(intercept) Diff11[1:5,1]<- y[1:5,1]

#paramètre de discrimination de 2005 mis à l'echelle de 2005# Dis11<-d/rep(slope)

Dis11[1:5,1]<- d[1:5,1]

#proba de réussite à l'item i#

theta<-c(-1,0,1)

proba11<- function(Dis11, Diff11, theta) {inv.logit(Dis11*(theta-Diff11))} score11<- function (theta) {sum(proba11(Dis11,Diff11,theta))} prcscore11<-function(theta){score11(theta)/33}

#2005#

#indice de difficulté (PASEC)#

Diff5<-X[1:33,1]

Diff5<- as.matrix(Diff5)

#indice de dicrimination#

Dis5<-X[1:33,2]

Dis5<- as.matrix(Dis5)

proba5<- function(Dis5, Diff5, theta) {inv.logit(Dis5*(theta-Diff5))} score5<- function (theta) {sum(proba5(Dis5,Diff5,theta))} prcscore5<-function(theta){score5(theta)/33}

#courbe#

score11_bis<-c(score11(-1), score11(0), score11(1)) score5_bis<-c(score5(-1), score5(0), score5(1))

plot ( theta,score5_bis,col="green",ylab="Estimated true score",xlab="Trait

latent",ylim=c(0,30),xlim=c(-2,2))

lines ( theta,score11_bis, col="red")

proba11_P<- function(Dis11, Diff11, theta1) {inv.logit(Dis11*(theta1-

Diff11))}

score11_P<- function (theta1) {sum(proba11(Dis11,Diff11,theta1))} proba5_P<- function(Dis5, Diff5, theta1) {inv.logit(Dis5*(theta1-Diff5))} score5_P<- function (theta1) {sum(proba11(Dis5,Diff5,theta1))}

theta1<-c(-2,-1.5,-1,-0.75,-0.5,-

0.25,0,0.25,0.5,0.75,1,1.25,1.5,1.75,2,2.25,2.5,2.75,3)

length(theta1) length(score5_bis_P)

score5_bis_P<-c(score5_P(-2),score5_P(-1.5),score5_P(-1),score5_P(- 0.75),score5_P(-0.5),score5_P(-

0.25),score5_P(0),score5_P(0.25),score5_P(0.5),score5_P(0.75),score5_P(1), score5_P(1.25), score5_P(1.5), score5_P(1.75),score5_P(2), score5_P(2.25), score5_P(2.5), score5_P(2.75),score5_P(3))

score11_bis_P<-c(score11_P(-2),score11_P(-1.5),score11_P(- 1),score11_P(-0.75),score11_P(-0.5),score11_P(- 0.25),score11_P(0),score11_P(0.25),score11_P(0.5),score11_P(0.75),score11_P(1), score5_P(1.25), score5_P(1.5), score5_P(1.75),score5_P(2), score5_P(2.25), score5_P(2.5), score5_P(2.75),score5_P(3))

plot ( theta1,score5_bis_P,col="green",ylab="Estimated true

score",xlab="Trait latent",ylim=c(0,30),xlim=c(-2,2))

lines ( theta1,score11_bis_P, col="red")

III. &RdI-I5 SRXLID IPisI-AIIIéERI-RI- DAI-E lI- SDEkDge Irtoys

# La méthode MS est mean/sigma est appliquée #

scaling_11on5_bis<-sca(old.ip=coef5, new.ip=coef11,old.items=1:5,new.items=1:5,old.qu = NULL, new.qu =
NULL,method="MS",bec=FALSE)

#On récupère les coef mis à l'échelle # coef11_scaled5_bis<-scaling_11on5_bis$scaled.ip

coef11scaled5bis

# estimated true score #

true_score <- function (coef, theta) { sum(inv.logit(coef[34:66]*(rep(theta,33)-coef[1:33]))) }

# comparaison des true score #

true_score2005<-c(true_score(coef5,-2),true_score(coef5,- 1.5),true_score(coef5,-1),true_score(coef5,-0.75),+

true_score(coef5,-0.5),true_score(coef5,-0.25),true_score(coef5,0),+

true_score(coef5,0.25),true_score(coef5,0.5),true_score(coef5,0.75),true_score(c oef5,1),true_score(coef5,1.5),true_score(coef5,2))

true_score_scaled5_bis <- c(true_score(coef11_scaled5_bis,-

2),true_score(coef11_scaled5_bis,-1.5),+

true_score(coef11_scaled5_bis,-1),true_score(coef11_scaled5_bis,-
0.75),true_score(coef11_scaled5_bis,-0.5),true_score(coef11_scaled5_bis,-0.25),+

true_score(coef11_scaled5_bis,0),true_score(coef11_scaled5_bis,0.25),true_scor e(coef11_scaled5_bis,0.5),+

true_score(coef11_scaled5_bis,0.75),true_score(coef11_scaled5_bis,1),true_scor e(coef11_scaled5_bis,1.5),true_score(coef11_scaled5_bis,2))

theta1<-c(-2,-1.5,-1,-0.75,-0.5,-0.25,0,0.25,0.5,0.75,1,1.5,2)

plot ( theta1,true_score2005,col="green",main="Test characteristisc curves 2005-scaled2011",type="l",ylab="Estimated true score",xlab="Ability scale",ylim=c(0,30),xlim=c(-2,2))

lines ( theta1,true_score_scaled5_bis, col="red")






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Là où il n'y a pas d'espoir, nous devons l'inventer"   Albert Camus