WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Analyse de l'accès à l'éducation à Kinshasa

( Télécharger le fichier original )
par Hence Mathodi Lumbu
Université de Kinshasa - Licence 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Tree description

Number of nodes

25

Number of leaves

13

Decision tree

· cmage < 44,5000 then m13b_ens = Primaire (73,43 % of 399 examples)

· cmage >= 44,5000

o cmage < 52,5000

§ e5_tele < 0,5000

§ depjour$ < 9,2750 then m13b_ens = Primaire (64,93 % of 134 examples)

§ depjour$ >= 9,2750 then m13b_ens = Secondaire (100,00 % of 5 examples)

§ e5_tele >= 0,5000

§ q17_tmen < 4,5000 then m13b_ens = Secondaire (75,00 % of 8 examples)

§ q17_tmen >= 4,5000

§ q17_tmen < 15,5000

§ m15_tec in [Privé,Public conventionné,,]

§ h5_stocu in [Propriétaire,Locataire,Location vente,Logé gratuitement par un tiers,Autre]

§ m8b_reli in [Protestant,Sans religion,Autre chrétien,Autre réligion,Musulman,Kimbanguiste,Animiste] then m13b_ens = Secondaire (53,57 % of 25 examples)

§ m8b_reli in [Catholique] then m13b_ens = Primaire (60,29 % of 68 examples)

§ h5_stocu in [Logé par l'employeur,Logé concession familiale] then m13b_ens = Primaire (86,67 % of 13 examples)

§ m15_tec in [Public non conventionné]

§ cmeduc in [Universitaire,Primaire,Programme non formel,9] then m13b_ens = Secondaire (60,53 % of 32 examples)

§ cmeduc in [Secondaire] then m13b_ens = Primaire (58,82 % of 34 examples)

§ q17_tmen >= 15,5000 then m13b_ens = Primaire (100,00 % of 4 examples)

o cmage >= 52,5000

§ depjour$ < 4,2800

§ e5_tele < 0,5000 then m13b_ens = Primaire (58,72 % of 109 examples)

§ e5_tele >= 0,5000 then m13b_ens = Secondaire (62,82 % of 78 examples)

§ depjour$ >= 4,2800 then m13b_ens = Secondaire (60,14 % of 276 examples)

Computationtime:125ms.
Created at 12/01/2008 17:49:45

a) Matrice de confusion :

C'est un tableau de contingence confrontant les classes obtenues (colonnes) et les classes désirées (lignes) pour l'échantillon. Sur la diagonale principale on trouve donc les valeurs bien classées, hors diagonale les éléments mal classés ; la somme des valeurs sur une ligne donne le nombre d'exemplaires théoriques de la catégorie. Si les classes sont indépendantes, la position de l'erreur n'a aucune signification, si par contre les classes ne sont pas indépendantes, on peut définir une sorte de gradation dans les erreurs. Notre échantillon compte 1911 observations reparties entre les quatre classes. Cette répartition peut être équitable ; ce qui n'est pas une nécessité pour la bonne interprétation.

De la matrice de confusion en annexes ressortent trois indicateurs qu'on définit comme suit :

· Le taux d'erreur global en resubstitution : c'est le ratio entre le nombre d'observations bien classés par rapport par rapport au nombre d'observation de l'échantillon ; Si on considère notre matrice de confusion en annexes, on calcule. On dira donc que le taux de reconnaissance est d'environ 63%.. Ce qui veut dire que le taux le taux d'erreur est de 37%.

· Le taux d'erreur à priori : c'est le taux d'erreur pour chaque catégorie d'observation ; si on considère chaque classe individuellement, on fait 24% d'erreur pour reconnaître la catégorie « primaire », 45% d'erreur pour reconnaître la catégorie « secondaire ». les autres catégories n'étant pas reconnues.

· Le taux d'erreur à posteriori : c'est le taux de mauvaises classifications par rapport aux bonnes classifications pour une classe donnée. Si on considère le système du point de vue des réponses fournies, lorsqu'on déclare qu'une observation appartient à la catégorie « primaire » on se trompe 387 fois sur 1134 (soit 0,3413), il y a 0,4% de chance que ce soit une observation de la catégorie « programme non formel », 32,5% de chances que ce soit une observation de la catégorie « secondaire » et enfin 0,9% de chance que ce soit une observation de la catégorie « universitaire ». en d'autres termes on dira, le taux de fiabilité pour la catégorie « primaire » est de 65,5%. Par le même type de raisonnement, on trouve les taux de fiabilité des autres catégories. Pour la catégorie « secondaire », on se trompe 326 fois sur 777 (soit 0,4196), il y a 31% de chances que ce soit un élément de « primaire », 0,7% de chance que ce soit un élément de la catégorie « programme non formel », et enfin 10% de chances que ce soit de la catégorie « universitaire ». En d'autres termes, le taux de fiabilité pour la classe « secondaire » est de 58,3%. On ne se trompe pas pour les catégories « programme non formel » et « universitaire ».

b) Détermination de la taille de l'arbre :

L'algorithme utilisé par la méthode CART divise les données en deux échantillons; les informations de ces échantillons se trouvent dans la zone DATA PARTITION de l'arbre en annexes.

· Le premier échantillon, dit d'expansion (growing set) avec 1280 observations, permet de construire l'arbre. l'objectif est de produire des feuilles aussi pures que possible. Cet arbre minimise RE sur l'échantillon d'expansion. Bien entendu, il ne faut certainement pas utiliser cet arbre pour la prédiction, il est trop spécialisé, il colle exagérément aux données d'expansion, ingérant des informations spécifiques à ce fichier  d'expansion;

· Le deuxième échantillon, dit d'élagage (pruning set) avec 631 observations, sert à réduire l'arbre. l'algorithme réduit peu à peu l'arbre initial et à chaque étape, évalue les performances des sous arbres candidats sur le fichier d'élagage. Nous pouvons ainsi déterminer l'arbre optimal sur cet échantillon. Ici également, l'arbre optimal n'est pas le modèle définitif.

L'arbre sélectionné, est celui que nous allons utiliser pour la prédiction. Le principe est la préférence à la simplicité (parcimonie).

Breiman et al. (1984) proposent de calculer l'écart type SE de correspondant à l'arbre optimal, puis de choisir l'arbre le plus simple dont la réduction de l'erreur set inférieur à. C'est une heuristique comme une autre, le calcul de l'écart type est assez acrobatique et ce seuil est tout à fait arbitraire, nous pourrions prendre comme référence deux fois l'écart type, ou une autre valeur. Le logiciel TANAGRA que nous avons utilisé facilite le calcul par une autre approche que nous ne détaillons pas dans ce travail.

La zone TREE SEQUENCE de notre algorithme indique l'évolution de la réduction de l'erreur RE en fonction du nombre de feuilles de l'arbre, sur le fichier d'élagage. On peut retenir quatre arbres dans cette zone :

1. l'arbre réduit à la racine (Tree with one leaf, the root node) avec une feuille ;

2. l'arbre maximal (maximal tree ,« optimal » tree on growing set) avec 133 feuilles ;

3. l'arbre minimisant RE (optimal tree on the pruning set) achuré en bleu par le logiciel, avec 105 feuilles;

4. l'arbre qui été produit (selected tree) achuré en rouge par le logiciel, avec 13 feuilles.

L'arbre que nous avons construit a 12 noeuds feuilles et 13 noeuds de décision (voir zone TREES SEQUENCE de l'arbre en annexes). Le nombre total de noeuds est tel que renseigné par la zone TREE DESCRIPTION de notre arbre en annexes.

c) Interprétation de l'arbre :

· Accès au primaire :

Remarquons à partir de l'arbre en annexes que la première segmentation des données s'opère sur la variable cmage (âge du chef de ménage) avec un seuil de coupure de 44,5. La deuxième segmentation sur la même variable, cette fois au seuil 52,5. La troisième s'opère sur la variable télévision (e5-télé) au seuil 0,5. La quatrième segmentation sur la taille de ménage (q17-tmen) au seuil 4,5 et la cinquième segmentation s'est faite toujours sur cette même variable ; mais cette fois ci au seuil 15,5. A ce niveau le noeud terminal est pur (avec 100% d'éléments homogènes).

De ce qui suit on dira donc que, si l'âge du chef de ménage est élevé, ce qui détermine l'éducation des enfants ou favorise l'accès au primaire c'est la télévision. Pour ce, manquer de télévision dans le ménage suffit pour favoriser l'accès au primaire.

La taille du ménage intervient lorsque l'âge du chef de ménage est élevé et dans le ménage il y a au moins une télévision. Dans ce cas, les ménages qui ont une petite taille ont la facilité de scolariser leurs enfants. Les autres variables n'interviennent qu'accessoirement.

· Accès au secondaire :

Comme au précédent, la première segmentation se fait sur la variable taille du ménage au seuil 44,5, la deuxième s'opère toujours sur la même variable ; mais cette fois ci au seuil 0,5. La troisième segmentation s'opère sur la variable dépenses journalières en dollar américain (depjour). A ce niveau, le noeud feuille est pur, il ne contient que des observations homogènes.

On dira donc qu'au secondaire, parmi les déterminants de l'accès à l'éducation, l'âge du chef de ménage est le plus décisif, suivi de télévision qui agit positivement cette fois ci et enfin les dépenses journalières qu'effectue le ménage en monnaie américaine.

On peut l'expliquer de cette manière, si l'age du chef de ménage est très élevé, ce qui détermine l'accès au secondaire c'est la télévision. Cette fois, contrairement au niveau primaire, avoir au moins une télévision dans le ménage suffit pour favoriser l'éducation au secondaire. Les dépenses journalières du ménage n'interviennent que lorsque les deux variables ci hauts agissent autrement.

Le niveau universitaire et le programme non formel n'étant pas esquissés par notre algorithme en annexes, nous laissons la tâche aux jeunes chercheurs d'approfondir la recherche dans ce domaine pour la meilleure compréhension du fonctionnement de l'algorithme sous études.

Tableau 14 : Présentation des résultats

Variables

Modèle 1

Modèle 2

Modèle 3

Modèle 4

Modèle 5

Correlation and regression tree

 

 

 

 

 

 

Primaire

secondaire

 Taille du ménage

 0 ,041

(-2,04)

 0,042

(2,03)

 

 

 

(3)

 

Téléviseur

0,000

(-4,62)

0,001

(3,47)

 

0,000

(3,55)

 

(2)

(2)

Sexe de l'enfant

0,030

(2,16)

 
 
 
 
 
 

Religion du chef de ménage

0,080

(1,75)

 
 

0,010

(-2,57)

 
 
 

Sexe du chef de ménage

0,000

(-7,98)

 
 
 
 
 
 

Age du chef de ménage

0,000

(-12,63)

0,000

(6,39)

0,098

(1,65)

0,000

(5,85)

0,098

(1,65)

(1)

(1)

Ecole publique conventionnée

0,018

(2,36)

0,000

(9,96)

 
 
 
 
 

Chef a un niveau du type programme non formel

0,000

(-3,94)

0,080

(1,75)

 
 
 
 
 

Chef a un niveau secondaire

0,001

(-3,34)

 
 
 
 
 
 

Chef a un niveau universitaire

0,000

(-4,93)

0,070

(1,77)

 

0,007

(2,72)

 
 
 

Statut d'occupation du logement

 
 

0,013

(2,48)

 

0,013

(2,48)

 
 

Part du revenu consacré à l'enseignement

 
 

0.014

(-2,45)

0,000

(4,62)

0,014

(-2,45)

 
 

Type d'école de l'enfant

 
 
 

0,000

(-5,55)

 
 
 

Dépenses journalières du ménage

 
 
 

0,011

(2,56)

 
 

(3)

(.) : Z-statistic pour les régressions logistiques et ordre de détermination pour CART

d) Comparaison des résultats :

Les tableau 14 ci-haut et 15 ci-dessous nous renseignent que toutes les variables décisives dans CART sont significatives dans les régressions logistiques prises de façon détaillée (c'est-à-dire on considère les variables significatives dans chaque régression isolée). A l'exception de la dépense journalière du ménage qui est segmentée dans CART, mais significative seulement à la régression du niveau universitaire.

La part du revenu consacrée à l'enseignement est significative dans la régression du programme non formel et la régression globale, mais n'est pas segmentée dans CART. Pour cela, nous pouvons donc nous assurer que les résultats de ces deux méthodes sont cohérents du point de vue statistique.

Tableau 15 : résultats comparés des régressions logistiques et de la méthode CART

 

Modèle logistique

Méthode CART

Primaire

Secondaire

Niveau global

Primaire

Secondaire

1

Age du chef de ménage

Age du chef de ménage

Age du chef de ménage

Age du chef de ménage (1)

Age du chef de ménage (1)

 

2

Télévision

Télévision

 

Télévision (2)

Télévision (2)

3

Taille du ménage

Taille du ménage

 

Taille du ménage (3)

 

4

Sexe de l'enfant

 
 
 
 

5

Religion du chef de ménage

 
 
 
 

6

Sexe du chef de ménage

Sexe du chef de ménage

 
 
 

7

Type d'école fréquenté

Type d'école fréquenté

 
 
 

8

Education du chef de ménage

 
 
 
 

9

 
 
 
 

Dépense journalières du ménage (3)

10

 
 

Statut d'occupation du logement

 
 

11

 
 

Part du revenu consacré à l'éducation

 
 

(.) : Ordre de détermination dans CART.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Entre deux mots il faut choisir le moindre"   Paul Valery