II.3.3. L'analyse statistique.
Dans ce travail, nos analyses se basent sur notre variable
multidimensionnelle qui est le comportement sexuel des jeunes
célibataires.
A/ Analyse bivariée (le Test de Khi2).
Cette analyse consiste en premier lieu de recourir à la
description simple afin étudier le niveau et la tendance des
comportements sexuels selon les différentes caractéristiques des
jeunes et des chefs des ménages.
L'analyse des comportements des jeunes en matière de
sexualité fait ressortir le poids des comportements sexuels des jeunes
face à la précocité des rapports sexuels, au
multi-partenariat et à la non-utilisation systématique du
préservatif.
Cependant, les études sur les facteurs explicatifs des
comportements sexuels des jeunes en Afrique ont ressorti plusieurs variables.
Ce qui nous a permis de sélectionner celles qui peuvent nous servir
d'analyse pour le cas des jeunes filles célibataires en RDC. Or, pour
arriver à retenir ces variables, le test de Khi2 a été
utilisé du fait qu'il est fondé sur la comparaison de la valeur
du Khi2 expérimental et celle observée dans les tableaux
croisés en se référant au degré de liberté.
Le test de Khi2 donne la valeur qui permet d'estimer la
stabilité de l'analyse lorsque l'on associe la variable explicative avec
chaque dimension des comportements sexuels. Il s'agit concrètement de
déterminer les relations éventuelles entre les comportements
sexuels des jeunes filles et les facteurs susceptibles de les expliquer afin de
dégager les variables indépendantes qui sont significativement
associées à chacune des dimensions des comportements sexuels.
B/ Analyse multi variée (le CHAID).
En deuxième position, nous allons procéder
à l'aide de la méthode classification arborescente
hiérarchique, à l'analyse multi variée en vue de ressortir
les facteurs qui expliquent mieux les comportements sexuels des jeunes. Ceci
pour nous permettre à identifier en fonction des conditions
socioéconomiques des ménages, les jeunes filles
célibataires qui adoptent des comportements sexuels à risque.
Pour arriver à l'identification, le test de Kh2 est
utilisé, qui est basé sur l'algorithme à partitionnement
récursif pour trouver un groupe homogène. Le CHAID détecte
l'interaction entre variables dans un jeu de données. En utilisant cette
technique on peut établir des relations de dépendance entre
variables et les variables clés sont répertoriées par
ordre chronologique à partir de la première variable (celle qui
explique mieux le phénomène)( Nisbet and al, 2009).
Par rapport à cette méthode, Belhedi (2010)
montre que la classification hiérarchique descendante consiste à
subdiviser un ensemble en groupes homogènes qui, à leurs tours se
trouvent subdivisés jusqu'à aboutir aux n unités
élémentaires, elle va donc de 1 à (n - 1) unités. A
partir de ceci, chaque groupe identifié sur le premier facteur (F1) se
trouve, à son tour, subdivisé en trois sous-groupes selon les
scores du second facteur F2 et ainsi de suite. Et enfin, le nombre
théorique de classes finales (C) est égal au produit du nombre
des modalités retenues(m) et du nombre des facteurs utilisés(f).
Cette méthode a l'inconvénient d'aboutir très rapidement
à un nombre élevé de classes; mais utilisée avec
prudence, elle donne de bons résultats.
L'auteur précité continue sa pensée pour
dire que la simplicité de la méthode de la classification
descendante se trouve contrecarrée par deux griefs:
· le nombre de variables utilisées doit être
limité puisque le nombre théorique de classes est de: c = Ð
mv où v: la variable, m: le nombre de modalités.
· la justification théorique se pose par l'ordre
des critères utilisés.
La classification permet d'opérer des partitions et de
distinguer des classes ou types en affectant les individus à une classe
en tenant compte de toute l'information et non pas seulement d'une variable ou
d'un seul facteur (Belhedi A., 2010).
Les divisions de cet arbre s'arrêtent lorsque les
classes obtenues sont homogènes ou lorsque la classe est petite. On
considère qu'une classe est homogène lorsque le lien entre chaque
variable et la première composante principale est trop faible.
Le CHAID est une méthode exploratoire pour
étudier la relation entre une variable dépendante et une
série de variables prédictives. La modélisation CHAID
sélectionne un ensemble de prédicateurs et leurs interactions qui
prédisent de manière optimale la mesure dépendante. Le
modèle développé est un arbre de classification (ou de
partitionnement de données d'arbre) qui montre comment les grands
«types» formés à partir des indépendantes
(explicatives ou splitter), prédisent un critère ou une variable
dépendante. Si elle est bien faite, cette analyse permet de mieux
comprendre les phénomènes qu'on entend étudier.
Concernant l'interprétation des résultats du
CHAID, celle-ci est faite à partir du schéma classificatoire,
hiérarchisant les variables indépendantes à partir de la
variable dépendante dans l'ordre décroissant d'explication. De ce
fait, CHAID a le mérite de la cohérence : on accepte la
segmentation si le Kh2 calculé sur un sommet est significativement
supérieur à un seuil que l'on se fixe. Si le Kh2 calculé
est supérieur au seuil théorique correspondant au risque de
première espèce que l'on s'est fixé, on accepte la
segmentation (ou ce qui revient au même, si la p-value calculée
est inférieure au risque de première espèce). Le tableau
de classification nous permettra de mesurer la validité du
modèle. Ce tableau reprend les éléments permettant
l'interprétation des meilleurs prédicateurs à partir
de :
· La colonne de groupes dans laquelle on reprend leur
ordre dans l'explication du phénomène étudié selon
la numérotation des classes ;
· La colonne reprenant le pourcentage des classes
(groupes) selon leur explication par rapport à la modalité la
plus fréquente de la variable dépendante ;
· La colonne d'observations reprenant le
phénomène étudié ;
· La colonne des caractéristiques ou facteurs
déterminants le phénomène étudié.
Dans le cadre de notre étude, la règle
utilisée est la règle de la majorité : on affecte à
la feuille la modalité de la variable à prédire quand elle
présente l'effectif le plus grand. Etant donné que le
pourcentage de la variable qui est directement lié à la variable
dépendante est celui correspondant de la modalité dominante de la
variable au niveau du noeud (classe) étant lui donné par la
pureté. Le seuil de signification est 5% pour toute modalité du
noeud terminal d'une variable. Une variable explique les comportements sexuels
des jeunes célibataires si le pourcentage de la modalité la plus
dominante de cette classe est supérieur à ce seuil.
|