· II-LES
OUTILS D'ANALYSE DES DONNEES
Les données collectées sur le terrain
doivent être soumises aux tests appropriés et les résultats
qui en découleront vont servir à confirmer ou à infirmer
nos hypothèses de recherche. Nous allons donc définir ici les
différents tests statistiques qui vont nous servir d'analyser ces
données. Il s'agit entre autres le tri à plat, l'analyse par
correspondance principale, la corrélation et la régression
linéaire simple.
A- Les méthodes descriptives
Nous développons successivement ici ces
différentes méthodes qui ont permis de décrire nos
données. Il s'agit de tri à plat et de l'analyse en
correspondance principale (ACP).
1-Le tri à plat
Le tri à plat est un test statistique qui permet de
contrôler la qualité des données collectées, de
connaître le nombre de répondants pour chaque modalité de
réponse (variable), puis en indiquant le pourcentage des
répondants à cette variable (fréquence relative). On peut
également détecter les erreurs de codification, des erreurs de
saisie ou des erreurs de transcription des codes du questionnaire grâce
au tri à plat.
2-L'analyse en composantes principales
(l'ACP)
L'ACP est une méthode d'analyse des données
multivariées. Elle permet de décrire et d'explorer les relations
qui existent entre plusieurs variables simultanément à la
différence des méthodes bi-variées qui étudient les
relations supposées entre deux variables.
La procédure s'appuie sur un tableau
caractéristique (c.-à-d. variables) X individus. On cherche un
nombre plus réduit de variables pour décrire efficacement les
phénomènes structurant d'un groupe de données.
On cherche donc les corrélations qui existent
entre les différentes variables, pour rapprocher au sein de composantes
les variables les plus proches entre elles. On regroupe donc les variables pour
qu'elles composent les dimensions dans le but de réduire le nombre des
caractéristiques décrivant les individus afin de mieux
interpréter les données.
L'ACP répond à un certain nombre de
critères qui doivent être pris en compte pour factoriser les
données. D'abord, dans la matrice des corrélations, plusieurs
variables doivent être corrélées (supérieur à
0,50), ensuite, l'indice de KMO (Kaiser-Meyer-Olkin) doit tender vers 1 et
enfin, il faut examiner le test de Bartlett. Ce test cherche à
vérifier si la matrice des corrélations entre les variables ou
items est une matrice unitaire ou non.
Ainsi, pour vérifier la cohérence interne
des items, le recours au coefficient Alpha de Cronbach qui est un bon
estimateur de fidélité est sollicité. Ce coefficient varie
entre 0 et1 et l'échelle de bonne consistance interne doit être
supérieure ou égale à 0,6.
L'ACP permet donc de réduire des tableaux des
grandes tailles en un petit nombre des variables (2ou 3
généralement) tout en conservant un maximum d'information pour
faciliter l'interprétation d'un grand nombre des données
initiales et donner plus de sens aux données réduites.
B- Les tests explicatifs
Nous nous servirons de ces tests pour le traitement des
données. Ce sont la corrélation et la régression
linéaire simple. Ces tests seront appliqués concomitamment sur
toutes nos variables impliquées les hypothèses de recherche. En
effet, une analyse de corrélation sera d'abord effectuée pour
vérifier la liaison entre les variables et, ensuite, le test de la
régression linéaire donnera la pertinence de cette liaison.
1-La corrélation
Le coefficient de corrélation r est une mesure
d'association (d'indépendance) entre deux variables métriques.
Elle mesure l'intensité de la co-variation entre les deux variables.
Cette mesure est standardisée (c'est-à-dire, elle ne
dépend pas de l'unité utilisée pour chaque variable), et
est comprise entre -1 et +1.
Plus le coefficient est proche de 1 en valeur absolue,
plus les variables sont dites corrélées :
- Si r est proche de 1, ceci signifie que les deux variables
varient dans le même sens ;
- Si r est proche de -1, ceci signifie que les deux variables
dans en sens inverse l'une de l'autre ;
- Plus r est proche de 0, moins les variables sont
corrélées. 0 signifie absence de corrélation entre les
deux variables.
La mesure où l'on travaille sur un
échantillon (et non sur la population totale), SPSS teste, si le
coefficient obtenu est significativement différent de 0 (autrement dit,
si le coefficient obtenu est différent de 0 dans la population). Il
indique le risque d'erreur de première espèce (sig.), à
savoir le risque de rejeter à tort l'hypothèse de non
corrélation (ou ce qui revient au même l'hypothèse H0
suivant : r = 0) si H0 est rejeté, alors on conclut que les
variables sont corrélées. SPSS permet de représenter sur
un tableau croisé les mesures de corrélation deux à deux
d'un nombre illimité de variables (par rapport à des besoins
usuels s'entend).
Cependant, les corrélations ne mettent en
évidence qu'une association sans signifier qu'il ya entre les variables
concernée une relation de causalité. De plus, elle
présente d'inconvénient majeur de ne jamais raisonner sur plus de
deux variables à la fois (TSAPI, 1997).
2-La régression linéaire
simple
L'objectif de l'analyse de la régression est
de confirmer l'existence de relation entre deux ou plusieurs variables de
nature quantitative testée par la corrélation. Lorsqu'on veut
tester l'existence de relation entre plusieurs variables explicatives et une
variable à expliquer, on utilise la régression multiple. La
régression simple est consacrée au cas d'étude de relation
entre une seule variable explicative et la variable à expliquer. Ce
dernier cas sera utilisé dans le cadre de notre étude. Nous
présentons d'abord le modèle avant de donner
l'interprétation des résultats.
a)Présentation du
modèle
L'ajustement linéaire ou régression
consiste à rechercher la « droite des moindre
carrés », de type Y= aX1+ ... + aiXi +...+ b
(constante), qui passe « le plus près possible » de
toutes les observations dans la population.
Y = variable dépendante (ou variable à
expliquer)
Xi = variables dépendantes (ou explicatives)
b= constante = valeur de Y quand X est égal à 0
(tous les Xi sont nuls).
La régression simple est un cas particulier de
la régression multiple avec une seule variable X au lieu de plusieurs
variables X1 (régression multiple).
L'examen doit porter sur deux points. Il vise
à :
- D'une part, que la relation linéaire est significative
(c'est-à-dire que les coefficients de a1 de la droite sont
significativement différents de 0) ; autrement dit qu'elle n'est
pas due au hasard. ;
- D'autre part, que la droite de régression Y=
aX1+ ... + aiXi +...+ b résume bien l'ensemble des
observations, c'est-à-dire que la part de la variance de la variable
à expliquer Y résumé dans la droite, est
élevée. Autrement dit, on vérifie que les observations
sont proches de la droite des moindres carrés.
Il faut insister sur deux notions différentes (un peu
comme pour la corrélation) :
- A voir de coefficients significatifs, c'est-à-dire qui
ne sont pas dus au hasard, ceci est lié en partie à la taille de
l'échantillon (ceci invite à rechercher le seuil de signification
chaque coefficient) ;
- Avoir une part de variance importante, ceci est lié
à la distance entre les points et la droite des moindres
carrés.
Par rapport à une matrice de corrélation (test de
régression), non seulement on teste l'existence de relation, mais on
teste la nature de cette relation.
b) Interprétation des
résultats
Au niveau global, les indices qui permettent de juger la
qualité de la régression effectuée sont :
· Le coefficient de détermination
R2 : il est le carré du coefficient de
corrélation multiple et sert à mesurer la qualité de
l'ajustement entre les variables de l'analyse. Il s'interprète comme le
pourcentage de la variance de la variable à expliquer restitué
par le modèle. Plus il est proche de 1, plus les valeurs
observées calculées par le modèle sont proches.
· Le test de ficher dont la valeur calculée F, permet
d'apprécier l'influence de l'ensemble de variables explicatives. Il
permet de tester si le modèle linéaire rend compte de
manière significative le comportement de la variable dépendante.
Si on a n observations et p variables, F calculé est significatif au
seuil critique retenu et à (p, n-p-1) degré de liberté, si
sa valeur est supérieure à celle de F théorique pour les
mêmes références. Il permet ainsi de juger de la
validité des résultats, autrement dit, de la qualité des
modèles sélectionnés.
· Le coefficient de variation qui donne une idée de
la qualité globale de la régression. Le carré de la
variance résiduelle mesure l'erreur standard de la régression.
Elle donne une idée de l'imprécision de la régression
exprimée dans les unités de la variable à expliquer.
· Le test de student sur la signification individuelle des
coefficients de chaque variable explicative permet d'en apprécier la
valeur explicative et selon le cas, la faire ressortir du modèle. Il
permet de savoir si le coefficient du modèle est significativement
différent de zéro. Si (t) calculé est supérieur
à (t) théorique, on accepte que le coefficient soit
significativement différent de zéro.
· Le bêta quant à lui exprime le pouvoir
explicatif de chaque variable explicative.
Après avoir présenté la
démarche qui nous a permis de collecter les données sur le
terrain et les tests qui nous serviront à traiter ces données,
nous consacrons la prochaine section à la présentation des
caractéristiques de notre échantillon et à la description
de l'endettement.
Section II : LES CARACTERISTIQUES DE L'ECHANTILLON
ET DESCRIPTION DE L'ENDETTEMENT
Cette section ferra l'objet de présentation des
différents éléments que compose notre questionnaire de
recherche.
|