B- Les méthodes d'analyse de données
Pour tester nos hypothèses formulées, certaines
méthodes d'analyse statistiques ont été
utilisées : le tri à plat, l'analyse en composantes
principales, la régression multiple et le chi-deux. Ces analyses ont
été effectuées grâce au logiciel SPSS.
1- Le tri à plat
C'est une méthode descriptive unidimensionnelle. Les
tris à plat permettent d'avoir une idée sur la distribution de
certaines variables. Cette analyse vise à caractériser notre
échantillon et nos répondants.
2- L'analyse en composantes principales
Il s'agit d'une analyse de données qui permet de
réduire un ensemble hétérogène de variables en un
ensemble plus restreint de variables calculées. Les variables
calculées expliquent le maximum de la variable totale : on les
appelle composantes principales. Ces composantes permettent une
représentation sur des axes de coordonnées.
L'interprétation des graphes exige ainsi une certaine prudence (on a
pour ce faire recours parfois à des rotations d'axes). Ici, nous avons
retenu la rotation VARIMAX. Cette rotation permet d'amplifier
la variance de la variable expliquée par la composante principale avec
laquelle la variable en question est la corrélée et favorise
ainsi l'interprétation de chaque composante principale.
Ainsi, le chercheur est confronté à une
contrainte de synthèse ou résumé qui implique une perte de
certaines informations. Il a également une contrainte de restitution des
informations de base. Ces deux contraintes sont prises en compte dans la
procédure de traitement des données par l'analyse en composantes
principales puisque chaque composante principale résume un certain
pourcentage de la variable expliquée de l'ensemble des items ou
variables.
Pour ce qui concerne le critère d'extraction des
composantes principales, à utiliser, nous avons retenu le critère
de Kaiser qui consiste à retenir les valeurs propres
(Eingenvalue) supérieur à 1.
La pertinence de l'ACP pour les variables à analyser
à été faite grâce à l'indice de
KMO (Kaiser-Meyer-Olkin), qui saisit l'adéquation de
l'ACP avec les données de l'échantillon de l'étude.
3- La régression multiple
L'objectif de l'analyse de la régression est
d'expliquer une variable dépendante (ou à expliquer) par un
ensemble de variables indépendantes (ou explicatives). Elle exige pour
ce fait, trois conditions :
- elle établit une relation linéaire entre la
variable à expliquer et les variables explicatives ;
- toutes les variables doivent être métriques et
les données se présentent sous forme d'une matrice de valeur pour
la variable à expliquer (Y) et les variables explicatives (X1, X2, ...,
Xp) ;
- les variables explicatives doivent être
indépendantes les unes des autres (c'est à dire que le
coefficient de corrélation entre deux variables explicatives doit
être nul ou très faible).
Ces deux dernières conditions sont rarement
réunies dans les résultats d'enquêtes, une
possibilité d'utilisation consiste à avoir recours à un
calcul intermédiaire et à prendre comme variables explicatives
les facteurs issus d'une ACP préalable. C'est à cette
méthode que nous avons faite recours.
A partir des n observations des variables
à expliquer ou explicatives, on cherche à calculer les
coefficients de régression. On cherche à minimiser le
carré des écarts entre les estimations de la variable à
expliquer Y fournies par la relation linéaire et les observations
effectuées sur Y (méthode des moindres carrés) ; en
fait, on cherche les coefficients qui réduisent la somme des
carrés des termes d'erreur.
En effet, pour l'interprétation de nos données,
nous ferons recours à trois tests statistiques que sont : le
coefficient de détermination (R²), le test de Fisher-Snedecor (F)
et le test de Student (t).
- le coefficient de détermination
(R²) (carré du coefficient de corrélation
multiple R) indique la part de variance de la variable expliquée
restituée par le modèle. R² est le coefficient
synthétisant la capacité de la droite de régression
à retrouver les différentes valeurs de la variable
expliquée. Il exprime donc la qualité de l'ajustement global.
Ainsi, plus ce coefficient est proche de 1, plus la restitution est
parfaite.
- le test F de Fischer-Snedecor qui rapporte
la variance expliquée à la variance résiduelle. Il permet
d'évaluer la signification du coefficient de détermination en
fonction du nombre d'observations. Par conséquent, c'est la
qualité de l'ajustement global qui permet de juger de
l'acceptabilité ou du rejet des hypothèses.
- le test t de Student mesure la contribution
de chaque variable explicative au modèle. Ainsi, ce test sur chaque
coefficient de régression permet d'examiner si, la variable explicative
a une relation significative avec la variable à expliquer.
4- Le chi-deux
Le chi-carré repose sur la comparaison entre les
fréquences observées dans les différentes séries
partielles d'un tableau de contingence et les fréquences
théoriques qui devaient apparaître s'il n'y avait aucune relation
entre les variables considérées.
Dans notre travail, la valeur du X², le degré de
liberté et la probabilité de signification du X² sont
calculés et obtenus automatiquement grâce au programme statistique
utilisé. Si la probabilité de signification du chi-deux est
faible (plus petit que 0,05), nous concluons qu'il y a une liaison
significative entre les deux variables.
Le coefficient phi () et le coefficient de
contingence (C) sont les mesures d'association qui seront
utilisées. Ces mesures permettent à partir du X² de
déterminer le degré ou l'intensité de la liaison.
Le coefficient phi est particulièrement adapté
aux tableaux de contingence 2 x 2, sa formule est :
= [ X²/N ]1/2
Avec :
N = nombre total des données
X² = la valeur du chi-deux
Pour le tableau (2 x 2), il varie de -1 à 1. Ces
valeurs extrêmes traduisent une parfaite relation entre les deux
variables. La valeur zéro indique une absence de relation.
Le coefficient de contingence permet de mesurer le
degré de dépendance entre les variables étudiées
dans le tableau de contingence. Il varie entre 0 et une valeur maximale qui
dépend du nombre de lignes et de colonnes du tableau mais qui est
absolument inférieur à 1. Sa formule est :
C = v X² cal / v X² cal + n
Pour effectuer le test du chi-deux dans notre cas, nous avons
fait le score de la variable compétence puisqu'elle est mesurée
par seize items. Pour ce faire, nous avons calculé le minimum (26), le
maximum (71) et la médiane (57). Un individu qui totalise un score
inférieur à la médiane sera considéré comme
incompétent. Celui qui totalise un score supérieur à la
médiane sera qualifié de compétent. Cette nouvelle
variable devenue qualitative sera nommée V33 et est
intégrée automatiquement au bloc des données.
En somme, conformément à toute méthode
hypothético-déductive, une étude empirique a
été effectuée. La population d'étude est
constituée de soixante unes TPE et PME du Grand Nord Cameroun de tous
les secteurs d'activité dirigées par leur propriétaire.
L'échantillon a été sélectionné par la
méthode de choix raisonné. De plus, le recueil des données
auprès de l'échantillon s'est fait par questionnaire. Enfin, pour
analyser les données recueillies, le tri à plat, l'analyse en
composantes principales, la régression linéaire multiple et le
chi-deux seront effectués. De ce fait, nous allons donc aborder
dès à présent l'analyse descriptive de notre
échantillon d'études.
|