2° La régression multiple
La régression multiple a permis d'expliquer à
partir d'une variable numérique par plusieurs autres variables
numériques indépendantes. Elle modélise la relation entre
la variable à expliquer et les variables explicatives sous la forme
d'une équation de type Y = a + b1X1 + b2X2 + ... où Y est la
variable à expliquer, Xn les variables indépendantes, a une
constante et bn les coefficients de régression partiels.
On peut ainsi, si le modèle de régression est
satisfaisant, prédire les valeurs de la variable dépendante en
fonction des valeurs des variables explicatives.
Ainsi, les variables explicatives doivent être
indépendantes. Leurs corrélations deux à deux doivent
être nulles ou proches de 0. Le modèle obtenu sera imprécis
et manquera de stabilité (valeurs très différentes d'un
échantillon à l'autre). Par ailleurs, l'appréciation de la
qualité de la régression se fait grâce à plusieurs
indicateurs :
o Le premier d'entre eux est le coefficient de
détermination multiple ajusté qui calcule le pourcentage de
variation de la variable à expliquer dû aux variables
explicatives. Ainsi un coefficient de détermination de l'ordre de 0,35
signifie que les variables indépendantes ne contribuent qu'à 35%
de la variation de la variable à expliquer ce qui indique que la
qualité du modèle obtenu est relativement faible.
o Le coefficient de corrélation multiple R mesure la
liaison entre la variable à expliquer et les différentes
variables explicatives : si sa valeur est inférieure à 0,85 la
liaison est médiocre et le modèle de régression peu
satisfaisant.
o Le test F de Fisher permet d'estimer la qualité de
l'ajustement des variables. La probabilité de l'hypothèse nulle
(que les variables indépendantes n'aient aucun effet sur la variable
dépendante dans la
53
54
55
56
57
population) est donnée par la table de Fisher. Si la
valeur du F calculé est supérieure à la valeur du F de la
table à un seuil défini (ex : 5%), le coefficient R obtenu est
considéré comme significatif à ce seuil, ce qui veut dire
que le modèle de régression est valable dans la population
(NTOMBI MUEN KABEY : Cours des statistiques 2010).
3° L'analyse discriminante
L'analyse discriminante est une méthode factorielle qui
cherche à expliquer une variable qualitative par plusieurs variables
numériques. Comme la régression multiple qui permet de mettre en
équation une variable numérique à expliquer et des
variables numériques explicatives, c'est une méthode
prédictive dans la mesure où elle permet de déterminer
quelle modalité prendra un individu pour la variable qualitative
à expliquer, si on connaît ses réponses aux questions
numériques.
L'analyse discriminante est également utilisée
fréquemment en prolongement d'une méthode descriptive comme
l'Analyse en Composante Principale ou la typologie pour apporter des
précisions complémentaires aux résultats obtenus (par
exemple, repérage des variables qui ont permis de créer les
groupes de typologie).
|