2° La régression multiple
La régression multiple a permis d'expliquer à
partir d'une variable numérique par plusieurs autres variables
numériques indépendantes. Elle modélise la relation entre
la variable à expliquer et les variables explicatives sous la forme
d'une équation de type Y = a + b1X1 +
b2X2 + ... où Y est la variable à
expliquer, Xn les variables indépendantes, a une constante et
bn les coefficients de régression partiels.
On peut ainsi, si le modèle de régression est
satisfaisant, prédire les valeurs de la variable dépendante en
fonction des valeurs des variables explicatives.
Ainsi, les variables explicatives doivent être
indépendantes. Leurs corrélations deux à deux doivent
être nulles ou proches de 0. Le modèle obtenu sera imprécis
et manquera de stabilité (valeurs très différentes d'un
échantillon à l'autre). Par ailleurs, l'appréciation de
la qualité de la régression se fait grâce à
plusieurs indicateurs :
o Le premier d'entre eux est le coefficient de
détermination multiple ajusté qui calcule le pourcentage de
variation de la variable à expliquer dû aux variables
explicatives. Ainsi un coefficient de détermination de l'ordre de 0,35
signifie que les variables indépendantes ne contribuent qu'à 35%
de la variation de la variable à expliquer ce qui indique que la
qualité du modèle obtenu est relativement faible.
o Le coefficient de corrélation multiple R mesure la
liaison entre la variable à expliquer et les différentes
variables explicatives : si sa valeur est inférieure à 0,85 la
liaison est médiocre et le modèle de régression peu
satisfaisant.
o Le test F de Fisher permet d'estimer la qualité de
l'ajustement des variables. La probabilité de l'hypothèse nulle
(que les variables indépendantes n'aient aucun effet sur la variable
dépendante dans la population) est donnée par la table de Fisher.
Si la valeur du F calculé est supérieure à la valeur du F
de la table à un seuil défini (ex : 5%), le coefficient R obtenu
est considéré comme significatif à ce seuil, ce qui veut
dire que le modèle de régression est valable dans la population
(NTOMBI MUEN KABEY : Cours des statistiques 2010).
3° L'analyse discriminante
L'analyse discriminante est une méthode factorielle qui
cherche à expliquer une variable qualitative par plusieurs variables
numériques. Comme la régression multiple qui permet de mettre en
équation une variable numérique à expliquer et des
variables numériques explicatives, c'est une méthode
prédictive dans la mesure où elle permet de déterminer
quelle modalité prendra un individu pour la variable qualitative
à expliquer, si on connaît ses réponses aux questions
numériques.
L'analyse discriminante est également utilisée
fréquemment en prolongement d'une méthode descriptive comme
l'Analyse en Composante Principale ou la typologie pour apporter des
précisions complémentaires aux résultats obtenus (par
exemple, repérage des variables qui ont permis de créer les
groupes de typologie).
|