| 
III.2.2 CLASSIFIEUR
BAYESIENSoient k classes et X vecteur caractéristique de taille
M On choisit la classe    qui maximise P(Ck /X), probabilité que X appartienne
à    : P (    avec :    ;
 P(X)=   et P(Ci) =   est la probabilité d'observer la classe    étant donné l'ensemble D'exemples N. Ou encore P(Ci)=1/k.    La vraisemblance de l'événement « observer la
donnée x » si elle est de classe    en disposant des exemples de taille N. Ce terme est plus difficile 
voir impossible à estimer que le précédent. En absence
d'autre information, on utilise « L'hypothèse de Bayes naïve
»
 III.2.2.1 HYPOTHESE DE BAYES NAIVE  La donnée x est une conjonction  de valeur d'attributs ;
cette hypothèse consiste à supposer que les attributs sont des
variables aléatoires indépendantes, c'est-à-dire que les
valeurs de ses attributs ne sont pas corrélées entre-elle. Clairement, cette hypothèse n'est à peu près
jamais vérifiée; cependant, elle permet de faire des calculs
simplement et, finalement, les résultats obtenus ne sont pas sans
intérêt d'un point de vue pratique Avec  · Ni le cardinal de la classe i ; · N le cardinal de l'ensemble de données · K le nombre de classe. III.2.2.2 ESTIMATION DE    Quand les variables aléatoires sont issues d'une
séquence d'événements aléatoires, leur
densité de probabilité prend la forme de la loi normale, N(   ,    ). Ceci est démontré par le théorème de la
limite centrale. Il est un cas fréquent en nature. Les paramètres de N(   ,    ) sont les premiers et deuxième moments des exemples. Donc, on
peut les estimer pour n'importe quel nombre d'exemples. On peut même
estimer les moments quand il n'existe pas les bornes (Xmax-Xmin) ou quand X est
une variable continue. Dans ce cas, p( ) est une "densité" et il faut une
fonction paramétrique pour p(). Dans la plupart des cas, on peut utiliser N (   ,    ) comme une fonction de densité pour p(x). p(x)   N(x;    ,    )=        Le base "e" est : e = 2.718281828.... Le terme    sert à normaliser la fonction en sorte que sa surface est 1. Estimation d'un vecteur de variables
aléatoires Pour un vecteur de D propriétés 
 Pour D dimensions, la covariance entre les variables xi et xj est
estimée à partir de M observations       =E{(    )(    )}
    =    Et encore, pour éviter le biais, on peut utiliser :
    =   
 Ces coefficients composent une matrice de covariance. C 
 
 Dans le cas d'un vecteur de propriétés,    , la loi normale prend la forme : p(x)   N(x;    ,    )=        Le terme    est un facteur de normalisation. En vertu de la loi des grands nombres, nous avons :       
 Avec     : la matrice de variance covariances
 Hypothèse : Distribution normale à l'intérieur de chaque classe
Ci Les variables sont corrélées entre elles |