II.4.7 L' Optimisation
Pour résoudre de nombreux problèmes, il est
courant pour chaque solution potentielle d'y associer une fonction
d'évaluation. Le but de l'optimisation est de maximiser ou minimiser
cette fonction. Quelques spécialistes considèrent que ce type de
problème ne relève pas du data mining.
La technique la plus appropriée à l'optimisation
est : Les réseaux de neurones.
II.5 LA CONNAISSANCE
II.5.1 Définition
La connaissance peut être considérée
comme une combinaison d'intuitions, de modèles, de méthodes de
règles de gestion, de programme et de principes d'utilisation qui
guident les décisions et les actions.
II.5.2 La découverte de
connaissances
Il s'agit d'une approche ascendante : cette technique
consiste à partir des données pour tenter d'en extraire une
information pertinente et inconnue. La découverte de connaissances est
l'approche du data mining la plus significative et la plus souvent mise en
avant. On distinguera la découverte de connaissances dirigée et
non dirigée.
Nota : La découverte de connaissances non
dirigée sert à reconnaître les relations exprimées
par les données tandis que la découverte dirigée permet
d'expliquer ces relations une fois qu'elles ont été
trouvées.
Ø La découverte de connaissances non
dirigée :cette technique est
également appelée apprentissage sans supervision. Historiquement,
c'était la vocation des logiciels de data mining. On fournit au logiciel
une base de données et celui-ci recherche des structures significatives
et retourne un ensemble de connaissances. Celles-ci sont
généralement exprimées sous forme de règles, du
type :si achat de riz ET de vin blanc, alors achat de
poisson. A chaque règle est associé un
indicateur de confiance (ici : nombre de personnes ayant acheté riz, vin
blanc et poisson divisé par le nombre de personnes ayant acheté
riz et vin blanc) qui permet de quantifier la fiabilité de la
règle. Une valeur de 0.84 signifie que 84 % des gens qui ont
acheté du riz et du vin blanc ont acheté du poisson.
Ce critère n'est pas suffisant car il faut en outre que
l'effectif soit significatif. En effet, si une règle ne concerne qu'un
ou deux individus même avec 100 % de confiance, elle devra être
rejetée car non suffisamment significative.Les règles
d'association peuvent également se dérouler dans le temps : telle
action à un instant t entraînera tel résultat à un
autre instant t'. Il faut alors posséder suffisamment de données
Historisées pour avoir une bonne fiabilité des résultats.
La technique qui consiste à prévoir le comportement d'une
variable dans le temps en fonction du passé s'appelle le
« forecasting ».
Ø Méthodologie de connaissances non
dirigée :la découverte de connaissances non
dirigée se déroule en suivant les étapes suivantes :
- Identifier les sources de données disponibles
- Préparer les données pour l'analyse
- Construire et instruire le programme informatique
- Evaluer le modèle informatique
- Appliquer le modèle informatique à de
nouvelles données
- Identifier les cibles potentielles pour la découverte
de connaissances dirigée
- Générer de nouvelles hypothèses
à tester
a. Identifier les sources
de données disponibles
Les processus de découvertes de connaissances sont
basés sur le fait que la connaissance ou la réponse aux questions
que l'on se pose se trouve dans les données. Par conséquent, la
qualité des données est la première exigence de ce type
d'analyse.
L'idéal est de travailler à partir des
données archivées dans l'entreprise. Mais celles-ci sont
prévues généralement pour la production, avec des formats
adaptés aux meilleurs temps de réponse, voire même
conservés sur des bandes magnétiques. Il va donc falloir
identifier les données, les localiser, identifier les formats et
codages, ... Un travail organisationnel et logistique important est
nécessaire pour disposer des données sous une forme utile en vue
de la découverte de connaissances.
|