II.7.1. la
rationalité des agents
Un agent rationnel devra entreprendre des actions qui
maximisent sa mesure de rendement, en se basant sur les évidences
apportées par la séquence des perceptions et sur la connaissance
que l'agent a stockée.La rationalité en un moment donné
dépend de quatre facteurs:
· La mesure de performance qui décrit le
critère de réussite ;
· La connaissance de l'environnement accumulée par
l'agent ;
· Les actions que l'agent peut accomplir ;
· La suite de perceptions de l'agent jusqu'à ce
moment.
Un agent rationnel est aussi celui qui apprend le maximum
possible de ce qu'il perçoit. La configuration initiale d'un agent peut
refléter une connaissance préliminaire de l'environnement, mais
au fur et à mesure que l'agent acquiert l'expérience, sa
connaissance peut se modifier et augmenter. Il y a des cas exceptionnels
où l'on connaît totalement l'environnement a priori. Dans ces cas,
l'agent n'a pas besoin de percevoir ni d'apprendre; il agit simplement de
manière correcte. Mais ces agents sont très fragiles.
L'agent rationnel divise en trois périodes
différentes les tâches du calcul de la fonction de l'agent: Lors
de la conception de l'agent pendant lequel les concepteurs de l'agent sont
chargés de réaliser ces calculs; lorsqu'il est entrain de penser
à l'opération suivante, l'agent réalise beaucoup de
calculs; et quand il apprend à partir de l'expérience, l'agent
réalise beaucoup de calculs pour décider comment modifier son
comportement. Un agent rationnel doit donc être autonome, savoir
apprendre à déterminer comment compenser une connaissance
incomplète ou initialement partielle.
En effet il est nécessaire de faire attention en
distinguant la rationalité de l'omniscience. Un agent omniscient est
celui qui connaît le résultat de son action et agit en
conséquence. Mais en réalité l'omniscience n'est pas
possible.
II.7.2.
Types d'agents
Nous avons quatre types fondamentaux des programmes des agents
qui incarnent les principes fondamentaux de tous les agents
intelligents :
a) Agents réactifs simples
Le type d'agent le plus simple est l'agent réactif
simple. Ce type d'agent choisit les actions en fonction des perceptions
actuelles, ignorant le reste des perceptions historiques.
b) Agents réactifs basés sur les
modèles
La manière la plus effective pour les agents de
manipuler la visibilité partielle est de stocker l'information sur ces
parties du monde qu'ils ne peuvent pas voir. L'agent doit donc maintenir un
certain type d'état interne qui dépend de l'histoire
perçue qui puisse refléter au moins les aspects non observables
de l'état actuel. L'utilisation de l'information de l'état
interne au fur et à mesure que passe le temps exige de codifier deux
types de connaissance dans le programme de l'agent:
· La connaissance concernant comment évolue le
monde indépendamment de l'agent;
· L'information sur comment les actions de l'agent
affectent le monde.
Cette connaissance sur comment fonctionne le monde, qu'elle
soit implémentée avec un circuit booléen simple ou avec
des théories scientifiques complètes, s'appelle "modèle du
monde". Un agent qui utilise ce modèle est un agent basé sur les
modèles.
c) Agents basés sur les
objectifs
La connaissance sur l'état actuel du monde n'est pas
toujours suffisante pour décider quoi faire. Par exemple, dans un
croisement de chemins, le taximan peut virer à gauche, virer à
droite ou continuer droit. La décision correcte dépend de
où veut aller le taxi. En d'autres termes, outre la description de
l'état actuel, l'agent a besoin d'une certaine information sur son
objectif qui décrive les situations qui sont
désirables, par exemple, arriver à la destination proposée
par le passager. Le programme de l'agent peut se combiner avec l'information
sur les résultats des actions possibles (la même information
utilisée pour actualiser l'état interne dans le cas de l'agent
réactif) pour choisir les actions qui permettent d'atteindre
l'objectif.
d) Agents basés sur
l'utilité
Les objectifs seuls en soi ne sont pas suffisants pour
générer un comportement de grande qualité dans la
majorité des environnements. Par exemple, il y a beaucoup de
séquences d'actions qui conduiront le taxi à sa destination (et
par tant à atteindre son objectif), mais certaines sont plus rapides,
plus sures, plus fiables, ou moins coûteuses que d'autres. Les objectifs
seuls fournissent une distinction binaire crue entre les états de
"félicité" et "tristesse", alors qu'une mesure d'efficience plus
générale devrait permettre une comparaison entre
différents états du monde par rapport au niveau exact de
félicité que l'agent atteint quand il arrive à un
état ou autre. Comme le terme "félicité" ne sonne pas plus
scientifique, la terminologie traditionnelle utilise dans ces cas pour indiquer
qu'on préfère un état du monde est qu'un état a
plus d'utilité qu'un autre pour l'agent.
Tous les quatre types précédents peuvent
apprendre. Un agent qui apprend peut être divisé en quatre
composants conceptuels suivants :
· L'élément
d'apprentissage : qui fait des améliorations sur base
de certaines critiques ;
· L'élément
d'agissement: qui choisit les actions (externes) à
réaliser ;
· La critique: qui
réalimente l'élément d'apprentissage pour qu'il fasse des
améliorations ;
· Le générateur de
problèmes: qui suggère des actions qui conduiront
l'agent aux expériences nouvelles et informatiques.
|