5.4.2. La stratégie de Boltzmann
La prochaine action est choisie selon la distribution de
Boltzmann, donnée par la formule suivante :
P(at) =
? eQ( s,L) /T
b E A
OùT est la température associée
à la distribution. Quand T est élevé, la
distribution est presque uniforme. Plus la température diminue et
T? 0, plus la probabilité de choisir l'action a
dépend de Q(s, a) : pour un état s donné,
les actions pour lesquelles Q(s, a) est élevé ont plus
de chance d'être élues. On se rapproche de la stratégie
0-greedy. En pratique, on fait décroître la température, ce
qui permet de moduler exploration et exploitation sans distinguer explicitement
ces deux phases.
Il a été montré que si y< 1 et si
chaque couple (s, a) est visité un nombre infini de fois avec as
tendant vers 0, alors les valeurs de Q convergent vers la
politique optimale ?* [92] (l'action a qui a la meilleure valeur
Q(s, a) pour un état s donné correspond à
?*(s)).
2.4
2.5
Soit Q*(s, a) la fonction Q-valeur optimale définie par
: Q*(s, a) = max?Q?(s', a'), ?s?S, a?A
Alors:
?(s) = argmaxa'?A Q(s, a')
|