WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Amélioration de la performance de TCP dans les réseaux mobiles ad hoc.

( Télécharger le fichier original )
par Yassine DOUGA
Université dà¢â‚¬â„¢Oran 1 Ahmed Ben Bella  - Doctorat  2016
  

précédent sommaire suivant

Extinction Rebellion

5.4.2. La stratégie de Boltzmann

La prochaine action est choisie selon la distribution de Boltzmann, donnée par la formule suivante :

P(at) =

(s,L)

2.3

 
 

? eQ( s,L) /T

b E A

T est la température associée à la distribution. Quand T est élevé, la distribution est presque uniforme. Plus la température diminue et T? 0, plus la probabilité de choisir l'action a dépend de Q(s, a) : pour un état s donné, les actions pour lesquelles Q(s, a) est élevé ont plus de chance d'être élues. On se rapproche de la stratégie 0-greedy. En pratique, on fait décroître la température, ce qui permet de moduler exploration et exploitation sans distinguer explicitement ces deux phases.

Il a été montré que si y< 1 et si chaque couple (s, a) est visité un nombre infini de fois avec as tendant vers 0, alors les valeurs de Q convergent vers la politique optimale ?* [92] (l'action a qui a la meilleure valeur Q(s, a) pour un état s donné correspond à ?*(s)).

2.4

2.5

Soit Q*(s, a) la fonction Q-valeur optimale définie par : Q*(s, a) = max?Q?(s', a'), ?s?S, a?A

Alors:

?(s) = argmaxa'?A Q(s, a')

précédent sommaire suivant






Extinction Rebellion





Changeons ce systeme injuste, Soyez votre propre syndic





"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle