Amélioration de la performance de TCP dans les réseaux mobiles ad hoc.

( Télécharger le fichier original )
par Yassine DOUGA
UniversitÃ© dà¢â‚¬â„¢Oran 1 Ahmed Ben Bella - Doctorat 2016

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

5.4.2. La stratégie de Boltzmann

La prochaine action est choisie selon la distribution de Boltzmann, donnée par la formule suivante :

P(a_t) =

*(s,L)*	2.3

? _eQ( s,L) /T

b E A

OùT est la température associée à la distribution. Quand T est élevé, la distribution est presque uniforme. Plus la température diminue et T? 0, plus la probabilité de choisir l'action a dépend de Q(s, a) : pour un état s donné, les actions pour lesquelles Q(s, a) est élevé ont plus de chance d'être élues. On se rapproche de la stratégie 0-greedy. En pratique, on fait décroître la température, ce qui permet de moduler exploration et exploitation sans distinguer explicitement ces deux phases.

Il a été montré que si y< 1 et si chaque couple (s, a) est visité un nombre infini de fois avec a_stendant vers 0, alors les valeurs de Q convergent vers la politique optimale ?* [92] (l'action a qui a la meilleure valeur Q(s, a) pour un état s donné correspond à ?*(s)).

2.4

2.5

Soit Q*(s, a) la fonction Q-valeur optimale définie par : Q*(s, a) = max_?Q^?(s', a'), ?s?S, a?A

Alors:

?(s) = argmaxa'?A Q(s, a')

précédent sommaire suivant

"Là où il n'y a pas d'espoir, nous devons l'inventer" Albert Camus