CHAPITRE III : APPROCHES POUR L'AMELIORATION DE TCP
DANS UN ENVIRONNEMENT SANS FIL
Nous définissons l'espace des états S
comme : S = UN x BN.
b) Les actions du système
Nous définissons les actions séquentielles par
: {at} pour (t=0, 2, 3..) où l'action at est une décision prise
à l'instant `t'. L'ensemble des actions pour un état donné
est A(S)= {Asbw, Aubw} ou l'action Asbw
sert à sélectionner une valeur de débit par rapport
à la qualité vidéo VQt relativement au facteur
d'utilisateur UFil. L'action Aubw sert
à remplacer et mettre à jour la dernière valeur de
débit (par rapport au feedback de l'utilisateur) en fonction des
feedbacks (table 6) afin d'être considérée dans les
prochaines adaptations.
c) La transition des états
La transition des états entre st à
st+1 est déterminée par rapport au facteur
UFil et au débit disponible à l'instant t.
La probabilité de transition peut être obtenue
à l'aide de la formule suivante :
Pat(St, St+1) = {St+1|St, at}
= {(UFt+1 , BWt+1)|(Rt, BWt) ,
at} 3.7
= {UFt+1 |UFt , UFt+1 = at}Pr{
BWt+1| BWt}
Où Pr {St+1 | St, at} peut être obtenu
comme suit : Connaissant le débit BWt qui a permis de
télécharger le segment en cours, nous pouvons estimer la
probabilité de distribution du débit BWt+1du
prochain segment en utilisant la matrice de transition du modèle de
Markov.
Pr {Rt+1| Rt, Rt+1=at}
est calculé par rapport à l'action at.
d) La fonction de récompense
Les récompenses sont associées aux états
décisionnels en fonction de l'action choisie. Dans notre approche, nous
souhaitons maximiser la satisfaction de l'utilisateur. A cet effet, nous avons
appliqué la fonction de récompense sur le MOS des utilisateurs
(QoE).
Dans un MDP, la récompense est le gain obtenu quand une
action particulière est réalisée avec succès. Dans
notre cas, nous nous concentrons uniquement sur la fonction de
récompense qui capte la satisfaction des utilisateurs pour les valeurs
de débit accessibles.
= RQt(St = s) 3.8
3.10
CHAPITRE III : APPROCHES POUR L'AMELIORATION DE TCP
DANS UN ENVIRONNEMENT SANS FIL
Où RQt calcule la récompense de
l'état lorsque l'action at est exécutée. Ce pourcentage
est calculé en fonction du feedback de l'utilisateur.
La table 8 liste les différentes valeurs (pourcentage)
de récompense pour les différents états selon les valeurs
du MOS :
MOS
|
Récompense
|
1
|
20%
|
2
|
10%
|
3
|
0%
|
4
|
-10%
|
5
|
-20%
|
Table 8 : Pourcentage de récompense par
rapport au MOS
La valeur maximale de récompense est obtenue lorsque le
taux VQt + 1 satisfait le débit adapté
BWt+1 en fonction des facteurs d'utilisation. Formellement
cela se traduit par :
VQt+1 = BWt+1où VQt+1 est la
qualité de la vidéo à l'instant t+1 et BWt+1 ? B
est le débit estimée du lien.
Enfin, nous pouvons formuler le problème d'adaptation
utilisant les paramètres de TCP comme un problème d'optimisation.
L'objectif est de trouver une politique optimale ð(s) pour une action
exécuté à l'état St, de sorte que la
récompense soit maximisée.
Nous résolvons notre PDM par l'algorithme du Q-Learning
dans lequel l'acquisition des connaissances (les perspectives de gains et des
transitions d'état de l'environnement) est obtenue par interaction avec
l'environnement. Dans le Q-Learning, une Q-fonction est utilisé pour
mesurer la qualité d'une combinaison (état-action), sur la base
des gains perçus.
Considérons Qð (st, at),
l'état-action et la fonction de qualité de st
à l'état final ST :
(St, at) = Q(St, at)
+ ar + y max Q (St+1, me t) - Q (St,
at)] 3.9
Où E [0 ; 1] et ãE [0 ; 1] sont respectivement
le taux d'apprentissage et le facteur de discount.
Pour toutes les transitions des états obtenu entre
l'état s jusqu'à l'état S, nous calculons les
récompenses prévues pendant l'exécution de l'action a.
Ensuite nous déduisons les récompenses optimales en
sélectionnant l'action qui nous permet d'atteindre
104
105
|