CHAPITRE III : APPROCHES POUR L'AMELIORATION DE TCP
DANS UN ENVIRONNEMENT SANS FIL
vérifiant ainsi la satisfaction de l'utilisateur par
rapport au contenu reçu lorsque la bande disponible bw
décroit et N (le nombre d'utilisateurs) augmente.
Pour cela, nous estimons que pour chacun des N utilisateurs il
y a un ensemble de facteurs Utilisateur indexés par l = 1, 2, ..., L.
Nous appelons cet ensemble U = {UFl i / i = 1, 2, ...., N
& l = 1, 2, ...., L}. Soit V, l'ensemble feedbacks des utilisateurs
indexés par j = 1, ..., M où V = {Vij / i =
1, 2, ...., N & j= 1, 2, ...., M}.
Le cadre formel est construit sur le processus de
révision périodique de la valeur du débit attribuée
à chaque facteur d'utilisateur en se basant sur la note donnée
par le feedback de l'utilisateur. Nous considérons que chaque
utilisateur a `K' états de débit possible et chaque `état'
a un facteur d'utilisateur global correspondant, à savoir B =
{bwk |k = 1, 2, ..., K} où bwk est le débit
requis à l'étape k pour un facteur d'utilisateur. La valeur du
débit mesuré (réellement affecté qui peut ne pas
être égale à la valeur de bwk) est mise à
jour périodiquement dans la table 7, afin de servir comme entrée
pour le processus d'adaptation.
2.2.3.4. Formulation du processus de décision de
Markov
Un PDM et un ensemble composé de quatre
éléments (S ; A ; P ; r) qui
interviennent dans le processus d'apprentissage par renforcement. Ces
composants sont S, l'ensemble des états du système,
A un ensemble d'action, P(s) la probabilité de
transition de l'état st à l'instant t vers l'état
st+1 à l'instant t+1, lorsqu'une action
at est appliquée. La fonction de récompense
r(s)indique le retour (positif ou négatif) immédiat
lorsque l'action at est appliquée à l'état
st. Au niveau de chaque état du système, un agent
calcule le gain obtenu. L'objectif de cet agent est d'apprendre qu'elle action
choisir pour un état st afin de maximiser la
fonction de récompense cumulative.
Les quatre composants de notre PDM sont :
a) Les états du système
Un état (observable) du système à l'instant
t est défini par : s t = (VQt ; UFli
; BWt) où :
? VQt représente la qualité vidéo
à l'instant t,
? UF le facteur utilisateur correspondant pour VQ
à l'instant t pour l'utilisateur i
? et BW est le débit correspondant à la
qualité VQ à l'instant t pour l'utilisateur i.
En outre, l'ensemble des états du système S= {s1
; s2 ; ...; sT} représente l'évolution du service de vidéo
streaming durant une session T. L'instant `t' représente la durée
de la transmission de la vidéo. Etant donné que l'état du
système ne dépend que de son état précédent
(le plus récent), la propriété de Markov est
préservée.
3.6
103
|