5. Apprentissage dans le streaming adaptatif
5.1. Introduction
Dans la communauté multimédia beaucoup de
recherches visent l'accès ubiquitaire aux contenus en ligne [84]. Le but
est d'offrir des services quelque soit le moment, le lieu ou le type du
terminal. De nombreux mécanismes d'adaptation multimédia
proposés, font face aux contraintes et difficultés qui sont
généralement liées à la diversité des
documents et contenus multimédia, à
l'hétérogénéité des réseaux
d'accès et à la variété des terminaux.
Dans ce cadre, les hypothèses spécifiques aux
services mobiles doivent être intégrées pour créer
des techniques d'adaptation pertinentes. L'approche que nous proposons est
basée sur l'usage d'un agent d'apprentissage qui prend en charge la
dynamique du contexte à laquelle il doit s'y adapter. Cet agent doit
permettre à l'utilisateur d'adapter son comportement en interagissant
avec l'environnement du réseau.
A cet effet, il doit percevoir les états successifs du
contexte grâce à des observations et effectuer des actions
d'adaptation. Ces actions ont un effet sur le contexte en faisant varier les
ressources disponibles ou en conditionnant les comportements des utilisateurs.
Elles ont donc une influence sur la dynamique stochastique du contexte. Si l'on
dispose d'un critère de performance, cette dynamique peut alors
être utilisée pour choisir de bonnes politiques d'adaptation. Pour
atteindre cet objectif, nous formalisons la politique d'adaptation grâce
à un processus de décision de Markov (PDM).
46
Chapitre II : Etat de l'art
5.2. Apprentissage par renforcement
L'apprentissage par renforcement s'intéresse à
l'acquisition automatisée de capacités pour la prise de
décisions en environnement complexe et incertain. Il s'agit d'apprendre
une stratégie d'action optimale par l'expérience ou par
essais-erreurs qui associe à l'état actuel la prochaine action
à exécuter de manière à obtenir la meilleure
récompense à long terme.
Quatre composantes principales interviennent dans
l'apprentissage par renforcement, à savoir :
1- L'état résume la situation
de l'agent et de l'environnement à chaque instant. Sa dynamique
résulte des actions de l'agent sur l'environnement, de
l'évolution aléatoire de l'environnement dans le temps et de la
dynamique interne de l'agent.
2- L'action est choisie et
exécutée par l'agent à chaque instant. Suite à
cela, il reçoit une récompense instantanée, et
perçoit le nouvel état courant.
3- La récompense est réelle,
positive ou négative. C'est un indicateur immédiat de la
qualité d'une action. On cherchera à maximiser les
récompenses ou minimiser les pertes (récompenses
négatives) pour améliorer la stratégie ou la politique de
l'agent.
4- La politique modélise le
comportement décisionnel de l'agent. Il s'agit dans le cas
général d'une fonction, déterministe ou aléatoire,
associant des actions à effectuer aux états observés de
l'environnement.
L'utilisation du modèle d'apprentissage par
renforcement constitue un point important dans notre proposition. Dans la
partie qui suit nous allons formaliser les concepts introduits par la
théorie de l'apprentissage par renforcement, en particulier nous
introduisons le cadre formel standard qui est celui des Processus
Décisionnels de Markov (PDM).
Les PDM permettent de modéliser l'évolution d'un
système, en particulier de l'environnement dans lequel évolue un
agent en fonction des actions qu'il effectue : à chaque pas de temps,
l'agent observe l'état courant, choisit une action qu'il exécute
pour transiter dans un état et recevoir une récompense.
|