WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Amélioration de la performance de TCP dans les réseaux mobiles ad hoc.

( Télécharger le fichier original )
par Yassine DOUGA
Université dà¢â‚¬â„¢Oran 1 Ahmed Ben Bella  - Doctorat  2016
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

5. Apprentissage dans le streaming adaptatif

5.1. Introduction

Dans la communauté multimédia beaucoup de recherches visent l'accès ubiquitaire aux contenus en ligne [84]. Le but est d'offrir des services quelque soit le moment, le lieu ou le type du terminal. De nombreux mécanismes d'adaptation multimédia proposés, font face aux contraintes et difficultés qui sont généralement liées à la diversité des documents et contenus multimédia, à l'hétérogénéité des réseaux d'accès et à la variété des terminaux.

Dans ce cadre, les hypothèses spécifiques aux services mobiles doivent être intégrées pour créer des techniques d'adaptation pertinentes. L'approche que nous proposons est basée sur l'usage d'un agent d'apprentissage qui prend en charge la dynamique du contexte à laquelle il doit s'y adapter. Cet agent doit permettre à l'utilisateur d'adapter son comportement en interagissant avec l'environnement du réseau.

A cet effet, il doit percevoir les états successifs du contexte grâce à des observations et effectuer des actions d'adaptation. Ces actions ont un effet sur le contexte en faisant varier les ressources disponibles ou en conditionnant les comportements des utilisateurs. Elles ont donc une influence sur la dynamique stochastique du contexte. Si l'on dispose d'un critère de performance, cette dynamique peut alors être utilisée pour choisir de bonnes politiques d'adaptation. Pour atteindre cet objectif, nous formalisons la politique d'adaptation grâce à un processus de décision de Markov (PDM).

46

Chapitre II : Etat de l'art

5.2. Apprentissage par renforcement

L'apprentissage par renforcement s'intéresse à l'acquisition automatisée de capacités pour la prise de décisions en environnement complexe et incertain. Il s'agit d'apprendre une stratégie d'action optimale par l'expérience ou par essais-erreurs qui associe à l'état actuel la prochaine action à exécuter de manière à obtenir la meilleure récompense à long terme.

Quatre composantes principales interviennent dans l'apprentissage par renforcement, à savoir :

1- L'état résume la situation de l'agent et de l'environnement à chaque instant.
Sa dynamique résulte des actions de l'agent sur l'environnement, de l'évolution aléatoire de l'environnement dans le temps et de la dynamique interne de l'agent.

2- L'action est choisie et exécutée par l'agent à chaque instant. Suite à cela, il
reçoit une récompense instantanée, et perçoit le nouvel état courant.

3- La récompense est réelle, positive ou négative. C'est un indicateur immédiat
de la qualité d'une action. On cherchera à maximiser les récompenses ou minimiser les pertes (récompenses négatives) pour améliorer la stratégie ou la politique de l'agent.

4- La politique modélise le comportement décisionnel de l'agent. Il s'agit dans
le cas général d'une fonction, déterministe ou aléatoire, associant des actions à effectuer aux états observés de l'environnement.

L'utilisation du modèle d'apprentissage par renforcement constitue un point important dans notre proposition. Dans la partie qui suit nous allons formaliser les concepts introduits par la théorie de l'apprentissage par renforcement, en particulier nous introduisons le cadre formel standard qui est celui des Processus Décisionnels de Markov (PDM).

Les PDM permettent de modéliser l'évolution d'un système, en particulier de l'environnement dans lequel évolue un agent en fonction des actions qu'il effectue : à chaque pas de temps, l'agent observe l'état courant, choisit une action qu'il exécute pour transiter dans un état et recevoir une récompense.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein