CHAPITRE 1
1.5.2 Les méthodes à base d'apprentissage
machine
Des méthodes basées sur l'apprentissage ont
également été utilisées pour résoudre le
problème d'exploration robotique. Dans l'approche proposée par
[82], le robot ne s'appuie sur aucune carte pour explorer
l'environnement, il utilise plutôt un réseau de neurones par
renforcement de type Deep Q-Network de bout en bout pour choisir la
direction la plus appropriée à suivre en utilisant uniquement les
images de la caméra comme paramètre d'entrée. Cette
méthode a été testée pour naviguer dans un
environnement sous forme de couloir inconnu tout en évitant les murs.
D'autre part, l'approche de [81] utilise une base de
données de cartes déjà vues pour prédire les
régions inconnues d'une carte partiellement explorée. Elle
utilise une technique inspirée du sac de mots (bag of words)
pour détecter les similitudes entre des cartes sous forme de grilles et
apprendre à compléter les zones manquantes. Cela avait permis la
planification des chemins au-delà de la région explorée,
ce qui a réduit la distance parcourue par le robot comparé
à la méthode d'exploration à base de frontières. De
même, le modèle de [78] prédit l'emplacement et la
forme des obstacles se trouvant au-delà des frontières dans les
régions inconnues. Pour celà, les auteurs ont utilisé un
auto-encodeur variationnel (Variational Autoencoders) pour la
prédiction des régions à explorer, et une heuristique pour
évaluer leur coûts et utilité.
Récemment, les auteurs de [95] ont
proposé une approche où les robots utilisent l'ap-prentissage par
renforcement dans un contexte multirobots afin d'apprendre une stratégie
leur permettant d'explorer une zone efficacement. Une autre approche
basée sur l'appren-tissage par renforcement, proposée par
[97], permet à un robot d'apprendre à explorer une zone
tout en utilisant les images de sa caméra afin de faire une
reconnaissance visuelle et éviter les endroits déjà
visités. L'approche proposée par [32] se base aussi sur
la classification d'images à base de réseaux convolutionnels,
mais cette fois dans le but de guider un robot à naviguer dans un
environnement sous forme de labyrinthe afin de le cartographier. Les
résultats expérimentaux ont montré que l'algorithme a
appris à choisir la direction de mouvement du robot de telle
façon à éviter les obstacles.
1.5.3 Les méthodes stochastiques
Les métaheuristiques ont été largement
utilisées dans différents domaines de la robotique [38]
et sont encore largement utilisées pour les robots terrestres et
aériens.
[6] a utilisé un algorithme génétique
(Genetic Algorithms) pour surveiller une zone connue à l'aide
d'un robot aérien, tout en satisfaisant certaines contraintes telles que
la longueur et la régularité du chemin.
Les auteurs de [98] ont utilisé l'algorithme
des particules en essaim (Particle Swarm Optimization) afin de
distribuer un groupe de robots sur plusieurs régions différentes
de l'environnement. Chaque robot explore la région où il se
trouve puis utilise l'algorithme des particules en essaim afin de se diriger
vers la prochaine région à explorer en se basant sur
l'optimisation des frontières.
47
TABLE 1.4 - Résumé comparatif
des travaux cités
Ref.
|
Carte
|
Famille d'approche
|
Type
d'approche
|
Energie limitée
|
Expérience
|
Nbr robots
|
Type exploration
|
[89]
|
Inconnue
|
Frontier- based
|
Déterministe
|
Non
|
Robot réel
|
Un seul
|
Exploration
|
[7]
|
Inconnue
|
Frontier- based
|
Déterministe
|
Non
|
Simulation
|
Plusieurs
|
Exploration
|
[15]
|
Inconnue
|
Wavefront propagat.
|
Déterministe
|
Non
|
Simulation
|
Plusieurs
|
Exploration
|
[62]
|
Connue Partiellement
|
Frontier- based
|
Déterministe
|
Non
|
Simulation et Robot réel
|
Un seul
|
Exploration
|
[26]
|
Connue
|
D*
|
Déterministe
|
Non
|
Simulation
|
Un seul
|
Complete coverage
|
[79]
|
Connue
|
?*
|
Déterministe
|
Non
|
Simulation et Robot réel
|
Un seul
|
Complete coverage
|
[77]
|
Inconnue
|
?*
|
Déterministe
|
Oui
|
Simulation
|
Un seul
|
Complete coverage
|
[6]
|
Connue
|
GA
|
Stochastique
|
Oui
|
Simulation
|
Un seul
|
Exploration
|
[52]
|
Inconnue
|
GWO
|
Stochastique
|
Non
|
Simulation et Robot réel
|
Un seul
|
Exploration
|
[53]
|
Inconnue
|
GWO
|
Stochastique
|
Non
|
Simulation
|
Plusieurs
|
Exploration
|
|
[82]
|
/
|
Deep
Q-Network
|
Apprentissage
|
Non
|
Simulation
|
Un seul
|
Exploration
|
[81]
|
Inconnue
|
FabMap2
|
Apprentissage
|
Non
|
Robot réel
|
Un seul
|
Exploration
|
[78]
|
Connue Partiellement
|
Variational autoencod.
|
Apprentissage
|
Non
|
Simulation
|
Un seul
|
Exploration
|
[16]*
|
Inconnue
|
BOA/xBOA
|
Stochastique
|
Oui
|
Simulation
|
Un seul et Plusieurs
|
Exploration
|
* Notre approche
48
|