Dyna-AIL : Adversarial Imitation Learning by Planning

Pulkit Mathur; Srinivasan Sivanandan; Vaibhav Saxena

arxiv: 1903.03234 · v1 · pith:47QSMHUHnew · submitted 2019-03-08 · 💻 cs.LG · cs.AI· stat.ML

Dyna-AIL : Adversarial Imitation Learning by Planning

Vaibhav Saxena , Srinivasan Sivanandan , Pulkit Mathur This is my paper

classification 💻 cs.LG cs.AIstat.ML

keywords learningadversarialimitationplanningenvironmentinteractionsmethodsmodel-based

0 comments

read the original abstract

Adversarial methods for imitation learning have been shown to perform well on various control tasks. However, they require a large number of environment interactions for convergence. In this paper, we propose an end-to-end differentiable adversarial imitation learning algorithm in a Dyna-like framework for switching between model-based planning and model-free learning from expert data. Our results on both discrete and continuous environments show that our approach of using model-based planning along with model-free learning converges to an optimal policy with fewer number of environment interactions in comparison to the state-of-the-art learning methods.

This paper has not been read by Pith yet.

Dyna-AIL : Adversarial Imitation Learning by Planning

discussion (0)