Active selection of continuous training tasks to learn generalizable policies
Visualizar/abrir
Data
2021Autor
Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Seleção ativa de tarefas de treinamento contínuas para construção de políticas generalizáveis
Assunto
Abstract
A key challenge when deploying reinforcement learning (RL) algorithms in robotics set tings is the large number of interactions between the agent and its environment that are necessary for an optimal behavior to be learned. An alternative to training a robot in the real world is to execute the training process in a simulator. However, for an RL agent to be successfully deployed in real-life, one needs to guarantee that the characteristics of the environment where it will operate are accurately ...
A key challenge when deploying reinforcement learning (RL) algorithms in robotics set tings is the large number of interactions between the agent and its environment that are necessary for an optimal behavior to be learned. An alternative to training a robot in the real world is to execute the training process in a simulator. However, for an RL agent to be successfully deployed in real-life, one needs to guarantee that the characteristics of the environment where it will operate are accurately modeled by the simulator. This might be difficult to ensure and, as a result, the robot may have to—when deployed in real-life— interact with environments whose dynamics are different than those experienced during training in simulation. This typically results in policies that were optimal in simulation but that perform poorly in the real world. In this work we investigate how to design learning agents that are robust to settings such as this—i.e., settings where the agent may have to interact with different types of envi ronments, and where it is not capable of directly identifying with which environment it is interacting. This corresponds to the setting where the agent’s state (which stores all information collected by its sensors) might not be sufficiently complete or powerful to characterize all properties of the environment (or task) being tackled by the agent. In par ticular, we wish to design novel training algorithms that result in control policies that are robust despite latent changes to the dynamics of the environment with which the agent is interacting at any given moment in time. Our proposed method is capable of (i) learning a model capable of mapping trajectories collected from a given environment (with some type of unknown/unobservable dynam ics) to a representation of said environment; (ii) using the estimated representation of the current environment to augment the agent’s state, thus allowing the agent to learn a single policy that generalizes across many different tasks; and (iii) actively training the above mentioned models. In other words, we introduce a technique by which the agent can autonomously decide (in simulation) with which types of environments/tasks/dynamics it wishes to interact to more rapidly learn a generalizable policy. After introducing the for malism that underlies our novel method, we evaluate its behavior and performance when tasked with learning a single policy that generalizes across a family of continuous control tasks. ...
Resumo
Um dos principais desafios de se utilizar técnicas de aprendizado por reforço (RL) em problemas de robótica diz respeito ao grande número de interações entre o robô e o seu ambiente, necessárias para que um comportamento ótimo possa ser aprendido. Uma al ternativa à ideia de treinar o robô diretamente no mundo real é treiná-lo, primeiro, em um simulador. Infelizmente, para que isso resulte em comportamentos eficazes, o proje tista do sistema precisa garantir que todas as características relevan ...
Um dos principais desafios de se utilizar técnicas de aprendizado por reforço (RL) em problemas de robótica diz respeito ao grande número de interações entre o robô e o seu ambiente, necessárias para que um comportamento ótimo possa ser aprendido. Uma al ternativa à ideia de treinar o robô diretamente no mundo real é treiná-lo, primeiro, em um simulador. Infelizmente, para que isso resulte em comportamentos eficazes, o proje tista do sistema precisa garantir que todas as características relevantes do ambiente sejam modeladas de forma precisa no simulador. Isso é, via de regra, difícil de garantir. Como resultado, o robô pode ter que—ao ser posto em uso no mundo real—interagir com am bientes cuja dinâmica difere daquelas vivenciadas durante o processo de treinamento em simulação. Isso tipicamente faz com que políticas que eram ótimas em simulações tenham performance sub-ótima quando executas em um ambiente real. Nesse trabalho, nós propomos uma técnica para treinar agentes de RL que sejam robus tos a problemas desse tipo—i.e., problemas nos quais um agente precisa interagir com diferentes tipos de ambientes, e nos quais o agente não é capaz de diretamente inferir ou estimar com qual ambiente ele está atualmente interagindo. Isso corresponde a um setting no qual o estado do agente (o qual armazena toda informação coletada por seus sensores) não é completo ou expressivo suficiente a fim de caracterizar todas as propriedades do ambiente (ou tarefa) sendo observada atualmente pelo agente. Tendo isso em vista, nosso objetivo, em particular, é desenvolver um novo algoritmo de treinamento que permita a construção de políticas de controle que sejam robustas mesmo na presença de mudanças não-observáveis na dinâmica do ambiente. Nosso método é capaz de (i) aprender um modelo capaz de mapear trajetórias colectadas em um ambiente (com algum tipo de dinâmica desconhecida e não-observável) para uma representação de tal ambiente; (ii) utilizar a representação estimada do ambiente a fim de estender o estado do agente, dessa forma permitindo com que ele aprenda uma política única capaz de generalizar para vários tipos de tarefas; e (iii) treinar de forma ativa os modelos mencionados acima. Em outras palavras, isso implica em uma nova técnica através da qual o agente pode autonomamente decidir (em simulação) com quais tipos de ambientes/tarefas/tipos de dinâmica deseja interagir, a fim de mais rapidamente aprender uma política generalizável. Após introduzirmos o formalismo sob o qual nosso método é construído, iremos avaliar o seu comportamento e performance quando utilizado em um problema no qual o agente precisa aprender uma política generalizável única, capaz de lidar com uma família de tarefas de controle contínuas—cada qual com um tipo diferente de dinâmica. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1027)
Este item está licenciado na Creative Commons License