Active selection of continuous training tasks to learn generalizable policies

Eidelwein, Júlia

dc.contributor.advisor	Tavares, Anderson Rocha	pt_BR
dc.contributor.author	Eidelwein, Júlia	pt_BR
dc.date.accessioned	2022-02-16T04:31:29Z	pt_BR
dc.date.issued	2021	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/235244	pt_BR
dc.description.abstract	A key challenge when deploying reinforcement learning (RL) algorithms in robotics set tings is the large number of interactions between the agent and its environment that are necessary for an optimal behavior to be learned. An alternative to training a robot in the real world is to execute the training process in a simulator. However, for an RL agent to be successfully deployed in real-life, one needs to guarantee that the characteristics of the environment where it will operate are accurately modeled by the simulator. This might be difficult to ensure and, as a result, the robot may have to—when deployed in real-life— interact with environments whose dynamics are different than those experienced during training in simulation. This typically results in policies that were optimal in simulation but that perform poorly in the real world. In this work we investigate how to design learning agents that are robust to settings such as this—i.e., settings where the agent may have to interact with different types of envi ronments, and where it is not capable of directly identifying with which environment it is interacting. This corresponds to the setting where the agent’s state (which stores all information collected by its sensors) might not be sufficiently complete or powerful to characterize all properties of the environment (or task) being tackled by the agent. In par ticular, we wish to design novel training algorithms that result in control policies that are robust despite latent changes to the dynamics of the environment with which the agent is interacting at any given moment in time. Our proposed method is capable of (i) learning a model capable of mapping trajectories collected from a given environment (with some type of unknown/unobservable dynam ics) to a representation of said environment; (ii) using the estimated representation of the current environment to augment the agent’s state, thus allowing the agent to learn a single policy that generalizes across many different tasks; and (iii) actively training the above mentioned models. In other words, we introduce a technique by which the agent can autonomously decide (in simulation) with which types of environments/tasks/dynamics it wishes to interact to more rapidly learn a generalizable policy. After introducing the for malism that underlies our novel method, we evaluate its behavior and performance when tasked with learning a single policy that generalizes across a family of continuous control tasks.	en
dc.description.abstract	Um dos principais desafios de se utilizar técnicas de aprendizado por reforço (RL) em problemas de robótica diz respeito ao grande número de interações entre o robô e o seu ambiente, necessárias para que um comportamento ótimo possa ser aprendido. Uma al ternativa à ideia de treinar o robô diretamente no mundo real é treiná-lo, primeiro, em um simulador. Infelizmente, para que isso resulte em comportamentos eficazes, o proje tista do sistema precisa garantir que todas as características relevantes do ambiente sejam modeladas de forma precisa no simulador. Isso é, via de regra, difícil de garantir. Como resultado, o robô pode ter que—ao ser posto em uso no mundo real—interagir com am bientes cuja dinâmica difere daquelas vivenciadas durante o processo de treinamento em simulação. Isso tipicamente faz com que políticas que eram ótimas em simulações tenham performance sub-ótima quando executas em um ambiente real. Nesse trabalho, nós propomos uma técnica para treinar agentes de RL que sejam robus tos a problemas desse tipo—i.e., problemas nos quais um agente precisa interagir com diferentes tipos de ambientes, e nos quais o agente não é capaz de diretamente inferir ou estimar com qual ambiente ele está atualmente interagindo. Isso corresponde a um setting no qual o estado do agente (o qual armazena toda informação coletada por seus sensores) não é completo ou expressivo suficiente a fim de caracterizar todas as propriedades do ambiente (ou tarefa) sendo observada atualmente pelo agente. Tendo isso em vista, nosso objetivo, em particular, é desenvolver um novo algoritmo de treinamento que permita a construção de políticas de controle que sejam robustas mesmo na presença de mudanças não-observáveis na dinâmica do ambiente. Nosso método é capaz de (i) aprender um modelo capaz de mapear trajetórias colectadas em um ambiente (com algum tipo de dinâmica desconhecida e não-observável) para uma representação de tal ambiente; (ii) utilizar a representação estimada do ambiente a fim de estender o estado do agente, dessa forma permitindo com que ele aprenda uma política única capaz de generalizar para vários tipos de tarefas; e (iii) treinar de forma ativa os modelos mencionados acima. Em outras palavras, isso implica em uma nova técnica através da qual o agente pode autonomamente decidir (em simulação) com quais tipos de ambientes/tarefas/tipos de dinâmica deseja interagir, a fim de mais rapidamente aprender uma política generalizável. Após introduzirmos o formalismo sob o qual nosso método é construído, iremos avaliar o seu comportamento e performance quando utilizado em um problema no qual o agente precisa aprender uma política generalizável única, capaz de lidar com uma família de tarefas de controle contínuas—cada qual com um tipo diferente de dinâmica.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Reinforcement learning	en
dc.subject	Aprendizado por reforço	pt_BR
dc.subject	Robótica	pt_BR
dc.subject	Generalizable policies	en
dc.subject	Active learning	en
dc.title	Active selection of continuous training tasks to learn generalizable policies	pt_BR
dc.title.alternative	Seleção ativa de tarefas de treinamento contínuas para construção de políticas generalizáveis	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Silva, Bruno Castro da	pt_BR
dc.identifier.nrb	001137293	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2021	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Ficheros en el ítem

Nombre:: 001137293.pdf
Tamaño:: 3.563Mb
Formato:: PDF
Descripción:: Texto completo (inglês)

Ver

Este ítem está licenciado en la Creative Commons License

Tesinas de Curso de Grado (40105)

Tesinas Ciencia de la Computación (1127)

Mostrar el registro sencillo del ítem