Identifying Reusable Early-Life Options

Weber, Aline

dc.contributor.advisor	Silva, Bruno Castro da	pt_BR
dc.contributor.author	Weber, Aline	pt_BR
dc.date.accessioned	2021-03-11T04:24:02Z	pt_BR
dc.date.issued	2020	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/218619	pt_BR
dc.description.abstract	We introduce a method for identifying short-duration reusable motor behaviors, which we call early-life options, that allow robots to perform well even in the very early stages of their lives. This is important when agents need to operate in environments where the use of poor-performing policies (such as the random policies with which they are typically initialized) may be catastrophic. Our method augments the original action set of the agent with specially-constructed behaviors that maximize performance over a possibly infinite family of related motor tasks. These are akin to primitive reflexes in infant mammals— agents born with our early-life options, even if acting randomly, are capable of producing rudimentary behaviors comparable to those acquired by agents that actively optimize a policy for hundreds of thousands of steps. We also introduce three metrics for identifying useful early-life options and show that they result in behaviors that maximize both the option’s expected return while minimizing the risk that executing the option will result in extremely poor performance. We evaluate our technique on three simulated robots tasked with learning to walk under different battery consumption constraints and show that even random policies over early-life options are already sufficient to allow for the agent to perform similarly to agents trained for hundreds of thousands of steps.	en
dc.description.abstract	Neste trabalho, introduzimos um método para identificar comportamentos motores reutilizáveis e de curta duração, que chamamos de early-life options. Esses comportamentos permitem com que robôs tenham boa performance mesmo nos momentos iniciais de suas vidas. Isso é importante quando agentes precisam interagir em ambientes nos quais o uso de políticas ruins (por exemplo, as políticas aleatórias com as quais os agentes geralmente são inicializados) pode ser catastrófico. Nosso método estende o conjunto de ações original do agente com comportamentos especialmente construídos para maximizar a performance em uma família possivelmente infinita de tarefas motoras relacionadas. Esses comportamentos são similares a reflexos primitivos em mamíferos, presentes no início de suas vidas. Agentes que iniciam suas vidas com a possibilidade de utilizar early-life options, mesmo quando agindo aleatoriamente, são capazes de produzir comportamentos rudimentares comparáveis a comportamentos de agentes que otimizaram suas políticas por centenas de milhares de passos. Nós introduzimos três métricas para identificar earlylife options úteis e mostramos que elas resultam em comportamentos que maximizam o retorno esperado da option, ao mesmo tempo em que minimizam o risco de obter performance significativamente baixa ao executá-la. Nós avaliamos o método proposto em três robôs simulados, cuja tarefa é aprender a caminhar sob diferentes restrições de consumo de bateria. Nós mostramos que mesmo políticas aleatórias sobre o conjunto de early-life options já são suficiente para que o agente tenha performance similar a de agentes que foram treinados por centenas de milhares de passos.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Robótica	pt_BR
dc.subject	Reinforcement Learning	en
dc.subject	Aprendizado por reforço	pt_BR
dc.subject	Options	en
dc.subject	Early-Life Options	en
dc.subject	Eficiência energética	pt_BR
dc.subject	Robo	pt_BR
dc.subject	Primitive Reflexes	en
dc.title	Identifying Reusable Early-Life Options	pt_BR
dc.title.alternative	Identificando Early-Life Options Reutilizáveis	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001122992	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2020	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001122992.pdf
Tamanho:: 1.449Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36734)

TCC Ciência da Computação (1006)

Mostrar registro simples