Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
Visualizar/abrir
Data
2021Orientador
Co-orientador
Nível acadêmico
Mestrado
Tipo
Outro título
Hierarchical organization with state aggregation in multiagent learning: an application in traffic signal control
Assunto
Resumo
Controle semafórico é uma possível solução para o sério problema de aumento de congestionamento nas áreas urbanas. Técnicas de aprendizado por reforço multiagente (MARL) têm mostrado resultados significativos na otimização de controladores semafóricos, visto que distribuem o controle global do tráfego entre agentes locais responsáveis pelos controladores. Assim, cada agente local tem uma visão parcial do ambiente e otimiza sua política baseado em suas observações. Contudo, o tráfego que passa p ...
Controle semafórico é uma possível solução para o sério problema de aumento de congestionamento nas áreas urbanas. Técnicas de aprendizado por reforço multiagente (MARL) têm mostrado resultados significativos na otimização de controladores semafóricos, visto que distribuem o controle global do tráfego entre agentes locais responsáveis pelos controladores. Assim, cada agente local tem uma visão parcial do ambiente e otimiza sua política baseado em suas observações. Contudo, o tráfego que passa por uma interseção não depende apenas de influências locais, mas de informações da rede de transporte como um todo. Do ponto de vista computacional, realizar o controle semafórico de uma rede de transporte de forma centralizada é uma tarefa de difícil execução devido à grande quantidade de variáveis envolvidas; enquanto de forma descentralizada, é possível não atingir o melhor desempenho do sistema, visto que os agentes buscam melhorar individualmente. O método proposto nesta dissertação baseia-se em utilizar uma organização hierárquica para aumentar a visão dos agentes locais e coordená-los com o objetivo de melhorar o desempenho do sistema. O método é inspirado em algumas técnicas de aprendizado por reforço que utilizam uma organização hierárquica. Contudo, diferencia-se dessas técnicas por apresentar uma metodologia hierárquica mais flexível em relação às interações entre os agentes de diferentes níveis. Na metodologia proposta, uma organização hierárquica com um número arbitrário de níveis é apresentada. Agentes supervisores, de nível l, são responsáveis por um conjunto de agentes subordinados, de nível l 1. Os subordinados transmitem uma abstração de suas observações do ambiente para seus supervisores. Os supervisores utilizam essas abstrações para aprender uma recomendação de alto nível a qual guiará o aprendizado dos seus subordinados para um melhor desempenho coletivo. Na aplicação para controle semafórico, a rede de transporte é dividida em regiões de diferentes níveis hierárquicos, cada região sendo controlada por um agente. Logo, quanto mais alto o nível hierárquico do agente região, mais ampla é sua visão do tráfego na rede de transporte. Na base da hierarquia se encontram os agentes dos controladores semafóricos, localizados em cada interseção. Os resultados dos experimentos, realizados em uma rede sintética em grid, mostram que a metodologia proposta de aprendizado por reforço com organização hierárquica tem melhor desempenho quando comparada a um método de tempo fixo e a um método com aprendizado por reforço sem organização hierárquica. ...
Abstract
Traffic signal control is a possible solution to the serious problem of congestion increase in urban areas. Multi-agent reinforcement learning (MARL) techniques have shown significant results in the traffic signal controllers’ optimization, since they distribute the global traffic control among local agents responsible for the controllers. Thus, each local agent has a partial view of the environment and optimizes its policy based on its observations. However, traffic passing through an intersec ...
Traffic signal control is a possible solution to the serious problem of congestion increase in urban areas. Multi-agent reinforcement learning (MARL) techniques have shown significant results in the traffic signal controllers’ optimization, since they distribute the global traffic control among local agents responsible for the controllers. Thus, each local agent has a partial view of the environment and optimizes its policy based on its observations. However, traffic passing through an intersection does not depend only on local influences, but on information from the transport network as a whole. From a computational point of view, carrying out the traffic control of a transport network in a centralized way is difficult task due to the large number of variables involved; while in a decentralized way, it is possible not to achieve the best performance of the system, since the agents seek to improve individually. The method proposed in this dissertation uses a hierarchical organization to increase the local agents’ vision and coordinate them in order to improve the performance of the system. The method is inspired by reinforcement learning techniques that use a hierarchical organization. However, it differs from these techniques in that it presents a more flexible hierarchical methodology in relation to the interactions between agents at different levels. In the proposed methodology, a hierarchical organization with an arbitrary number of levels is presented. Supervisor agents, of level l, are responsible for a set of subordinate agents, of level l 1. The subordinates transmit an abstraction of their environment’ observations to their supervisors. The supervisors use these abstractions to learn a high-level recommendation that will guide their subordinates’ learning to a better collective performance. In the traffic control application, the transportation network is divided into regions of different hierarchical levels, each region being controlled by an agent. Therefore, the higher the hierarchical level of the region agent, the broader his view of traffic on the transport network. At the bottom of the hierarchy are the traffic signal controller agents, located at each intersection. The results of the experiments, carried out in a synthetic grid network, show that the proposed reinforcement learning approach with hierarchical organization outperforms a fixed time method and a reinforcement learning method without hierarchical organization. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Coleções
-
Ciências Exatas e da Terra (5129)Computação (1764)
Este item está licenciado na Creative Commons License