Classificação de imagens coletadas de câmeras de evento por meio de SNNs (Spiking Neural Networks)

Sanchez, Alvaro Javier Zamudio

Visualizar/abrir

Texto completo (2.050Mb)

Data

2023

Autor

Sanchez, Alvaro Javier Zamudio

Orientador

Weber, Tiago Oliveira

Nível acadêmico

Graduação

Resumo

Desafios no campo da visão computacional têm sido abordadas de forma consistente por meio da utilização de Redes Neurais Convolucionais (CNNs). Essas arquiteturas consistem em neurônios interconectados capazes de extrair mapas de características complexas de imagens de entrada, o que viabiliza a classificação autônoma e eficaz de imagens. A aplicação destas redes neurais voltadas para o processo de detecção e classificação de objetos tem particular importância no âmbito dos veículos autônomos, uma vez que o reconhecimento de objetos em imagens é fundamental para a percepção espacial. Embora as Redes Neurais Convolucionais (CNNs) tenham consolidado sua posição como uma das principais arquiteturas líderes no estado da arte, sua aplicabilidade em máquinas com recursos limitados, como veículos autônomos, encontra certas limitações, uma vez que a implementação deste tipo de modelo exige um consumo considerável de memória e energia. Para contornar essas restrições, uma abordagem alternativa envolve a incorporação de metodologias inspiradas em princípios biológicos, aproveitando sua eficiência energética e menor ocupação de memória. Uma estratégia inicial envolve a utilização de câmeras baseadas em eventos em conjunto com a adoção de SNNs (Redes Neurais Pulsantes), o que resulta numa resolução mais elevada, uma latência reduzida além de uma alocação de memória minimizada, em contraste com métodos e dispositivos convencionais. Para a utilização dos dados fornecidos pelas câmeras de eventos, estes dados serão reestruturados na forma de Voxel Grids, contendo as dimensões do tempo, posição dos píxeis e os canais das polaridades que sinalizam a ocorrência de ativação dos píxeis. Ao construir o modelo de uma SNN, é necessário utilizar o método de Surrogate Gradient para viabilizar o aprendizado de máquina, e assim, tornar-lo apto de adaptar arquiteturas convencionais, desde uma CNN com poucas camadas até modelos mais robustos como a arquitetura VGG-11. Os bancos de dados utilizados para os experimentos neste estudo foram todos capturados por câmeras de eventos, sendo o DVS-Gesture e N-CARS de origem puramente neuromórfica, e o CIFAR10-DVS uma adaptação da base CIFAR10. A taxa de acertos obtidos durante a classificação de imagens foram de 86.5%, 88.0%, 65.9% respectivamente, medindo uma atividade não nula de em torno de 10% durante todo o processo. ...

Abstract

Challenges in the field of computer vision have been consistently addressed through the use of Convolutional Neural Networks (CNNs). These architectures consist of interconnected neurons capable of extracting complex feature maps from input images, enabling autonomous and effective image classification. The application of these neural networks for object detection and classification is particularly important in the context of autonomous vehicles, as object recognition in images is crucial for spatial perception. Although Convolutional Neural Networks (CNNs) have established their position as one of the leading state-of-the-art architectures, their applicability in resource-constrained machines such as autonomous vehicles faces certain limitations, as the implementation of this type of model requires a considerable consumption of memory and energy. To overcome these restrictions, an alternative approach involves incorporating methodologies inspired by biological principles, leveraging their energy efficiency and lower memory footprint. An initial strategy involves the use of event-based cameras in conjunction with the adoption of Spiking Neural Networks (SNNs), resulting in higher resolution, reduced latency, and minimized memory allocation compared to conventional methods and devices. To use the data provided by event cameras, this data will be structured in the form of Voxel Grids, containing dimensions of time, pixel positions, and polarity channels signaling pixel activation events. When constructing an SNN model, it is necessary to use the Surrogate Gradient method to enable machine learning and make it capable of adapting to conventional architectures, from a CNN with few layers to more robust models such as the VGG-11 architecture. The databases used for experiments in this study were all captured by event cameras, with DVS-Gesture and N-CARS originating purely from neuromorphic sources, and CIFAR10-DVS being an adaptation of the CIFAR10 dataset. The accuracy rates obtained during image classification were 86.5%, 88.0%, and 65.9%, respectively, with a non-null activity measuring around 10% throughout the process. ...

Instituição

Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Curso de Engenharia Elétrica.

Coleções

Trabalhos de Conclusão de Curso de Graduação (36091)

TCC Engenharias (5695)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License