Design of efficient LSTM accelerators exploring approximate computing techniques
Visualizar/abrir
Data
2025Autor
Orientador
Nível acadêmico
Graduação
Outro título
Projeto de aceleradores eficientes para LSTM explorando técnicas de computação aproximada
Assunto
Abstract
Specialized layers of Recurrent Neural Networks (RNNs), such as Long Short-Term Memory (LSTM), are widely used in applications that require learning patterns in data sequences due to their ability to learn long-term dependencies between the time steps of the sequences. However, these layers have a high computational cost because of the large number of parameters and operations required for their execution. Aiming to reduce the cost of error-resilient applications by replacing precise elements w ...
Specialized layers of Recurrent Neural Networks (RNNs), such as Long Short-Term Memory (LSTM), are widely used in applications that require learning patterns in data sequences due to their ability to learn long-term dependencies between the time steps of the sequences. However, these layers have a high computational cost because of the large number of parameters and operations required for their execution. Aiming to reduce the cost of error-resilient applications by replacing precise elements with approximations, Approximate Computing (AxC) techniques can be employed to reduce both the cost of storing parameters and executing operations in RNNs. This work aims to investigate the impact of multiple AxC techniques on the design of an LSTM hardware accelerator: quantization and piece-wise linear approximation will be explored at the software level, and approximate arithmetic units at the hardware level. Four different models and an LSTM accelerator architecture were proposed to assess the performance of the techniques in metrics such as the area and power of the hardware designs and the accuracy of the models. The quantization technique was able to reduce the bit-width employed by the models four times for the parameters and two times for the internal operations with a loss of 0.04% in accuracy on sentiment analysis of IMDB movie reviews dataset and improvements in the f1-score and accuracy on Human Activity Recognition (HAR) dataset. For an operation frequency of 83.33MHz, savings of 7.66% in area and 19.9% in power were achieved through the use of LoBA multipliers, with no impacts on the accuracy in a subset of the IMDB test set and an f1-score loss of 0.77% on a subset of the HAR test set ...
Resumo
Camadas especializadas de Redes Neurais Recorrentes (RNNs), como Long Short-Term Memory (LSTM), são amplamente utilizadas em aplicações que requerem o aprendizado de padrões em sequências de dados devido à sua capacidade de aprender dependências de longo prazo entre os elementos das sequências. No entanto, essas camadas apresentam um alto custo computacional por causa do seu grande número de parâmetros e de operações necessárias para sua execução. Com o objetivo de reduzir o custo de aplicações ...
Camadas especializadas de Redes Neurais Recorrentes (RNNs), como Long Short-Term Memory (LSTM), são amplamente utilizadas em aplicações que requerem o aprendizado de padrões em sequências de dados devido à sua capacidade de aprender dependências de longo prazo entre os elementos das sequências. No entanto, essas camadas apresentam um alto custo computacional por causa do seu grande número de parâmetros e de operações necessárias para sua execução. Com o objetivo de reduzir o custo de aplicações resilientes a erros através da substituição de elementos precisos por aproximações, técnicas de Computação Aproximada (AxC) podem ser utilizadas para reduzir tanto o custo de armazenamento de parâmetros quanto da execução de operações em RNNs. Este trabalho tem como objetivo investigar o impacto de múltiplas técnicas AxC no projeto de um acelerador de hardware para LSTM: a quantização e a aproximação linear por partes serão exploradas no nível de software e unidades aritméticas aproximadas no nível de hardware. Quatro modelos diferentes e uma arquitetura de acelerador para LSTM foram propostos para avaliar o desempenho das técnicas em métricas como área e potência dos projetos de hardware e a precisão dos modelos. A técnica de quantização foi capaz de reduzir a largura de bits empregada pelos modelos em quatro vezes para os parâmetros e em duas vezes para as operações internas, com uma perda de 0,04% na acurácia no conjunto de dados de análise de sentimento de críticas de filmes do IMDB e melhorias no f1-score e na acurácia no conjunto de dados de Reconhecimento de Atividade Humana (HAR). Para uma frequência de operação de 83,33 MHz, economias de 7,66% na área e 19,9% na potência foram alcançadas com o uso de multiplicadores LoBA, sem impactos na acurácia em um subconjunto do conjunto de teste do IMDB e uma perda de 0,77% no f1-score em um subconjunto do conjunto de teste do HAR. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1128)
Este item está licenciado na Creative Commons License


