Software-only computation reuse techniques for energy efficient CNNs

In the past years, several efforts in algorithm and architectural research were put together to enable large-scale use of CNNs as we know today. Thus far, most of these achievements have been based on improving convolutions by chasing the parallel execution of MAC operations through the replication of floating-point units. However, these solutions fall far short of what is allowed from the energy budget when it comes to embedded systems running these NN models. Given specific image characteristics, such as recurrent input patterns, we propose an algorithmic changing for performing CNN inferences by employing a computation reuse technique instead of the original implementation. Based on statistical analysis, we address computation reuse at three granularity levels: convolution kernel-level and grid-level through employing lookup tables in place of the original convolutions, and frame-level by replacing entire frame computations with a movement prediction algorithm. Experimental results show that it is possible to achieve energy savings up to 27.5 , while reducing the inference time to 116 of the baseline, with an accuracy loss of 13%. ...

Resumo

Nos últimos anos, pesquisas em melhorias nas áreas de algoritmos e arquiteturas computacionais foram postas lado-a-lado de modo a permitir o uso em larga-escala de CNNs. Desde então, a maior parte destas melhorias têm sido baseadas na aceleração de convoluções através da execução paralela de operações MAC, utilizando a replicação de unidades de ponto-flutuante. No entanto, essas soluções ficam muito aquém do que é permitido em termos de consumo energético quando se trata de sistemas embarcados executando NNs. Considerando características específicas de imagens, tais como repetições de padrões de entrada, neste trabalho, nós apresentamos uma mudança algorítmica no modo como CNNs realizam inferências, empregando uma técnica de reuso de computação no lugar da implementação original. Com base em análises estatísticas, nós abordamos o reuso de computação em três granularidades: ao nível de convolução e ao nível de conjunto de convoluções, realizando consultas em tabelas ao invés das convoluções originais, e ao nível de frame através da substituição da computação original de um frame inteiro por um algoritmo de predição de movimento. Nossos resultados mostram que é possível obter níveis de economia de energia em até 27,5 , e reduzir o tempo de inferência por um fator de 116 em relação à versão original, com uma perda de precisão de 13%. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.

Coleções

Ciências Exatas e da Terra (5203)

Computação (1789)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License