A Simulation-based methodology focused on energy-efficient approximate hardware accelerators design

The increasing power density and the pervasive use of compute-intensive and power-hungry applications demand energy-efficient CMOS design. This work proposes a systematic simulation-based design flow to explore the integration of state-of-the-art approximate adders inside hardware accelerator architectures regarding approximation-tolerant applications. The approximate computing concept emerged as a promising technique to drive energy efficiency for CMOS technologies. In this context, the proposed techniques are focused on the tradeoff between accuracy and energy efficiency. Most of the state-of-the-art methodologies for approximate computing exploration are analytical or concentrated in the arithmetic and logic layers of abstraction and they do not consider real input data distributions. Another characteristic found in related works is the weak capability to connect layers, when performing quality-power-performance profiles from the arithmetic up to the application layer. Differently from the state-of-the-art, in this thesis the proposed methodology takes into account the cross-layer integration challenge and presents different quality-power-performance results by considering real test-cases. Three distinct case studies are evaluated in approximation-tolerant applications scope: i) FIR filters for audio processing; ii) Canny edge detection for computer vision algorithms; iii) Motion estimation computation for video coding application. Results show that the proposed design flow is suitable for exploring cross-layer approximate computing integration by considering both the energy efficiency analysis and the application quality. In terms of energy efficiency evaluation, the proposed approach plus the search heuristics are able to seek for suboptimal approximation during design-time which resulted in an energy reduction of up to 57.4%. In addition, the accuracy-configurable approach is proposed in architectural level by exploring coarse grain pruning. In this context, the proposed schemes are designed to accomplish run-time capabilities for distinct power-performance-accuracy profiles. The proposed accuracy-configurable accelerators present dynamic power reduction of up to 64% for the case where most of the operational blocks are clock gated. For quality analysis, realistic objective metrics were systematically explored by considering a large set of real test cases. Results indicate that the proposed methodology contributes with an in-depth characterization for quality-power-performance profiles. ...

Resumo

O aumento da densidade de potência e do uso pervasivo de aplicações com alto custo em esforço computacional e potência exigem eficiência energética no projeto CMOS. Este trabalho propõe um fluxo de projeto baseado em simulações para explorar a integração entre somadores aproximados do estado da arte e aceleradores de hardware para aplicações tolerantes a erros. O conceito de computação aproximada emergiu como uma técnica promissora para fomentar eficiência energética em tecnologias CMOS recentes. Neste contexto, as técnicas propostas são focadas no balanço de compromisso entre exatidão e eficiência energética. A maioria das metodologias do estado da arte é analítica ou concentrada na camada de abstração aritmética sem considerar casos de teste reais. Outra característica encontrada nos trabalhos relacionados refere-se ao baixo acoplamento quando considerados perfis de qualidade-potência-desempenho computacional, desde a camada aritmética até a camada da aplicação. Diferentemente do estado da arte, a metodologia proposta neste trabalho leva em consideração o desafio de integração entre camadas de abstração e apresenta diferentes perfis de qualidade, potência e desempenho computacional, quando são utilizados casos de teste reais. Três estudos de caso são avaliados no escopo de aplicações tolerantes a erros: i) filtros FIR no processamento de áudio; ii) detector de bordas Canny; e iii) métricas para a estimativa de movimento em aplicações de codificação de vídeo. Os resultados indicam que o fluxo de projeto proposto é adequado para explorar integração entre camadas de abstração no contexto de computação aproximada quando considerados os critérios de eficiência energética, bem como a qualidade da aplicação. Em termos de eficiência energética, a proposta deste trabalho resultou em redução no consumo energético em até 57,4%. Em adição, este trabalho propõe aproximação com granularidade grossa em aceleradores de hardware com o objetivo de obter uma solução configurável. Neste contexto, os esquemas propostos foram projetados para atender diferentes perfis de qualidade-potência-desempenho computacional em tempo de execução. As arquiteturas configuráveis apresentam redução na dissipação de potência dinâmica de até 64%. Para a análise de qualidade, métricas objetivas e realísticas foram sistematicamente exploradas considerando um conjunto maior de casos de teste reais. Resultados indicam que a solução proposta contribui com uma caracterização abrangente em termos de qualidade, potência dissipada e desempenho computacional. Palavras-chave: Computação aproximada, aceleradores de hardware, projeto CMOS de baixa potência, aplicações de processamento digital de sinais. ...

Institución

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Microeletrônica.

Colecciones

Ingeniería (7440)

Microelectrónica (210)

Otras opciones

Mostrar todos los metadatos

Estatísticas

Este ítem está licenciado en la Creative Commons License