Eficiência e custos das técnicas de tolerância a falhas para proteger processadores superescalares de SEEs
Fecha
2019Autor
Co-director
Nivel académico
Maestría
Tipo
Otro título
Efficiency and costs of fault tolerance techniques to protect superscalar processors from SEEs
Materia
Resumo
Os avanços tecnológicos reduziram as dimensões dos componentes eletrônicos com o objetivo de diminuir o tempo de execução e a energia consumida para realizarem suas funções. Porém, isto os tornou mais sensíveis a efeitos causados por partículas energizadas presentes no meio. Portanto, os processadores superescalares utilizados em aplicações críticas e em ambientes onde estes efeitos podem causar maiores problemas precisam de uma proteção para garantir a confiabilidade destes dispositivos. Em vi ...
Os avanços tecnológicos reduziram as dimensões dos componentes eletrônicos com o objetivo de diminuir o tempo de execução e a energia consumida para realizarem suas funções. Porém, isto os tornou mais sensíveis a efeitos causados por partículas energizadas presentes no meio. Portanto, os processadores superescalares utilizados em aplicações críticas e em ambientes onde estes efeitos podem causar maiores problemas precisam de uma proteção para garantir a confiabilidade destes dispositivos. Em vista disso, esta dissertação de mestrado estuda a eficiência de técnicas de tolerância a falhas implementadas em software em termos de tempo de execução e capacidade de detecção de falhas. A análise está dividida em técnicas para detecção de falhas nos dados e no fluxo de controle e também foi expandida para a proteção seletiva de registradores. Um conjunto de programas, composto por 13 aplicações, foi protegido com 9 técnicas e executado em 3 versões de um processador superescalar. Para avaliar as técnicas, 130 milhões de falhas foram injetadas, distribuídas em 12 estruturas micro-arquiteturais do processador. Para complementar as técnicas de tolerância a falhas em software, a fim de alcançarmos a total proteção do processador, este trabalho propõe avaliar as estruturas ainda vulneráveis para incluir proteção em hardware, através da duplicação destas estruturas e comparação de seus resultados. Com o intuito de minimizar os custos em área e, consequentemente em energia, este trabalho propõe, também, otimizar a aplicação da duplicação em hardware com o auxílio do algoritmo problema da mochila. Os resultados mostram que as técnicas de tolerância a falhas implementadas em software são capazes de reduzir a vulnerabilidade do processador superescalar em até 69%. Porém, as técnicas em software não são capazes de proteger todo o processador e, consequentemente, o uso de técnicas em hardware é obrigatório para atingir a completa proteção do processador superescalar. Através da proteção seletiva é possível explorar o espaço de protejo disponível para balancear consumo de energia, confiabilidade e desempenho. Os experimentos mostraram que, em alguns casos é possível reduzir custos de energia, mantendo os altos níveis de resiliência dos processadores. ...
Abstract
Technological advances have reduced the dimensions of electronic components to shorten the runtime and energy consumed to perform their functions. However, this made them more sensitive to the effects caused by energized particles present in the environment. Therefore, superscalar processors used in critical applications and in the environments where these effects can cause significant problems needs protection to ensure the reliability of these devices. Given this, this master thesis studies t ...
Technological advances have reduced the dimensions of electronic components to shorten the runtime and energy consumed to perform their functions. However, this made them more sensitive to the effects caused by energized particles present in the environment. Therefore, superscalar processors used in critical applications and in the environments where these effects can cause significant problems needs protection to ensure the reliability of these devices. Given this, this master thesis studies the efficiency of fault tolerance techniques implemented in software in terms of runtime and fault detection capability. The analysis is divided into techniques for detecting data and control-flow faults and has also been expanded to selective register protection. A set of programs, made up of 13 applications, was protected with 9 techniques and executed on 3 versions of a superscalar processor. To evaluate the techniques, 130 million faults were injected, distributed in 12 processor micro-architectural structures. To complement software fault tolerance techniques to achieve full processor protection, this work proposes to evaluate the still vulnerable structures, including hardware protection by duplicating these structures and comparing their results. To minimize costs in the area and, consequently, in energy, this work also proposes to optimize the application of hardware duplication with the aid of the knapsack problem algorithm. Results show that software-implemented fault tolerance techniques can reduce superscalar processor vulnerability by up to 69%. However, software techniques are not capable of protecting the entire processor and, consequently, the use of hardware techniques is mandatory to achieve full protection of superscalar processors. Through selective protection, it is possible to exploit the available design space to balance energy consumption, reliability, and performance. Experiments have shown that in some cases it is possible to reduce energy costs while maintaining high levels of processor resiliency. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Microeletrônica.
Colecciones
-
Ciencias Exactas y Naturales (5121)Computación (1763)
Este ítem está licenciado en la Creative Commons License