Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
View/ Open
Date
2023Author
Academic level
Master
Type
Title alternative
Software-controlled fault tolerance techniques for hardening the pipelines of graphics processor units
Subject
Abstract in Portuguese (Brasil)
A utilização de Processadores Gráficos (Graphics Processing Unit - GPU) na computação gráfica, em aceleradores de uso geral e Computação de Alto Desempenho (High Processing Computing - HPC), recentemente tiveram um crescimento e passaram a ser utilizados em diversas aplicações críticas de segurança, por exemplo em veículos autônomos e avi- ônica. Embora, as mais recentes tecnologias são utilizadas na fabricação das GPUs para satisfazer os requisitos de consumo de energia e desempenho, ainda são ...
A utilização de Processadores Gráficos (Graphics Processing Unit - GPU) na computação gráfica, em aceleradores de uso geral e Computação de Alto Desempenho (High Processing Computing - HPC), recentemente tiveram um crescimento e passaram a ser utilizados em diversas aplicações críticas de segurança, por exemplo em veículos autônomos e avi- ônica. Embora, as mais recentes tecnologias são utilizadas na fabricação das GPUs para satisfazer os requisitos de consumo de energia e desempenho, ainda são sensíveis e suscetíveis a falhas em algumas áreas, dentre elas a aviônica, por possuir um alto grau de exposição a partículas energizadas, como prótons e nêutrons. Os principais efeitos causados por essas partículas energizadas, em circuitos de alta densidade, são conhecidos como Perturbações de Evento Único (Single Event Upset - SEU). Apesar do SEU não resultar na destruição dos circuitos, ele tem o potencial de introduzir erros no armazenamento de dados, afetando principalmente memórias e registradores. Para proteger as GPUs contra esses efeitos, os engenheiros empregam técnicas de tolerância a falhas, que podem ser desenvolvidas por meio de abordagens que combinam o suporte de software e hardware. O objetivo dessa dissertação foi aprimorar a resiliência dos registradores de pipeline em uma arquitetura de GPU. Para isso, foram desenvolvidas duas técnicas híbridas de tolerância a falhas, baseadas em trabalhos relacionados. A primeira técnica é a híbrida XOR e a segunda técnica é a híbrida paridade, que comparam e detectam, por meio de um bit de confiabilidade, se a instrução duplicada está com erro, caso estiver é realizado a correção. Abordagens anteriores concentraram-se em proteger elementos de memória, como arquivos de registradores e memória compartilhada, priorizando proteção por software. Já a proteção dos registradores de pipeline demanda alterações no hardware, tornando essencial o desenvolvimento de técnicas híbridas. A análise das técnicas desenvolvidas foram realizadas por meio de simulação da injeção de milhares de falhas no pipeline da GPU, em até seis aplicações de estudo de caso. Os resultados em termos de overhead do tempo de execução variam de 1,04x a 1,66x e uma detecção e correção de erros de 100% para as quatro aplicações de estudo de caso da técnica híbrida XOR. Para a técnica híbrida paridade, teve um aumento entre 2% e 15% no overhead do tempo de execução, além da redução e correção de em média 47% dos erros. ...
Abstract
The use of Graphics Processors (GPU) in graphics computing, in general purpose accelerators and High Performance Computing (HPC), has recently grown and become used in several safety-critical applications, for example in autonomous vehicles and avionics. Although the latest technologies are used in the manufacture of GPUs to satisfy energy consumption and performance requirements, they are still sensitive and susceptible to failures in some areas, including avionics, due to a high degree of exp ...
The use of Graphics Processors (GPU) in graphics computing, in general purpose accelerators and High Performance Computing (HPC), has recently grown and become used in several safety-critical applications, for example in autonomous vehicles and avionics. Although the latest technologies are used in the manufacture of GPUs to satisfy energy consumption and performance requirements, they are still sensitive and susceptible to failures in some areas, including avionics, due to a high degree of exposure to energized particles, such as protons and neutrons. The main effects caused by these energized particles, in high-density circuits, are known as Single Event Upset (SEU). Although SEU does not result in the destruction of circuits, it has the potential to introduce errors into data storage, mainly affecting memories and registers. To protect GPUs against these effects, engineers employ fault tolerance techniques, which can be developed through approaches that combine software and hardware support. The objective of this dissertation was to improve the resilience of pipeline registers in a GPU architecture. To this end, two hybrid fault tolerance techniques were developed, based on related work. The first technique is hybrid XOR and the second technique is hybrid parity, which compare and detect, through a reliability bit, whether the duplicate instruction has an error, and if so, correction is performed. Previous approaches have focused on protecting memory elements such as register files and shared memory, prioritizing software protection. Protecting pipeline registers requires changes to the hardware, making the development of hybrid techniques essential. The analysis of the developed techniques was carried out through simulation of the injection of thousands of faults into the GPU pipeline, in up to six case study applications. The results in terms of runtime overhead range from 1.04x to 1.66x and a 100% error detection and correction for the four case study applications of the hybrid XOR technique. For the hybrid parity technique, there was an increase between 2% and 15% in overhead execution time, in addition to the reduction and correction of an average of 47% of errors. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Collections
-
Exact and Earth Sciences (5129)Computation (1764)
This item is licensed under a Creative Commons License