Early soft error reliability assessment of convolutional neural networks executing on resource-constrained IoT edge devices
View/ Open
Date
2022Author
Advisor
Co-advisor
Academic level
Doctorate
Type
Title alternative
Avaliação antecipada da influência de erros transientes em redes neurais convolucionais executando em dispositivos IoT Edge de recursos limitados
Subject
Abstract
Machine learning (ML) algorithms have provided straightforward solutions to a wide range of applications. The high computational demand of such algorithms limits their adoption in resource-constrained devices, which typically rely on reduced memory footprint and low-power components (e.g., microcontrollers and processors). While performance im provement, customized, and reduced-precision implementations of ML algorithms have been studied extensively, their susceptibility to soft errors caused b ...
Machine learning (ML) algorithms have provided straightforward solutions to a wide range of applications. The high computational demand of such algorithms limits their adoption in resource-constrained devices, which typically rely on reduced memory footprint and low-power components (e.g., microcontrollers and processors). While performance im provement, customized, and reduced-precision implementations of ML algorithms have been studied extensively, their susceptibility to soft errors caused by radiation particles is still an open question. In this regard, due to their flexibility and high simulation per formance, researchers are using virtual platform (VP) frameworks to assess the soft error reliability of complex systems considering several software stack components running on top of commercial processors. While the gain in simulation speed is trivially observed in VP simulators based on just-in-time (JIT) dynamic binary translation, the soft error assessment consistency of underlying fault injection frameworks remains unclear. In this regard, the main contribution of this Thesis is to provide, at early design phases, a con sistent and extensive soft error reliability assessment of ML algorithms developed with specialized libraries that enable the execution of such applications in resource-constrained Arm processors. The first goal of this Thesis is to analyze the consistency of the soft error reliability assessment of a JIT-based fault injection framework (SOFIA) against fault injection campaigns conducted with event-driven simulators (i.e., more realistic and ac curate platforms) considering single-processor architectures. Considering the consistency of the results conducted with SOFIA, the second goal of this Thesis is to early investi gate and identify the correlation between fault injection results, NN optimized kernels, and reduced precision parameters of convolutional neural networks (CNNs) executing on resource-constrained IoT devices. Such a study aims at evaluating the balance between relative performance and reliability to promote the use of software-based mitigation tech niques to improve soft error reliability. Understanding that adopted CNNs are vulnerable to soft errors, the third goal of this Thesis is to evaluate the impact of soft errors in the code, parameters, and data stored in the memory units of IoT edge devices considering the optimized libraries and the reduced precision used in such ML models. Besides that, we also developed a parallel CNN version as an attempt to increase performance while evaluating the impact of multi-threaded parallelism in the soft error reliability w.r.t. the original sequential version. In this sense, the results conducted in this Thesis comprise more than 14.8 million of fault injections considering distinct case studies, architectures, number of cores, OSs, and parallelization libraries. The consistency evaluation shows that SOFIA is more than 1000× faster than cycle-accurate simulators while preserving the soft error analysis accuracy (i.e., mismatch below to 10%).The early soft error reliability assessment of CNN executing on resource-constrained IoT Edge devices shows that the occurrence of critical faults varies depending on the instruction set architecture, the layer where the faults are injected, and the precision bitwidth of the convolutional layers. With that in mind, promoting the lightweight register allocation mitigation technique (RAT) gives the best relative performance, memory utilization. ...
Abstract in Portuguese (Brasil)
Os algoritmos de aprendizado de máquina (ML) têm fornecido soluções diretas para uma ampla gama de aplicações. A alta demanda computacional de tais algoritmos limita sua adoção em dispositivos com restrição de recursos, os quais normalmente são constituídos por memória reduzida e componentes de baixo consumo de energia (por exemplo, mi crocontroladores e processadores). Embora implementações personalizadas, melhorias de desempenho e precisão reduzida de modelos de ML tenham sido estudadas exten ...
Os algoritmos de aprendizado de máquina (ML) têm fornecido soluções diretas para uma ampla gama de aplicações. A alta demanda computacional de tais algoritmos limita sua adoção em dispositivos com restrição de recursos, os quais normalmente são constituídos por memória reduzida e componentes de baixo consumo de energia (por exemplo, mi crocontroladores e processadores). Embora implementações personalizadas, melhorias de desempenho e precisão reduzida de modelos de ML tenham sido estudadas extensiva mente, sua suscetibilidade a erros transientes causados por partículas de radiação ainda é uma questão em aberto. Nesse sentido, devido à sua flexibilidade e alto desempenho de simulação, os pesquisadores estão usando frameworks baseados em plataformas virtuais (VPs) para avaliar a confiabilidade de sistemas complexos expostos a erros temporários, considerando vários componentes de pilha de software rodando em processadores e mi crocontroladores comerciais. Embora o ganho na velocidade de simulação seja observado trivialmente em simuladores VP baseados em tradução binária dinâmica just-in-time (JIT), a consistência da avaliação de erros temporários dos frameworks de injeção de falha sub jacentes permanece incerta. Nesse sentido, a principal contribuição desta Tese é permitir, em fases iniciais de projeto, uma avaliação consistente e extensa da suscetibilidade à erros transientes de modelos de ML desenvolvidos com bibliotecas especializadas que permitem sua execução em processadores Arm com recursos limitados. Neste contexto, o primeiro objetivo desta Tese é analisar a consistência da avaliação de ocorrência erros transientes de um framework de injeção de falhas baseado em JIT (SOFIA) comparando com campanhas de injeção de falha conduzidas com simuladores orientados a eventos (isto é, plataformas mais realistas e precisas) considerando arquiteturas de um único processador. Considerando a consistência dos resultados conduzidos com SOFIA, o segundo objetivo desta Tese é investigar e identificar a correlação entre os resultados de injeção de falha, bibliotecas NN otimizadas e parâmetros de precisão reduzida de redes neurais convolucionais (CNNs) executando em dispositivos IoT com recursos limitados. Este estudo visa avaliar o equilíbrio entre desempenho relativo e confiabilidade para promo ver o uso de técnicas de mitigação baseadas em software para melhorar a confiabilidade destes modelos de ML. Compreendendo que as CNNs adotadas são vulneráveis à erros transientes, o terceiro objetivo desta Tese é avaliar o impacto das falhas no código, para metros e dados armazenados nas unidades de memória destes dispositivos considerando as bibliotecas otimizadas e a precisão reduzida utilizada em tais modelos de ML. Além disso, neste trabalho também foi desenvolvido uma versão paralela da CNN como uma tentativa de aumentar o desempenho e avaliar o impacto do paralelismo multi-thread na susceptibilidade a erros transientes comparando com a versão sequencial original. Nesse sentido, os resultados conduzidos nesta Tese compreendem mais de 14,8 milhões de in jeções de falhas considerando distintos estudos de caso, arquiteturas, número de núcleos, OSs, e bibliotecas de paralelização. A avaliação de consistência mostrou que o SOFIA é mais de 1000× mais rápido do que os simuladores com precisão de ciclo, preservando a precisão da análise de susceptibilidade a erros transientes (ou seja, diferença abaixo de 10%). ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Microeletrônica.
Collections
-
Engineering (7412)Microelectronics (208)
This item is licensed under a Creative Commons License