Performance and energy-efficiency evaluation of mixed precision computation on GPUs
Visualizar/abrir
Data
2025Autor
Orientador
Nível acadêmico
Graduação
Assunto
Abstract
The rapid growth of Deep Learning (DL) and Large Language Models (LLMs) has intensified the performance and energy requirements imposed on modern GPU architectures. As training and inference workloads scale, achieving high throughput and energy efficiency increasingly depends on optimizing numerical precision and fully exploiting specialized hardware support. Given that, this work presents a comparative evaluation of mixed-precision training and inference across two major GPU architecture famil ...
The rapid growth of Deep Learning (DL) and Large Language Models (LLMs) has intensified the performance and energy requirements imposed on modern GPU architectures. As training and inference workloads scale, achieving high throughput and energy efficiency increasingly depends on optimizing numerical precision and fully exploiting specialized hardware support. Given that, this work presents a comparative evaluation of mixed-precision training and inference across two major GPU architecture families: NVIDIA’s Ada Lovelace and AMD’s RDNA 3. The work focuses on how precision choices (e.g., FP32, FP16, and BF16) impact both performance and energy efficiency. For that, we consider three representative workloads: ResNet50 (vision), BERT-Large (language understanding), and GPT-2 (language generation), on the NVIDIA L40S, NVIDIA GeForce RTX4090, and AMD Radeon RX 7900 XT. The results show that mixed-precision execution consistently improves performance and energy efficiency across all GPUs. NVIDIA GPUs benefit from highly stable and mature FP16/BF16 implementations with negligible differences between formats. On the other hand, AMD’s FP32 path is significantly limited by the maturity of its software stack, making mixed precision essential to unlock the full potential of its hardware. In many inference scenarios, we demonstrate that mixed precision achieves speedups of up to 12 times over FP32. ...
Resumo
O rápido crescimento do Aprendizado Profundo (Deep Learning - DL) e dos Grandes Modelos de Linguagem (Large Language Models - LLMs) intensificou os requisitos de desempenho e energia impostos às novas arquitetura de GPU modernas. À medida que as cargas de trabalho de treinamento e inferência escalam, alcançar altas taxas de amostragem e alta eficiência energética dependem cada vez mais da otimização da precisão numé- rica e da exploração de hardware especializado. Diante disso, este trabalho ap ...
O rápido crescimento do Aprendizado Profundo (Deep Learning - DL) e dos Grandes Modelos de Linguagem (Large Language Models - LLMs) intensificou os requisitos de desempenho e energia impostos às novas arquitetura de GPU modernas. À medida que as cargas de trabalho de treinamento e inferência escalam, alcançar altas taxas de amostragem e alta eficiência energética dependem cada vez mais da otimização da precisão numé- rica e da exploração de hardware especializado. Diante disso, este trabalho apresenta uma avaliação comparativa do treinamento e inferência com precisão mista em duas famílias principais de arquitetura de GPU: Ada Lovelace da NVIDIA e RDNA 3 da AMD. O trabalho foca em como as escolhas de precisão (por exemplo, FP32, FP16 e BF16) impactam tanto o desempenho quanto a eficiência energética. Para isso, consideramos três cargas de trabalho representativas: ResNet50 (visão computacional), BERT-Large (compreensão de linguagem) e GPT-2 (geração de linguagem), sobre as GPUs NVIDIA L40S, NVIDIA GeForce RTX 4090 e AMD Radeon RX 7900 XT. Os resultados mostram que a execu- ção com precisão mista melhora consistentemente o desempenho e a eficiência energética em todas as GPUs. As GPUs da NVIDIA possuem uma implementação extremamente estável e madura para as precisões FP16 e BF16, tendo diferenças de performance quase negligentes entre elas. Por outro lado, a implementação de precisão FP32 da AMD é significativamente limitada e falta maturidade em sua pilha de software, fazendo com que a precisão mista seja essencial para conseguirmos utilizar o potencial completo do hardware. Em cenários de inferência, demonstramos que a precisão mista alcança acelerações de até 12 vezes em relação ao FP32. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1165)
Este item está licenciado na Creative Commons License


