LINCE : a terabit-scale hybrid virtualization engine for distributed applications
View/ Open
Date
2025Co-advisor
Academic level
Doctorate
Type
Title alternative
LINCE (Line-rate In-Network Compute Engine) : um mecanismo de virtualização híbrido em escala de terabits para aplicativos distribuídos
Subject
Abstract
The rise of data-intensive, latency-sensitive applications necessitates a shift towards InNetwork Computing (INC). However, a significant gap persists: existing academic FPGAbased platforms lack terabit-scale performance, while commercial ASICs lack the flexibility and virtualization required for multi-tenant, programmable data planes. This thesis introduces the Line-rate In-Network Compute Engine (LINCE) to bridge this gap. LINCE synergizes the high-speed performance of an ASIC for static I/O ...
The rise of data-intensive, latency-sensitive applications necessitates a shift towards InNetwork Computing (INC). However, a significant gap persists: existing academic FPGAbased platforms lack terabit-scale performance, while commercial ASICs lack the flexibility and virtualization required for multi-tenant, programmable data planes. This thesis introduces the Line-rate In-Network Compute Engine (LINCE) to bridge this gap. LINCE synergizes the high-speed performance of an ASIC for static I/O and queuing functions with the dynamic reconfigurability of an FPGA for hosting parallel, isolated In-Network Computing units. The platform offers a versatile development ecosystem, supporting both the standard P4 language for network functions and a highly efficient C++/HLS workflow for complex applications. The architecture is characterized to achieve an aggregate virtualized throughput of 3.2 Tbps, an order of magnitude beyond prior academic solutions. Our C++/HLS flow is demonstrated to reduce resource utilization by up to 99.5% compared to traditional P4 toolchains while improving latency and throughput. The platform’s efficacy is validated through the successful deployment of sophisticated distributed applications, including line-rate Artificial Neural Network inference (achieving latencies under 1.5 µs) and real-time, content-aware video stream processing (reducing critical packet loss by 82.5%). By reconciling terabit-scale performance with deep programmability and dynamic virtualization, LINCE establishes a new benchmark and provides a robust, opensource foundation for the next generation of intelligent networks. ...
Abstract in Portuguese (Brasil)
O aumento de aplicações com uso intensivo de dados e sensíveis à latência exige uma mudança para a computação em rede. No entanto, ainda há uma lacuna significativa: as plataformas acadêmicas existentes baseadas em FPGA não têm desempenho em escala de terabit, enquanto os ASICs comerciais não têm a flexibilidade e a virtualização necessárias para planos de dados programáveis e multilocatários. Esta tese apresenta o Line-rate In-Network Compute Engine (LINCE) para preencher essa lacuna. O LINCE ...
O aumento de aplicações com uso intensivo de dados e sensíveis à latência exige uma mudança para a computação em rede. No entanto, ainda há uma lacuna significativa: as plataformas acadêmicas existentes baseadas em FPGA não têm desempenho em escala de terabit, enquanto os ASICs comerciais não têm a flexibilidade e a virtualização necessárias para planos de dados programáveis e multilocatários. Esta tese apresenta o Line-rate In-Network Compute Engine (LINCE) para preencher essa lacuna. O LINCE sinergiza o desempenho de alta velocidade de um ASIC para E/S estática e funções de enfileiramento com a reconfigurabilidade dinâmica de um FPGA para hospedar unidades de computação em rede paralelas e isoladas. A plataforma oferece um ecossistema de desenvolvimento versátil, com suporte à linguagem P4 padrão para funções de rede e a um fluxo de trabalho C++/HLS altamente eficiente para aplicações complexas. A arquitetura é caracterizada para atingir uma taxa de transferência virtualizada agregada de 3,2 Tbps, uma ordem de grandeza superior às soluções acadêmicas anteriores. Nosso fluxo de C++/HLS demonstrou reduzir a utilização de recursos em até 99,5% em comparação com as cadeias de ferramentas P4 tradicionais e, ao mesmo tempo, melhorar a latência e a taxa de transferência. A eficácia da plataforma é validada por meio da implantação bem-sucedida de aplicativos distribuídos sofisticados, incluindo inferência de redes neurais artificiais com taxa de linha (atingindo latências abaixo de 1,5 µs) e processamento de fluxo de vídeo em tempo real com reconhecimento de conteúdo (reduzindo a perda crítica de pacotes em 82,5%). ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Collections
-
Exact and Earth Sciences (5355)Computation (1828)
This item is licensed under a Creative Commons License


