In-network inference with nEURALP4: auto-generating full-fledged NN models for PDPs
| dc.contributor.advisor | Gaspary, Luciano Paschoal | pt_BR |
| dc.contributor.author | Lessa, João vicente Fatur | pt_BR |
| dc.date.accessioned | 2026-02-11T08:03:34Z | pt_BR |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | http://hdl.handle.net/10183/301198 | pt_BR |
| dc.description.abstract | The emergence of data plane programmability has opened new opportunities for embedding computation directly into the network. A prominent example is the offloading of Neural Network (NN) inference into programmable switches, where results can be produced at line rate and without reliance on external servers. Yet, deploying full-fledged NNs in the data plane remains challenging due to severe constraints on memory, arithmetic precision, and supported operations. As a result, most existing approaches resort to heavy simplifications such as binarization, often sacrificing accuracy and limiting applicability. In this master’s thesis, we introduce NEURALP4, an automated system for generating NN models that execute inference within programmable forwarding devices. NEURALP4 eliminates the need for manual coding by automatically producing all necessary switch code and configuration files, thereby lowering the barrier to deploying in-network inference. Our approach avoids aggressive simplifications by addressing device limitations through a labor-division strategy that distributes NN layers across multiple switches, together with customized algorithms based on numerical conversion and algebraic transformations. These mechanisms enable standard NNs to be mapped efficiently into restricted data plane environments. We implemented a proof-of-concept and evaluated NEURALP4 across five representative use cases. The results show that the system preserves the accuracy of conventional server-based NNs while maintaining a memory footprint compatible with existing hardware constraints. Furthermore, the generated code requires minimal manual intervention, reducing the complexity and error-proneness of deploying in-network inference. This work aligns with recent efforts toward in-network intelligence by bridging highlevel machine learning models with low-level programmable devices. It highlights how programmable switches can serve as platforms for distributed intelligence in applications across many areas. NEURALP4 thus contributes to bridging networking and AI by demonstrating the feasibility of in-network inference for neural network models that go beyond heavily simplified designs. | en |
| dc.description.abstract | A crescente programabilidade do plano de dados abriu novas possibilidades para integrar computação diretamente na rede. Uma direção promissora é a execução de inferência de Redes Neurais Artificiais (RNAs) em switches programáveis, permitindo decisões em linerate e reduzindo a dependência de servidores externos. Contudo, a implantação de RNAs completas nesses dispositivos é desafiadora, devido a restrições severas de memória, precisão aritmética e conjunto limitado de operações. Por isso, trabalhos anteriores recorreram a simplificações drásticas, como binarização ou redução de modelos, o que compromete a acurácia e restringe os cenários de aplicação. Esta dissertação apresenta o NEURALP4, um sistema automatizado que gera modelos de RNAs capazes de executar inferência em dispositivos programáveis de encaminhamento. Diferentemente da codificação manual em linguagens de baixo nível, que é trabalhosa e propensa a erros, o NEURALP4 produz automaticamente o código e os arquivos de configuração necessários para implantar modelos treinados. Para contornar as limitações do hardware sem abrir mão da expressividade das redes, adotamos uma estratégia de divisão de camadas entre múltiplos switches e desenvolvemos algoritmos baseados em conversões numéricas e transformações algébricas. Dessa forma, permitimos mapear operações complexas de RNAs para o ambiente restrito do plano de dados. Implementamos um protótipo funcional e o avaliamos em cinco cenários representativos, incluindo tarefas de classificação e detecção de anomalias. Os resultados mostram que o NEURALP4 preserva a acurácia de RNAs executadas em servidores tradicionais e mantém um consumo de memória compatível com arquiteturas de switches existentes. Além disso, a automação reduz o esforço manual necessário para programar em P4, tornando a abordagem prática e acessível. Assim, o NEURALP4 contribui para a visão de redes mais inteligentes ao aproximar modelos de aprendizado de máquina de alto nível de dispositivos de rede programáveis. O sistema demonstra que a inferência de RNAs completas no plano de dados é viável e pode viabilizar aplicações de tomada de decisão em tempo real, como classificação de tráfego e detecção de anomalias, estabelecendo uma base concreta para a integração entre redes e inteligência artificial. | pt_BR |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language.iso | eng | pt_BR |
| dc.rights | Open Access | en |
| dc.subject | In-network inference | en |
| dc.subject | Plano de Dados Programáveis | pt_BR |
| dc.subject | Computação na rede | pt_BR |
| dc.subject | Traffic classification | en |
| dc.subject | Code generation | en |
| dc.subject | Redes neurais artificiais | pt_BR |
| dc.subject | Inferência em rede | pt_BR |
| dc.title | In-network inference with nEURALP4: auto-generating full-fledged NN models for PDPs | pt_BR |
| dc.title.alternative | Inferência na rede com NEURALP4: geração automática de modelos completos de redes neurais para PDPs | pt |
| dc.type | Dissertação | pt_BR |
| dc.identifier.nrb | 001301091 | pt_BR |
| dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
| dc.degree.department | Instituto de Informática | pt_BR |
| dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
| dc.degree.local | Porto Alegre, BR-RS | pt_BR |
| dc.degree.date | 2025 | pt_BR |
| dc.degree.level | mestrado | pt_BR |
Este item está licenciado na Creative Commons License
-
Ciências Exatas e da Terra (5371)Computação (1832)

