In-network inference with nEURALP4: auto-generating full-fledged NN models for PDPs

Lessa, João vicente Fatur

dc.contributor.advisor	Gaspary, Luciano Paschoal	pt_BR
dc.contributor.author	Lessa, João vicente Fatur	pt_BR
dc.date.accessioned	2026-02-11T08:03:34Z	pt_BR
dc.date.issued	2025	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/301198	pt_BR
dc.description.abstract	The emergence of data plane programmability has opened new opportunities for embedding computation directly into the network. A prominent example is the offloading of Neural Network (NN) inference into programmable switches, where results can be produced at line rate and without reliance on external servers. Yet, deploying full-fledged NNs in the data plane remains challenging due to severe constraints on memory, arithmetic precision, and supported operations. As a result, most existing approaches resort to heavy simplifications such as binarization, often sacrificing accuracy and limiting applicability. In this master’s thesis, we introduce NEURALP4, an automated system for generating NN models that execute inference within programmable forwarding devices. NEURALP4 eliminates the need for manual coding by automatically producing all necessary switch code and configuration files, thereby lowering the barrier to deploying in-network inference. Our approach avoids aggressive simplifications by addressing device limitations through a labor-division strategy that distributes NN layers across multiple switches, together with customized algorithms based on numerical conversion and algebraic transformations. These mechanisms enable standard NNs to be mapped efficiently into restricted data plane environments. We implemented a proof-of-concept and evaluated NEURALP4 across five representative use cases. The results show that the system preserves the accuracy of conventional server-based NNs while maintaining a memory footprint compatible with existing hardware constraints. Furthermore, the generated code requires minimal manual intervention, reducing the complexity and error-proneness of deploying in-network inference. This work aligns with recent efforts toward in-network intelligence by bridging highlevel machine learning models with low-level programmable devices. It highlights how programmable switches can serve as platforms for distributed intelligence in applications across many areas. NEURALP4 thus contributes to bridging networking and AI by demonstrating the feasibility of in-network inference for neural network models that go beyond heavily simplified designs.	en
dc.description.abstract	A crescente programabilidade do plano de dados abriu novas possibilidades para integrar computação diretamente na rede. Uma direção promissora é a execução de inferência de Redes Neurais Artificiais (RNAs) em switches programáveis, permitindo decisões em linerate e reduzindo a dependência de servidores externos. Contudo, a implantação de RNAs completas nesses dispositivos é desafiadora, devido a restrições severas de memória, precisão aritmética e conjunto limitado de operações. Por isso, trabalhos anteriores recorreram a simplificações drásticas, como binarização ou redução de modelos, o que compromete a acurácia e restringe os cenários de aplicação. Esta dissertação apresenta o NEURALP4, um sistema automatizado que gera modelos de RNAs capazes de executar inferência em dispositivos programáveis de encaminhamento. Diferentemente da codificação manual em linguagens de baixo nível, que é trabalhosa e propensa a erros, o NEURALP4 produz automaticamente o código e os arquivos de configuração necessários para implantar modelos treinados. Para contornar as limitações do hardware sem abrir mão da expressividade das redes, adotamos uma estratégia de divisão de camadas entre múltiplos switches e desenvolvemos algoritmos baseados em conversões numéricas e transformações algébricas. Dessa forma, permitimos mapear operações complexas de RNAs para o ambiente restrito do plano de dados. Implementamos um protótipo funcional e o avaliamos em cinco cenários representativos, incluindo tarefas de classificação e detecção de anomalias. Os resultados mostram que o NEURALP4 preserva a acurácia de RNAs executadas em servidores tradicionais e mantém um consumo de memória compatível com arquiteturas de switches existentes. Além disso, a automação reduz o esforço manual necessário para programar em P4, tornando a abordagem prática e acessível. Assim, o NEURALP4 contribui para a visão de redes mais inteligentes ao aproximar modelos de aprendizado de máquina de alto nível de dispositivos de rede programáveis. O sistema demonstra que a inferência de RNAs completas no plano de dados é viável e pode viabilizar aplicações de tomada de decisão em tempo real, como classificação de tráfego e detecção de anomalias, estabelecendo uma base concreta para a integração entre redes e inteligência artificial.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	In-network inference	en
dc.subject	Plano de Dados Programáveis	pt_BR
dc.subject	Computação na rede	pt_BR
dc.subject	Traffic classification	en
dc.subject	Code generation	en
dc.subject	Redes neurais artificiais	pt_BR
dc.subject	Inferência em rede	pt_BR
dc.title	In-network inference with nEURALP4: auto-generating full-fledged NN models for PDPs	pt_BR
dc.title.alternative	Inferência na rede com NEURALP4: geração automática de modelos completos de redes neurais para PDPs	pt
dc.type	Dissertação	pt_BR
dc.identifier.nrb	001301091	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2025	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 001301091.pdf
Tamanho:: 1.455Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5371)

Computação (1832)

Mostrar registro simples