Computação

Computação http://hdl.handle.net/10183/43 2026-06-29T11:56:25Z 2026-06-29T11:56:25Z Graph representation learning for images Avelar, Pedro Henrique da Costa http://hdl.handle.net/10183/307294 2026-06-03T11:03:54Z 2025-01-01T00:00:00Z

Graph representation learning for images Avelar, Pedro Henrique da Costa While a plurality of developments in AI still focus largely on Convolutional Neural Networks and Transformers, there has been frequent calls in the community towards building models with symbolic and relational processing capabilities. In our study we first reframe image classification as graph classification and then we attempt to realign the graph-based image classification back into the main image classification literature through the use of attentional models. To use graph-based attention models for image classification we first use a superpixel algorithm to segment images, which we then use to build a graph whose nodes’ information is based on the superpixel positions and average colours, and whose edges are based on the superpixel adjacencies, forming a Superpixel Image Classification (SIC) instance, to which then Graph Neural Networks can be applied for classification, for which we use a Graph Attention Network (GAT). Our Superpixel Image Classification with Graph Attention Networks (SICGAT) model was tested in several common image-based benchmarks and achieved a higher classification accuracy than the baselines available at the time, even though we restricted our model to have access to less information and, thus, a harder problem. This was done by both reducing the number of superpixels available to the model as well as by using the superpixel adjacencies, which provides less edges per node than previous bechmarks, which both reduces information and constrains information flow within the model. We then propose a novel framework – SuperPixel Transformer (SPT) – which generalises both our SICGAT model and the Vision Transformer (ViT) model, and allows us to keep the full superpixel information while still working with superpixel graphs. Our results show that using superpixel patches in our SPT framework is comparable to using regular square grid patches normally used in ViTs, and that different connectivity patterns than the fully connected one used in the ViT might actually improve results from using squaregrid-based superpixels. We conclude by providing discussion on possible future applications of our work as well as some directions for future improvements, some of which have already been explored in the mainstream ViT literature, but might not have been explored in the SIC literature.; Com uma variedade de desenvolvimentos em IA ainda focando em Redes Neurais Convolucionais e Transformers, existem vozes persistentes na comunidade para que se construam modelos com capacidades relacionais e simbólicas. Neste estudo primeiramente repensamos classificação de imagens como classificação de grafos para então tentarmos realinhar classificação de imagens baseadas em grafos de volta com a literatura de classificação de imagens através do uso de models com atenção. A fim de utilizar modelos com atenção baseados em grafos para classificação de imagens, primeiramente utilizamos um algoritmo de superpixel para segmentar a imagem, que é transformada em um grafo onde a informação de cada nodo contém a média das posições e cores de cada superpixel, e cujas arestas são baseadas na adjacência entre cada par de superpixel, formando uma instância de Superpixel Image Classification (SIC), na qual então uma rede grafo-neural pode ser aplicada para realizar a classificação, dentre as quais escolhemos a rede grafo-atencional – Graph Attention Network (GAT). Nosso modelo Superpixel Image Classification with Graph Attention Networks (SICGAT) foi testado em vários benchmarks de imagens comuns, onde conseguiu uma acurácia de classificação maior que baselines disponíveis na época, a despeito do fato de que restringimos a informação disponível para o nosso modelo e, portanto, resolvemos um problema mais difícil. Isto foi feito tanto reduzindo o número de superpixels disponíveis para o modelo quanto usando as adjacências entre os superpixels para construir o grafo, o que produz menos arestas por nodos que benchmarks anteriores, assim não só reduzindo a informação disponível para o modelo quanto restringindo o fluxo de informação dentro do modelo. Então, propomos uma nova framework – SuperPixel Transformer (SPT) – que generalisa tanto o nosso modelo SICGAT quanto Vision Transformers (ViT), e permite que mantenhamos toda a informação disponível em um superpixel enquanto o modelo ainda usa grafos de superpixels. Nossos resultados mostram que usar fragmentos baseados em superpixel tem performance comparável com quando se utiliza fragmentos quadrados regulares, comummente utilizados nos ViTs. Também mostramos que padrões de conectividade além de fragmentos completament conectados, também comummente utilizados nos ViTs, podem melhorar os resultados quando comparados quando utilizados até com superpixels de fragmentos quadrados regulares.Por fim, concluimos a tese discutindo possíveis usos do nosso trabalho assim como dire- ções para melhorias e trabalhos futuros, algumas das quais já foram exploradas na literatura de ViTs convencionais, mas talvez não foram ainda exploradas na literatura de SIC.

2025-01-01T00:00:00Z Enhancing weakly supervised object detection via long-term self-supervised instance mining Zeni, Luis Felipe de Araujo http://hdl.handle.net/10183/303767 2026-04-24T11:02:31Z 2025-01-01T00:00:00Z

Enhancing weakly supervised object detection via long-term self-supervised instance mining Zeni, Luis Felipe de Araujo Object detection is a fundamental computer vision task that aims to localise and recognise objects within images. However, fully supervised object detection (FSOD) methods re- quire expensive bounding box annotations, which can be time-consuming to compile for large-scale datasets. Weakly Supervised Object Detection (WSOD) presents a promising alternative by utilising only image-level category labels as supervision, thereby signifi- cantly reducing annotation costs. However, it faces two significant challenges: handling multiple instances of the same class within an image and achieving precise bounding box localisation. This dissertation addresses these challenges through three complemen- tary approaches. First, we propose a knowledge distillation methodology combined with an adaptive refinement supervision mechanism that dynamically adjusts IoU selection thresholds and leverages knowledge from trained refiners to mitigate the harmful effects of multiple instances during training. Second, we explore domain-specific applications where instance-counting information is inherently available in weak annotations. Specif- ically, we develop a weakly supervised approach for license plate character detection through an Instance-Aware Self-Supervision (IASS) building process and a Number of Characters Classification (NCC) module that exploits the counting information present in license plate strings. Third, we present a novel self-supervised mechanism for discovering additional instances of the same class during training, employing a Multi-Layer Percep- tron (MLP) projection network optimised with discriminative loss to maintain intra-class consistency while ensuring inter-class separation. The supervision for the MLP is made with high-quality samples from a memory bank that stores high-scoring proposals from previous iterations. We also propose an overlap suppression strategy to eliminate redun- dant detections. Extensive experiments on standard benchmarks (PASCAL VOC 2007, VOC 2012, and MS COCO) demonstrate the effectiveness of our approaches, achieving state-of-the-art performance with first-place rankings on VOC datasets and second-place on COCO. The dissertation contributes to the maturity of weakly supervised object de- tection by providing practical solutions that maintain high accuracy while substantially reducing human supervision requirements, advancing the field toward more cost-effective and scalable object detection systems.; A detecção de objetos é uma tarefa fundamental de visão computacional que visa localizar e reconhecer objetos em imagens. No entanto, métodos de detecção de objetos totalmente supervisionados exigem anotações de bounding boxes, cuja compilação pode ser demorada para conjuntos de dados de grande escala. A Detecção de Objetos Fracamente Supervisionada apresenta uma alternativa promissora ao utilizar apenas rótulos de categoria em nível de imagem como supervisão, reduzindo significativamente os custos de anotação. No entanto, ela enfrenta dois desafios significativos: lidar com múltiplas instâncias da mesma classe em uma imagem e obter uma localização precisa das bounding boxes. Esta tese aborda esses desafios por meio de três abordagens complementares. Primeiro, propomos uma metodologia de destilação de conhecimento combinada com um mecanismo de supervisão de refinamento adaptativo que ajusta dinamicamente os limiares de seleção de IoU e aproveita o conhecimento dos refinadores sendo treinados para mitigar os efeitos nocivos de múltiplas instâncias durante o treinamento. Segundo, exploramos uma aplicação específica de domínio onde a informação de número de instâncias está inerentemente presente nas anotações fracas. Especificamente, desenvolvemos uma abordagem fracamente supervisionada para detecção de caracteres de placas de veículos por meio de um processo de construção de autosupervisão com uso do número de Instâncias e um módulo de Classificação de Número de Caracteres Presentes. Em terceiro lugar, apresentamos um novo mecanismo auto-supervisionado para descobrir instâncias adicionais da mesma classe durante o treinamento, empregando uma rede de projeção Multi-Layer Perceptron (MLP) otimizada com uma loss discriminativa para manter a consistência intraclass e garantindo a separação interclasse. A supervisão para o MLP é feita com amostras de alta qualidade de um banco de memória que armazena propostas de alta pontuação de iterações anteriores. Também propomos uma estratégia de supressão baseada na sobre- posição para eliminar detecções redundantes. Experimentos extensivos em benchmarks padrão (PASCAL VOC 2007, VOC 2012 e MS COCO) demonstram a eficácia de nossas abordagens, alcançando desempenho de ponta com classificações de primeiro lugar em conjuntos de dados VOC e segundo lugar em COCO. A dissertação contribui para a maturidade da detecção de objetos fracamente supervisionados ao fornecer soluções práticas que mantêm alta precisão ao mesmo tempo em que reduzem substancialmente os requisitos de supervisão humana, avançando o campo em direção a sistemas de detecção de objetos mais econômicos e escaláveis.

2025-01-01T00:00:00Z Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures Araújo, Thiago da Silva http://hdl.handle.net/10183/303761 2026-04-24T11:02:24Z 2026-01-01T00:00:00Z

Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures Araújo, Thiago da Silva Efficient and scalable deep learning (DL) is critical for practical and sustainable analysis of medical imaging. This study investigates model selection, optimization, and scalability of convolutional neural networks (CNNs) for diabetic retinopathy (DR) classification on ARM-based systems, focusing on performance, energy consumption, and distributed training efficiency. We evaluated 38 CNN architectures to identify a model that balances predictive accuracy with computational and energy efficiency. MobileNet achieved the best results, consuming 77% less energy, training 83% faster, and producing an 85% smaller model than the InceptionV3 baseline, while improving the AUC by 3%. Hyperparameter optimization showed that using a sigmoid activation function, a 300×300 input resolution, and the SGD optimizer provides the most efficient configuration. Scalability experiments on ARM Grace Superchip architecture demonstrated near-linear performance up to 36 cores per node, with optimal energy efficiency between 18 and 36 cores before memory bandwidth saturation. Distributed training on two Grace Superchips with TensorFlow’s MultiWorkerMirroredStrategy achieved a 1.93× speedup and 96.5% scaling efficiency, halving training time with less than a 1% rise in total energy use while maintaining model accuracy (AUC 0.936). The results show that the Grace architecture sustains efficient, scalable DL workloads with minimal energy overhead, confirming its sustainability for energy-aware and performance-sensitive AI applications in medical imaging.; O aprendizado profundo (DL) eficiente e escalável é essencial para o desenvolvimento de aplicações práticas e sustentáveis em imagem médica. Este estudo investiga a seleção, otimização e escalabilidade de redes neurais convolucionais (CNNs) para a classificação de retinopatia diabética (RD) em sistemas baseados em ARM, com foco em desempenho, consumo de energia e eficiência no treinamento distribuído. Foram avaliadas 38 arquiteturas de CNN para identificar o modelo que melhor equilibrasse acurácia preditiva, custo computacional e eficiência energética. O modelo MobileNet apresentou os melhores resultados, consumindo 77% menos energia, treinando 83% mais rápido e gerando um modelo 85% menor que o InceptionV3 de referência, além de alcançar um AUC 3% superior. A otimização de hiperparâmetros mostrou que o uso da função de ativação sigmoid, da resolução de entrada de 300×300 e do otimizador SGD oferece a configuração mais eficiente. Os experimentos de escalabilidade realizados na arquitetura ARM Grace Superchip demonstraram desempenho quase linear até 36 núcleos por nó, com eficiência energética ideal entre 18 e 36 núcleos, antes da saturação da largura de banda de memória. O treinamento distribuído em duas Grace Superchips, utilizando a estratégia MultiWorkerMirroredStrategy do TensorFlow, obteve um speedup de 1,93× e eficiência de escalonamento de 96,5%, reduzindo o tempo de treinamento pela metade com aumento inferior a 1% no consumo total de energia e mantendo a acurácia do modelo (AUC 0,936). Os resultados indicam que a arquitetura Grace mantém cargas de trabalho de DL eficientes e escaláveis com baixo custo energético, confirmando sua adequação para aplicações de IA sensíveis a desempenho e consumo de energia em imagem médica.

2026-01-01T00:00:00Z Convolutional and attention mechanisms for 3D object classification using panoramas and beyond Stringhini, Rômulo Marconato http://hdl.handle.net/10183/303735 2026-04-24T11:01:46Z 2025-01-01T00:00:00Z

Convolutional and attention mechanisms for 3D object classification using panoramas and beyond Stringhini, Rômulo Marconato Advancements in 3D data acquisition technologies and CAD software have increased the availability of three-dimensional (3D) data, which provides detailed geometric, shape, and scale information with applications in fields like remote sensing, autonomous driving, robotics, and medicine. However, adapting deep learning models for 3D data is challenging due to the complexity of 3D shapes and high computational demands. A common solution is to convert 3D data into 2D images for compatibility with established 2D convolutional neural networks (CNNs). In this Thesis, we convert 3D objects represented as meshes into omnidirectional (spherical) images projected onto a 2D multi-channel plane using equirectangular projection (ERP). However, ERPs introduce non-uniform sampling, with polar regions being more densely sampled than the equator, leading to distortions. Traditional CNNs, originally designed for undistorted perspective images, are not well suited for ERP images. To address this, we propose convolutional modules based on horizontally dilated convolutions (HDCs) with shared weights, adapting the convolutional kernels to the spherical surface and mitigating distortion issues. The first module combines multiple HDCs to produce multi-scale feature maps, while the second one integrates multiple features using row-wise weights to better handle different distortion levels. Additionally, we designed an attention mechanism that incorporates spatial relationships to better guide networks to capture long-range dependencies uniformly across the spherical surface. These modules, integrated into established backbones, are evaluated on 3D object classification and gravity alignment tasks. Compared to the literature, we obtained state-of-the-art results in both applications.; Avanços nas tecnologias de aquisição de dados 3D e em softwares CAD aumentaram a disponibilidade de dados tridimensionais (3D), que fornecem informações detalhadas de geometria, forma e escala, com aplicações em áreas como sensoriamento remoto, direção autônoma, robótica e medicina. No entanto, adaptar modelos de aprendizado profundo para dados 3D é desafiador devido à complexidade das formas 3D e às altas demandas computacionais. Uma solução comum é converter dados 3D em imagens 2D para compatibilidade com redes neurais convolucionais (CNNs) 2D estabelecidas. Nesta Tese, convertemos objetos 3D representados como malhas em imagens omnidirecionais (esféricas) projetadas em um plano multicanal 2D usando projeção equiretangular (ERP). No entanto, ERPs introduzem amostragem não uniforme, com as regiões polares sendo mais densamente amostradas do que o equador, resultando em distorções. CNNs tradicionais, originalmente projetadas para imagens em perspectiva sem distorção, não são adequadas para imagens ERP. Para resolver isso, propomos módulos convolucionais baseados em convoluções dilatadas horizontalmente (HDCs) com pesos compartilhados, adaptando os kernels convolucionais à superfície esférica e mitigando problemas de distorção. O primeiro módulo combina múltiplas HDCs para produzir mapas de características em múltiplas escalas, enquanto o segundo integra múltiplas características usando pesos por linha para lidar melhor com diferentes níveis de distorção. Além disso, criamos um mecanismo de atenção que incorpora relações espaciais para guiar melhor as redes em capturar dependências de longo alcance de forma uniforme sobre a superfície esférica. Esses módulos, integrados em backbones estabelecidos, são avaliados em tarefas de classificação de objetos 3D e alinhamento de gravidade. Comparado com a literatura, obtivemos resultados de estado-da-arte em ambas aplicações.

2025-01-01T00:00:00Z