Convolutional and attention mechanisms for 3D object classification using panoramas and beyond

Advancements in 3D data acquisition technologies and CAD software have increased the availability of three-dimensional (3D) data, which provides detailed geometric, shape, and scale information with applications in fields like remote sensing, autonomous driving, robotics, and medicine. However, adapting deep learning models for 3D data is challenging due to the complexity of 3D shapes and high computational demands. A common solution is to convert 3D data into 2D images for compatibility with established 2D convolutional neural networks (CNNs). In this Thesis, we convert 3D objects represented as meshes into omnidirectional (spherical) images projected onto a 2D multi-channel plane using equirectangular projection (ERP). However, ERPs introduce non-uniform sampling, with polar regions being more densely sampled than the equator, leading to distortions. Traditional CNNs, originally designed for undistorted perspective images, are not well suited for ERP images. To address this, we propose convolutional modules based on horizontally dilated convolutions (HDCs) with shared weights, adapting the convolutional kernels to the spherical surface and mitigating distortion issues. The first module combines multiple HDCs to produce multi-scale feature maps, while the second one integrates multiple features using row-wise weights to better handle different distortion levels. Additionally, we designed an attention mechanism that incorporates spatial relationships to better guide networks to capture long-range dependencies uniformly across the spherical surface. These modules, integrated into established backbones, are evaluated on 3D object classification and gravity alignment tasks. Compared to the literature, we obtained state-of-the-art results in both applications. ...

Resumo

Avanços nas tecnologias de aquisição de dados 3D e em softwares CAD aumentaram a disponibilidade de dados tridimensionais (3D), que fornecem informações detalhadas de geometria, forma e escala, com aplicações em áreas como sensoriamento remoto, direção autônoma, robótica e medicina. No entanto, adaptar modelos de aprendizado profundo para dados 3D é desafiador devido à complexidade das formas 3D e às altas demandas computacionais. Uma solução comum é converter dados 3D em imagens 2D para compatibilidade com redes neurais convolucionais (CNNs) 2D estabelecidas. Nesta Tese, convertemos objetos 3D representados como malhas em imagens omnidirecionais (esféricas) projetadas em um plano multicanal 2D usando projeção equiretangular (ERP). No entanto, ERPs introduzem amostragem não uniforme, com as regiões polares sendo mais densamente amostradas do que o equador, resultando em distorções. CNNs tradicionais, originalmente projetadas para imagens em perspectiva sem distorção, não são adequadas para imagens ERP. Para resolver isso, propomos módulos convolucionais baseados em convoluções dilatadas horizontalmente (HDCs) com pesos compartilhados, adaptando os kernels convolucionais à superfície esférica e mitigando problemas de distorção. O primeiro módulo combina múltiplas HDCs para produzir mapas de características em múltiplas escalas, enquanto o segundo integra múltiplas características usando pesos por linha para lidar melhor com diferentes níveis de distorção. Além disso, criamos um mecanismo de atenção que incorpora relações espaciais para guiar melhor as redes em capturar dependências de longo alcance de forma uniforme sobre a superfície esférica. Esses módulos, integrados em backbones estabelecidos, são avaliados em tarefas de classificação de objetos 3D e alinhamento de gravidade. Comparado com a literatura, obtivemos resultados de estado-da-arte em ambas aplicações. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.

Coleções

Ciências Exatas e da Terra (5411)

Computação (1842)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License