Probabilistic representation and localization loss function for object detection in 360-degree images
View/ Open
Date
2025Advisor
Co-advisor
Academic level
Master
Type
Title alternative
Representação probabilística e função de perda de localização para detecção de objetos em imagens de 360-graus
Subject
Abstract
This work addresses the challenge of accurate object detection in 360-degree images, where projection-induced distortions and the data topology degrade conventional planar algorithms performance and require specialized handling of Bounding Fields of View (BFoVs). Previous approaches often rely on planar approximations or complex, computationally expensive spherical intersection over union (IoU) calculations, which trade off geometric accuracy or efficiency. We introduce a novel probabilistic re ...
This work addresses the challenge of accurate object detection in 360-degree images, where projection-induced distortions and the data topology degrade conventional planar algorithms performance and require specialized handling of Bounding Fields of View (BFoVs). Previous approaches often rely on planar approximations or complex, computationally expensive spherical intersection over union (IoU) calculations, which trade off geometric accuracy or efficiency. We introduce a novel probabilistic representation using the Kent distribution, a spherical analog of the bivariate normal distribution, to model the location of objects directly on the sphere. Our method transforms BFoV and rotated BFoV annotations into Kent distribution parameters. It employs a new regression loss function incorporating Jeffreys divergence, a symmetric form of Kullback-Leibler Divergence, to quantify probabilistic dissimilarity, alongside Haversine distance and aspect ratio penalties adapted for the spherical geometry. This approach offers a more accurate representation of objects in 360-degree imagery by intrinsically handling spherical geometry, unlike methods limited to planar distributions or approximations. Our method achieves state-of-the-art results, surpassing existing methods without sacrificing computational efficiency at inference time or requiring complex matching heuristics, thereby aligning predictions more closely with the data’s inherent geometry. The source code for our method will be available soon at the project webpage¹. ...
Abstract in Portuguese (Brasil)
Este trabalho aborda o desafio da detecção precisa de objetos em imagens 360-graus, onde distorções induzidas pela projeção e a topologia dos dados degradam o desempenho de algoritmos planares convencionais e exigem um tratamento especializado dos Bounding Fields of View (BFoVs). Abordagens anteriores frequentemente dependem de aproxima- ções planares ou de cálculos complexos e computacionalmente caros de interseção sobre a união (IoU) esféricos, que sacrificam a precisão geométrica ou a eficiê ...
Este trabalho aborda o desafio da detecção precisa de objetos em imagens 360-graus, onde distorções induzidas pela projeção e a topologia dos dados degradam o desempenho de algoritmos planares convencionais e exigem um tratamento especializado dos Bounding Fields of View (BFoVs). Abordagens anteriores frequentemente dependem de aproxima- ções planares ou de cálculos complexos e computacionalmente caros de interseção sobre a união (IoU) esféricos, que sacrificam a precisão geométrica ou a eficiência. Nós introduzimos uma nova representação probabilística utilizando a distribuição de Kent, um análogo esférico da distribuição normal bivariada, para modelar a localização de objetos diretamente na esfera. Nosso método transforma anotações de BFoV e BFoV rotacionado em parâmetros da distribuição de Kent. O método emprega uma nova função de perda de regressão incorporando a divergência de Jeffreys, uma forma simétrica da divergência de Kullback-Leibler, para quantificar a dissimilaridade probabilística, juntamente com penalidades de distância Haversine e de aspect ratio adaptadas para a geometria esférica. Essa abordagem oferece uma representação mais precisa de objetos em imagens 360-graus ao lidar intrinsecamente com a geometria esférica, ao contrário de métodos limitados a distribuições ou aproximações planares. Nosso método alcança resultados de ponta, superando os existentes sem sacrificar a eficiência computacional no tempo de inferência ou exigir heurísticas complexas de correspondência, alinhando assim as previsões de forma mais próxima à geometria inerente dos dados. O código-fonte do nosso método estará disponível em breve na página do projeto. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Collections
-
Exact and Earth Sciences (5355)Computation (1828)
This item is licensed under a Creative Commons License


