Novo método iterativo de localização da câmera baseado no conceito de resection-intersection

Alves, Thiago Waszak

View/Open

Texto completo (11.09Mb)

Date

2021

Author

Alves, Thiago Waszak

Advisor

Susin, Altamiro Amadeu

Academic level

Doctorate

Abstract in Portuguese (Brasil)

A Odometria Visual é o processo de estimar o movimento de um ente a partir de duas ou mais imagens fornecidas por uma ou mais câmeras. É uma técnica de grande importância na visão computacional, com aplicações em diversas áreas tais como assistência ao motorista e navegação de veículos autônomos, sistemas de realidade aumentada, veículos autônomos não-tripulados (VANTs) e até mesmo na exploração interplanetária. Os mé- todos mais comuns de Odometria Visual utilizam câmeras com visão estéreo, através das quais é possível calcular diretamente as informações de profundidade de detalhes de uma cena, o que permite estimar as posições sucessivas das câmeras. A Odometria Visual Monocular estima o deslocamento de um objeto com base nas imagens fornecidas por uma única câmera, o que oferece vantagens construtivas e operacionais embora exija processamento mais complexo. Os sistemas de Odometria Visual Monocular do tipo esparsos estimam a pose da câmera a partir de singularidades detectadas nas imagens, o que reduz significativamente o poder de processamento necessário, sendo assim ideal para aplicações de tempo real. Nessa óptica, este trabalho apresenta um novo sistema de Odometria Visual Monocular esparsa para tempo real, validado em veículo instrumentado. O novo sistema é baseado no conceito de Resection-Intersection, combinado com um novo teste de convergência, e um método de refinamento iterativo para minimizar os erros de reproje- ção. O sistema foi projetado para ser capaz de utilizar diferentes algoritmos de otimização não linear, tais como Gauss-Newton, Levenberg-Marquardt, Davidon-Fletcher-Powell ou Broyden–Fletcher–Goldfarb–Shannon. Utilizando o benchmark KITTI, o sistema proposto obteve um erro de translação em relação à distância média percorrida de 0, 86% e erro médio de rotação em relação à distância média percorrida de 0.0024◦/m. O sistema foi desenvolvido em Python em uma única thread, foi embarcado em uma placa Raspberry Pi 4B e obteve um tempo médio de processamento de 775ms por imagem para os onze primeiros cenários do benchmark. O desempenho obtido neste trabalho supera os resultados de outros sistemas de Odometria Visual Monocular baseados no conceito de ResectionIntersection até o momento submetidos na classificação do benchmark KITTI. ...

Abstract

Visual Odometry is the process of estimating the movement of an entity from two or more images provided by one or more cameras. It is a technique ofmain concern in computer vision, with applications in several areas such as driver assistance and autonomous vehicle navigation, augmented reality systems, Unmanned Aerial Vehicle (UAV) and even in interplanetary exploration. Most common methods of Visual Odometry use stereo cameras, through which it is possible to directly calculate the depth information of details of a scene, which allows to estimate the successive positions of the cameras. Monocular Visual Odometry estimates the displacement of an object based on images provided by a single camera, which offers constructive and operational advantages although it requires more complex processing. Sparse-type Monocular Visual Odometry systems estimate the camera pose from singularities detected in the images, which significantly reduces the processing power required, thus making it ideal for real-time applications. In this perspective, this work presents a new Sparse Monocular visual Odometry system for real-time, validated on a instrumented vehicle. The new system is based on the Resection-Intersection concept, combined with an expanded convergence test, and an iterative refinement method to minimize reprojection errors. It was designed to be able to use different non-linear optimization algorithms, such as Gauss-Newton, Levenberg-Marquardt, Davidon-FletcherPowell or Broyden–Fletcher–Goldfarb–Shannon. Using the benchmark KITTI, the proposed system obtained a translation error in relation to the average distance traveled of 0.86% and an average rotation error in relation to the average distance covered of 0.0024◦/m. The system was developed in Python on a single thread, was embedded on a Raspberry Pi 4B board and an average processing time of 775ms per image for the first eleven scenarios of the benchmark. The results obtained in this work surpass the results obtained by other visual odometry systems based on the concept of Resection-Intersection so far submitted to the KITTI benchmark ranking. ...

Institution

Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Programa de Pós-Graduação em Engenharia Elétrica.

Collections

Engineering (7412)

Electrical Engineering (461)

Other options

Show all item metadata

Statistics

This item is licensed under a Creative Commons License