Dense 3D indoor scene reconstruction from spherical images
View/ Open
Date
2019Advisor
Academic level
Doctorate
Type
Title alternative
Reconstrução 3D densa de cenas internas através de imagens esféricas
Subject
Abstract
Image-based three-dimensional (3D) scene reconstruction approaches have been widely studied by the scientific community, with applications in archaeological and architectural modeling, infrastructure inspection, robot navigation, and autonomous driving systems, just to name a few. The vast majority of existing approaches deal with traditional pinhole cameras, which present a narrow field of view (FoV) and hence require several captures to model larger scenes. On the other hand, omnidirectional ...
Image-based three-dimensional (3D) scene reconstruction approaches have been widely studied by the scientific community, with applications in archaeological and architectural modeling, infrastructure inspection, robot navigation, and autonomous driving systems, just to name a few. The vast majority of existing approaches deal with traditional pinhole cameras, which present a narrow field of view (FoV) and hence require several captures to model larger scenes. On the other hand, omnidirectional cameras present full 360 de- grees FoV and have become popular in the past years with the release of consumer-grade devices. In this Dissertation, we address the problem of 3D indoor scene reconstruc- tion based on multiple uncalibrated and unordered spherical images. In the initial part of this work, we show that the gold standard method for solving the relative five degrees of freedom (5-DoF) camera pose in the classic two-view problem, namely the eight-point algorithm (8-PA), is capable of producing more accurate estimates when using wide FoV image pairs compared to typical perspective/pinhole-based cameras. These results guide our main pipeline, allowing us to skip traditional but expensive approaches for non-linear refinement of both camera poses and depth estimates from two or more spherical input images. More precisely, our method uses sparse keypoint matching for initially derotat- ing supporting images with respect to a preset reference image. Then, we use a large displacement optical flow algorithm for obtaining dense correspondences between the reference image and the others, and use them to estimate a confidence map that guides the depth estimation process. The proposed multi-view methodology generates a dense depth map fully registered to the reference color image, which allows us to enhance the estimated 3D structure by using image-guided filtering approaches. This representation also allows us to explore depth-image-based rendering techniques for generating novel views of the scene, with applications in 3-DoF+ navigation for augmented/mixed/virtual reality. We further investigate how to improve the recovered 3D geometry of the scenes by aggregating information in perceptually meaningful regions of the reference image. For this purpose, we adapt a superpixel algorithm to the spherical domain and use its out- put for guiding a spatially-constrained version of our calibrated reconstruction method. We also propose to use the segmented regions to select good scattered correspondences from the dense set of matchings for estimating the 6-DoF camera poses of the supporting images, going in the same direction as in the 8-PA analysis. As an additional contribution, we introduce a framework for inferring depth from a single spherical image, which can be coupled to any existing and future monocular depth estimation algorithm suited for perspective images. We validate our approaches using both synthetic data and computer- generated imagery for which we have access to ground truth for pose and depth, showing competitive results concerning state-of-the-art methods. ...
Abstract in Portuguese (Brasil)
Abordagens para reconstrução tridimensional (3D) de cenas baseadas em imagens têm sido amplamente estudadas pela comunidade científica, tendo aplicações em modelagem arqueológica e arquitetural, inspeção de infraestruturas, navegação de robôs e sistemas de nagevação autônomos, apenas para citar algumas. A vasta maioria das abordagens existentes lidam com as tradicionais câmeras pinhole, que apresentam um estreito campo de visão (FoV) e portanto requerem diversas capturas para modelar grandes ce ...
Abordagens para reconstrução tridimensional (3D) de cenas baseadas em imagens têm sido amplamente estudadas pela comunidade científica, tendo aplicações em modelagem arqueológica e arquitetural, inspeção de infraestruturas, navegação de robôs e sistemas de nagevação autônomos, apenas para citar algumas. A vasta maioria das abordagens existentes lidam com as tradicionais câmeras pinhole, que apresentam um estreito campo de visão (FoV) e portanto requerem diversas capturas para modelar grandes cenas. Por outro lado, câmeras omnidirecionais apresentam um FoV de 360 graus, e têm se tornado populares em dispositivos de consumo nos últimos anos. Nesta Tese, nós abordamos o problema de reconstrução 3D de cenas internas baseada em múltiplas imagens esféricas não calibradas e não ordenadas. Na parte inicial deste trabalho, nós mostramos que o algoritmo padrão para resolver o problema dos cinco graus de liberdade (5-DoF) da pose relativa entre câmeras na configuração clássica de duas vistas, a saber o eight-point al- gorithm (8-PA), é capaz de produzir estimativas mais acuradas quando usando pares de imagens com amplo FoV se comparadas com as típicas câmeras pinhole/perspectiva. Esses resultados guiam nossa linha de trabalho principal, permitindo-nos evitar clássicas mas custosas abordagens para refinamento não-linear de ambas as estimativas de pose e profundidade a partir de duas ou mais imagens de entrada. Mais precisamente, nosso método usa casamento esparso de pontos-chave para inicialmente desrotacionar as imagens de suporte em relação a uma imagem de referência previamente selecionada.Então, nós usamos um algoritmo de fluxo ótico com suporte a grandes deslocamentos para obter um conjunto denso de correspondências entre a imagem de referência e as outras, e usamos esse conjunto para estimar um mapa de confiança que guia o processo de estimativa de profundidade. A metodologia proposta baseada em múltiplas vistas gera um mapa de profundidade denso completamente registrado à imagem colorida de referência, o que permite a aplicação de métodos para melhoramento da estrutura 3D estimada usando téc- nicas de filtragem guiadas por imagem. Essa representação também permite explorar téc- nicas de renderização baseada em imagens de cor e profundidade para gerar novas vistas da cena, tendo aplicações em navegação 3-DoF+ para realidade aumentada/mista/virtual. Nós ainda investigamos como melhorar a recuperação da geometria 3D de cenas através da agregação de informações em regiões perceptualmente coerentes da imagem de referência. Para esse propósito, nós adaptamos um algoritmo de extração de superpixels para o domínio esférico e usamos seu resultado para guiar uma versão com restrição espacial de nosso método de reconstrução calibrada. ptNós também propomos usar as regiões de supersegmentação para selecionar boas e bem distribuídas correspondências do conjunto denso de casamentos de pontos para estimar a pose 6-DoF das câmeras de suporte, indo na mesma direção da análise com o 8-PA. Como uma contribuição adicional, nós intro- duzimos um arcabouço para inferir profundidade a partir de uma única imagem esférica, que pode ser acoplado a qualquer algoritmo, existente ou futuro, para inferência de pro- fundidade de imagens pinhole. Nós validamos nossas abordagens usando ambos dados sintéticos e imagens geradas por computador para os quais é possível ter acesso aos parâ- metros reais para pose e profundidade, mostrando resultados competitivos se comparados a métodos no estado da arte. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Collections
-
Exact and Earth Sciences (5121)Computation (1763)
This item is licensed under a Creative Commons License