Fast contextual text recognition with deep convolutional neural networks

Silva, Sérgio Montazzolli

dc.contributor.advisor	Jung, Claudio Rosito	pt_BR
dc.contributor.author	Silva, Sérgio Montazzolli	pt_BR
dc.date.accessioned	2019-11-02T03:52:15Z	pt_BR
dc.date.issued	2019	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/201299	pt_BR
dc.description.abstract	In this work we explore Deep Learning techniques to effectively recognize text in images given some context, which we call Contextualized Text Recognition (CTR). CTR arises in many applications, such as Automatic License Plate Recognition (ALPR) and Racing Bib1 Number Recognition (RBN-R). With the rise of Deep Learning, the results in many computer vision tasks were improved in the past years. Its astonishing recognition capacity allowed the enhancement of existing applications and also the emerging of new challenging ones, such as speech recognition, self-driving cars, black and white image colorization, to name a few. However, this analysis power comes with a price: deep networks typically present a large number of parameters, meaning that a considerable amount of data is needed in order to train such models. To overcome these difficulties in CTR-related tasks where usually there is not much data available, we propose in the first part of this work clever uses of data augmentation, synthetic images and adaptations over the fastest models found in the literature. The results achieved are shown in the context of ALPR, where we demonstrate an approach capable of processing images at around 70 FPS and still achieving state-of-the-art performance. Going further, we noticed that there is a lack of unified datasets in ALPR encompassing license plates from different regions and scenarios. Also, there is no dataset exploring multi-regions and challenging scenarios where the plates are oblique and highly distorted. In the second part of this dissertation, we propose a dataset containing challenging ALPR images, and developed a novel Convolutional Neural Network (CNN) that regresses affine parameters responsible for rectifying license plates, allowing text recognition with high accuracy rates when compared to state-of-the-art methods. Finally, in the last part, we tackled the problem of RBN-R. A novel network was proposed to perform many tasks at once without the need for complex annotations. The network localizes the bib plate, corrects its distortion, and recognize its digits. For the whole approach, the only annotation required is the bib bounding box and the identification number. We obtained state-of-the-art results in the most popular dataset related to this problem.	en
dc.description.abstract	Neste trabalho são exploradas técnicas de Aprendizagem Profunda aplicadas ao reconhecimento de texto em imagens dado um certo contexto, problema aqui chamado de Reconhecimento de Texto Contextualizado (RTC). Como exemplos de aplicações, podemos citar o Reconhecimento Automático de Placas Veiculares (RAPV) e a Identificação de Atletas por Numeração (IAN). Recentemente, muitas tarefas relacionadas à Visão Computacional tiveram seus resultados aprimorados devido ao surgimento de técnicas de Aprendizagem Profunda. A grande capacidade de reconhecimento destas técnicas permitiu o avanço e surgimento de aplicações como Reconhecimento de Fala, Veículos Autônomos, Colorização de Fotos Monocromáticas, entre outras. No entanto, esse poder de análise traz um custo: redes profundas tipicamente apresentam um grande número de parâmetros, necessitando assim de um grande volume de dados durante o treinamento. Para superar este problema em tarefas onde não existem muitos dados disponíveis, na primeira parte deste trabalho, nós propomos o uso cuidadoso de dados aumentados e a adaptação de modelos rápidos encontrados na literatura. Os resultados obtidos são mostrados no contexto de RAPC, onde demonstramos a capacidade da nossa abordagem de obter resultados no estado-da-arte a uma frequência de 70 imagens por segundo. Indo além, nós percebemos que as bases de dados atuais em RAPC não exploram situações desafiadoras, contendo veículos em ângulos oblíquos, placas distorcidas e com a padronização de múltiplos países ou regiões. Então, como uma segunda parte deste trabalho, nós propomos a criação de uma base de dados contendo todas estas situações juntas, e apresentamos uma nova Rede Neural Convolucional para detectas placas ao mesmo tempo em que regride parâmetros para uma transformação afim de correção da distorção. Esse processo retifica a placa, auxiliando o reconhecimento dos caracteres e permitindo a obtenção de resultados estado-da-arte em várias bases de dados. Finalmente, na última parte, tratamos o problema de IAN. Propomos uma nova rede neural para executar várias tarefas de uma vez, sem necessitar de dados com anotações complexas. Basicamente a rede localiza a placa de identificação, corrige sua distorção, e reconhece todos os dígitos. De modo geral, nossa abordagem necessita apenas de duas informações para o treinamento: região da placa e seu número. Foram obtidos resultados no estado-da-arte durante avaliação na principal base de dados relacionada ao problema.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Redes neurais	pt_BR
dc.subject	Deep Learning	en
dc.subject	Visão computacional	pt_BR
dc.subject	Text Recognition	en
dc.subject	License Plate	en
dc.title	Fast contextual text recognition with deep convolutional neural networks	pt_BR
dc.title.alternative	Reconhecimento rápido de texto contextualizado utilizando redes neurais convolutivas profundas	pt
dc.type	Tese	pt_BR
dc.identifier.nrb	001105149	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2019	pt_BR
dc.degree.level	doutorado	pt_BR

Nome:: 001105149.pdf
Tamanho:: 34.43Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5101)

Computação (1756)

Mostrar registro simples