Show simple item record

dc.contributor.advisorJung, Claudio Rositopt_BR
dc.contributor.authorSilva, Sérgio Montazzollipt_BR
dc.date.accessioned2019-11-02T03:52:15Zpt_BR
dc.date.issued2019pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/201299pt_BR
dc.description.abstractIn this work we explore Deep Learning techniques to effectively recognize text in images given some context, which we call Contextualized Text Recognition (CTR). CTR arises in many applications, such as Automatic License Plate Recognition (ALPR) and Racing Bib1 Number Recognition (RBN-R). With the rise of Deep Learning, the results in many computer vision tasks were improved in the past years. Its astonishing recognition capacity allowed the enhancement of existing applications and also the emerging of new challenging ones, such as speech recognition, self-driving cars, black and white image colorization, to name a few. However, this analysis power comes with a price: deep networks typically present a large number of parameters, meaning that a considerable amount of data is needed in order to train such models. To overcome these difficulties in CTR-related tasks where usually there is not much data available, we propose in the first part of this work clever uses of data augmentation, synthetic images and adaptations over the fastest models found in the literature. The results achieved are shown in the context of ALPR, where we demonstrate an approach capable of processing images at around 70 FPS and still achieving state-of-the-art performance. Going further, we noticed that there is a lack of unified datasets in ALPR encompassing license plates from different regions and scenarios. Also, there is no dataset exploring multi-regions and challenging scenarios where the plates are oblique and highly distorted. In the second part of this dissertation, we propose a dataset containing challenging ALPR images, and developed a novel Convolutional Neural Network (CNN) that regresses affine parameters responsible for rectifying license plates, allowing text recognition with high accuracy rates when compared to state-of-the-art methods. Finally, in the last part, we tackled the problem of RBN-R. A novel network was proposed to perform many tasks at once without the need for complex annotations. The network localizes the bib plate, corrects its distortion, and recognize its digits. For the whole approach, the only annotation required is the bib bounding box and the identification number. We obtained state-of-the-art results in the most popular dataset related to this problem.en
dc.description.abstractNeste trabalho são exploradas técnicas de Aprendizagem Profunda aplicadas ao reconhecimento de texto em imagens dado um certo contexto, problema aqui chamado de Reconhecimento de Texto Contextualizado (RTC). Como exemplos de aplicações, podemos citar o Reconhecimento Automático de Placas Veiculares (RAPV) e a Identificação de Atletas por Numeração (IAN). Recentemente, muitas tarefas relacionadas à Visão Computacional tiveram seus resultados aprimorados devido ao surgimento de técnicas de Aprendizagem Profunda. A grande capacidade de reconhecimento destas técnicas permitiu o avanço e surgimento de aplicações como Reconhecimento de Fala, Veículos Autônomos, Colorização de Fotos Monocromáticas, entre outras. No entanto, esse poder de análise traz um custo: redes profundas tipicamente apresentam um grande número de parâmetros, necessitando assim de um grande volume de dados durante o treinamento. Para superar este problema em tarefas onde não existem muitos dados disponíveis, na primeira parte deste trabalho, nós propomos o uso cuidadoso de dados aumentados e a adaptação de modelos rápidos encontrados na literatura. Os resultados obtidos são mostrados no contexto de RAPC, onde demonstramos a capacidade da nossa abordagem de obter resultados no estado-da-arte a uma frequência de 70 imagens por segundo. Indo além, nós percebemos que as bases de dados atuais em RAPC não exploram situações desafiadoras, contendo veículos em ângulos oblíquos, placas distorcidas e com a padronização de múltiplos países ou regiões. Então, como uma segunda parte deste trabalho, nós propomos a criação de uma base de dados contendo todas estas situações juntas, e apresentamos uma nova Rede Neural Convolucional para detectas placas ao mesmo tempo em que regride parâmetros para uma transformação afim de correção da distorção. Esse processo retifica a placa, auxiliando o reconhecimento dos caracteres e permitindo a obtenção de resultados estado-da-arte em várias bases de dados. Finalmente, na última parte, tratamos o problema de IAN. Propomos uma nova rede neural para executar várias tarefas de uma vez, sem necessitar de dados com anotações complexas. Basicamente a rede localiza a placa de identificação, corrige sua distorção, e reconhece todos os dígitos. De modo geral, nossa abordagem necessita apenas de duas informações para o treinamento: região da placa e seu número. Foram obtidos resultados no estado-da-arte durante avaliação na principal base de dados relacionada ao problema.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectRedes neuraispt_BR
dc.subjectDeep Learningen
dc.subjectVisão computacionalpt_BR
dc.subjectText Recognitionen
dc.subjectLicense Plateen
dc.titleFast contextual text recognition with deep convolutional neural networkspt_BR
dc.title.alternativeReconhecimento rápido de texto contextualizado utilizando redes neurais convolutivas profundas pt
dc.typeTesept_BR
dc.identifier.nrb001105149pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2019pt_BR
dc.degree.leveldoutoradopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record