Avaliação do uso de modelos de linguagem de larga escala para correção pós-reconhecimento óptico de caracteres em língua portuguesa
View/ Open
Date
2025Author
Advisor
Academic level
Graduation
Title alternative
Evaluating the use of large language models for optical character recognition post-correction in Portuguese
Subject
Abstract in Portuguese (Brasil)
Ao longo da história, os meios impressos foram os principais veículos de informação. Nas últimas décadas, porém, eles vêm sendo gradualmente substituídos pelos meios digitais, que já se consolidaram como uma realidade cotidiana. Optical Character Recognition (OCR) é umatecnologia que permite a digitalização de textos, porém ela produz resultados com ruídos. Neste trabalho, é avaliado o potencial de Modelos de Linguagem de Larga Escala (LLMs) generativas, como o modelo Gemma 3, na correção de te ...
Ao longo da história, os meios impressos foram os principais veículos de informação. Nas últimas décadas, porém, eles vêm sendo gradualmente substituídos pelos meios digitais, que já se consolidaram como uma realidade cotidiana. Optical Character Recognition (OCR) é umatecnologia que permite a digitalização de textos, porém ela produz resultados com ruídos. Neste trabalho, é avaliado o potencial de Modelos de Linguagem de Larga Escala (LLMs) generativas, como o modelo Gemma 3, na correção de textos provenientes de OCRemportuguês brasileiro. Utilizando o dataset ESTER-Pt, é analisada a capacidade de alguns LLMs generativos de usar pistas contextuais para encontrar e corrigir erros causados pelo OCR. Como resultado, este trabalho demonstra que usando LLMs é possível obter uma taxa de erro de caracteres (CER) menor que o estado da arte em português, de 5,12 para 1,69. ...
Abstract
Throughout history, printed media have served as the primary conduit for disseminating information. In recent decades, however, digital media have taken precedence, firmly establishing themselves in everyday life. Optical Character Recognition (OCR) technology facilitates the digitization of text but frequently introduces errors during the process. This study investigates the effectiveness of generative Large Language Models (LLMs), like the model Gemma 3, in correcting OCR outputs in Brazilian ...
Throughout history, printed media have served as the primary conduit for disseminating information. In recent decades, however, digital media have taken precedence, firmly establishing themselves in everyday life. Optical Character Recognition (OCR) technology facilitates the digitization of text but frequently introduces errors during the process. This study investigates the effectiveness of generative Large Language Models (LLMs), like the model Gemma 3, in correcting OCR outputs in Brazilian Portuguese. Using the ESTER Pt dataset, we assess the models’ ability to leverage contextual information to identify and correct OCR-induced errors. The results demonstrate that LLMs can significantly outperform existing methods, achieving an improvement in character error rate (CER) over the current state of the art in Portuguese, reducing it from 5.12 to 1.69. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Collections
This item is licensed under a Creative Commons License


