Show simple item record

dc.contributor.advisorBalreira, Dennis Giovanipt_BR
dc.contributor.authorRhoden, Eduardo Bragapt_BR
dc.date.accessioned2025-02-25T06:22:11Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/287628pt_BR
dc.description.abstractNamed Entity Recognition (NER) is an essential task in Natural Language Processing (NLP) that focuses on detecting and categorizing named entities within text. Supervised NER models typically rely on large amounts of labeled data, which can be both costly and time-intensive to obtain. Active sampling, a technique that selects the most informative instances for labeling, has demonstrated its ability to lower labeling costs by prioritizing the most valuable data. This study examines various sampling strategies based on the BM25 (Best Match 25) algorithm within a self-training framework to fine-tune a BERT model for NER. These strategies involve selecting the most relevant sentences from an unlabeled corpus, where, for each category in the labeled dataset, the terms from all associated sentences serve as the BM25 query. The strategies vary in how they incorporate the distribution of categories within the labeled dataset. Using a Brazilian Portuguese NER dataset from the legislative domain, we assess the effectiveness of these strategies by comparing their performance against a random-based query baseline and by experimenting with different sampling fetch sizes. Although the novel sampling strategies perform on par with the baseline, they provide significant insights into the role of BM25 as a sampling method in a self-training context. These findings emphasize key challenges and identify potential directions for future research, particularly regarding the quantity and diversity of samples chosen during training iterations.en
dc.description.abstractO Reconhecimento de Entidades Nomeadas (Reconhecimento de Entidades Nomeadas - REN) é uma tarefa essencial em Processamento de Linguagem Natural (PLN), que consiste em detectar e categorizar entidades nomeadas em textos. Modelos de NER supervisionados geralmente dependem de grandes quantidades de dados rotulados, cuja obtenção pode ser tanto custosa quanto demorada. A amostragem ativa, uma técnica que seleciona as instâncias mais informativas para rotulação, tem demonstrado sua capacidade de reduzir os custos de rotulação ao priorizar os dados mais valiosos. Este estudo analisa várias estratégias de amostragem baseadas no algoritmo BM25 (Best Match 25) em uma estrutura de auto-treinamento para fazer o fine tuning de um modelo BERT para NER. Essas estratégias envolvem a seleção das sentenças mais relevantes de um corpus nãorotulado, onde, para cada categoria do conjunto de dados rotulados, os termos de todas as sentenças associadas servem como consulta no BM25. As estratégias propostas diferem na forma como consideram a distribuição das categorias no conjunto de dados rotulados. Utilizando um conjunto de dados de REN em português brasileiro do domínio legislativo, avaliamos a eficácia dessas estratégias comparando seu desempenho com uma estratégia de amostragem aleatória e variando diferentes tamanhos de amostragem. Embora as novas estratégias de amostragem tenham desempenho similar à amostragem aleatória, elas fornecem entendimentos significativos sobre o papel do BM25 como método de amostragem em um contexto de auto-treinamento. Esses resultados destacam desafios importantes e identificam possíveis direções para futuras pesquisas, especialmente no que diz respeito à quantidade e diversidade das amostras escolhidas durante as iterações de treinamento.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectReconhecimento de entidade nomeadapt_BR
dc.subjectNERen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectActive samplingen
dc.subjectModelos de Linguagempt_BR
dc.subjectSelf-trainingen
dc.titleExploring active sampling strategies for self-training in named entity recognitionpt_BR
dc.title.alternativeExplorando estratégias de amostragem ativa para auto-treinamento no reconhecimento de entidades nomeadas pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coNunes, Rafael Olequespt_BR
dc.identifier.nrb001241293pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record