Exploring active sampling strategies for self-training in named entity recognition

Rhoden, Eduardo Braga

dc.contributor.advisor	Balreira, Dennis Giovani	pt_BR
dc.contributor.author	Rhoden, Eduardo Braga	pt_BR
dc.date.accessioned	2025-02-25T06:22:11Z	pt_BR
dc.date.issued	2025	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/287628	pt_BR
dc.description.abstract	Named Entity Recognition (NER) is an essential task in Natural Language Processing (NLP) that focuses on detecting and categorizing named entities within text. Supervised NER models typically rely on large amounts of labeled data, which can be both costly and time-intensive to obtain. Active sampling, a technique that selects the most informative instances for labeling, has demonstrated its ability to lower labeling costs by prioritizing the most valuable data. This study examines various sampling strategies based on the BM25 (Best Match 25) algorithm within a self-training framework to fine-tune a BERT model for NER. These strategies involve selecting the most relevant sentences from an unlabeled corpus, where, for each category in the labeled dataset, the terms from all associated sentences serve as the BM25 query. The strategies vary in how they incorporate the distribution of categories within the labeled dataset. Using a Brazilian Portuguese NER dataset from the legislative domain, we assess the effectiveness of these strategies by comparing their performance against a random-based query baseline and by experimenting with different sampling fetch sizes. Although the novel sampling strategies perform on par with the baseline, they provide significant insights into the role of BM25 as a sampling method in a self-training context. These findings emphasize key challenges and identify potential directions for future research, particularly regarding the quantity and diversity of samples chosen during training iterations.	en
dc.description.abstract	O Reconhecimento de Entidades Nomeadas (Reconhecimento de Entidades Nomeadas - REN) é uma tarefa essencial em Processamento de Linguagem Natural (PLN), que consiste em detectar e categorizar entidades nomeadas em textos. Modelos de NER supervisionados geralmente dependem de grandes quantidades de dados rotulados, cuja obtenção pode ser tanto custosa quanto demorada. A amostragem ativa, uma técnica que seleciona as instâncias mais informativas para rotulação, tem demonstrado sua capacidade de reduzir os custos de rotulação ao priorizar os dados mais valiosos. Este estudo analisa várias estratégias de amostragem baseadas no algoritmo BM25 (Best Match 25) em uma estrutura de auto-treinamento para fazer o fine tuning de um modelo BERT para NER. Essas estratégias envolvem a seleção das sentenças mais relevantes de um corpus nãorotulado, onde, para cada categoria do conjunto de dados rotulados, os termos de todas as sentenças associadas servem como consulta no BM25. As estratégias propostas diferem na forma como consideram a distribuição das categorias no conjunto de dados rotulados. Utilizando um conjunto de dados de REN em português brasileiro do domínio legislativo, avaliamos a eficácia dessas estratégias comparando seu desempenho com uma estratégia de amostragem aleatória e variando diferentes tamanhos de amostragem. Embora as novas estratégias de amostragem tenham desempenho similar à amostragem aleatória, elas fornecem entendimentos significativos sobre o papel do BM25 como método de amostragem em um contexto de auto-treinamento. Esses resultados destacam desafios importantes e identificam possíveis direções para futuras pesquisas, especialmente no que diz respeito à quantidade e diversidade das amostras escolhidas durante as iterações de treinamento.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Reconhecimento de entidade nomeada	pt_BR
dc.subject	NER	en
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Active sampling	en
dc.subject	Modelos de Linguagem	pt_BR
dc.subject	Self-training	en
dc.title	Exploring active sampling strategies for self-training in named entity recognition	pt_BR
dc.title.alternative	Explorando estratégias de amostragem ativa para auto-treinamento no reconhecimento de entidades nomeadas	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Nunes, Rafael Oleques	pt_BR
dc.identifier.nrb	001241293	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2025	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Files in this item

Name:: 001241293.pdf
Size:: 3.702Mb
Format:: PDF
Description:: Texto completo (inglês)

View/Open

This item is licensed under a Creative Commons License

Final Papers - Undergraduate Courses (38127)

Computer Science - Undergraduate degree (1072)

Show simple item record