Mostrar el registro sencillo del ítem
Data contamination in specialized named entity recognition corpora
dc.contributor.advisor | Freitas, Carla Maria Dal Sasso | pt_BR |
dc.contributor.author | Nunes, Rafael Oleques | pt_BR |
dc.date.accessioned | 2025-08-06T06:56:05Z | pt_BR |
dc.date.issued | 2025 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/294662 | pt_BR |
dc.description.abstract | This work presents an analysis of annotation contamination in specialized Named Entity Recognition (NER) corpora in the Portuguese language. We identify three types of overlapping annotations (duplicated, partial, and ambiguous) that occur within identical sentence instances. We demonstrate that such issues are present in all evaluated corpora within and across the original data splits. When available, domain experts manually reviewed partial and ambiguous cases; otherwise, a heuristic approach was used to resolve conflicts. We produced both contaminated and decontaminated versions of each corpus and used them to train and evaluate a range of NER models, including CRF, BiLSTM-CRF, and encoder-based transformer architectures. To assess the impact of contamination on model performance, we conducted experiments using both holdout and k-fold cross-validation strategies and applied statistical tests to compare results across corpus versions. The findings indicate that annotation inconsistencies can significantly influence evaluation outcomes, underscoring the importance of careful corpus preparation in domain-specific NER tasks. | en |
dc.description.abstract | Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Open Access | en |
dc.subject | Reconhecimento de entidade nomeada | pt_BR |
dc.subject | Data contamination | en |
dc.subject | Low-resource | en |
dc.subject | Modelos de linguagem de grande escala | pt_BR |
dc.subject | Evaluation | en |
dc.subject | Processamento de linguagem natural | pt_BR |
dc.subject | Aprendizado profundo | pt_BR |
dc.title | Data contamination in specialized named entity recognition corpora | pt_BR |
dc.title.alternative | Contaminação de dados em corpora de reconhecimento de entidades nomeadas especializados | pt |
dc.type | Dissertação | pt_BR |
dc.contributor.advisor-co | Balreira, Dennis Giovani | pt_BR |
dc.identifier.nrb | 001290043 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2025 | pt_BR |
dc.degree.level | mestrado | pt_BR |
Ficheros en el ítem
Este ítem está licenciado en la Creative Commons License

-
Ciencias Exactas y Naturales (5260)Computación (1806)