Show simple item record

dc.contributor.advisorFreitas, Carla Maria Dal Sassopt_BR
dc.contributor.authorNunes, Rafael Olequespt_BR
dc.date.accessioned2025-08-06T06:56:05Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/294662pt_BR
dc.description.abstractThis work presents an analysis of annotation contamination in specialized Named Entity Recognition (NER) corpora in the Portuguese language. We identify three types of overlapping annotations (duplicated, partial, and ambiguous) that occur within identical sentence instances. We demonstrate that such issues are present in all evaluated corpora within and across the original data splits. When available, domain experts manually reviewed partial and ambiguous cases; otherwise, a heuristic approach was used to resolve conflicts. We produced both contaminated and decontaminated versions of each corpus and used them to train and evaluate a range of NER models, including CRF, BiLSTM-CRF, and encoder-based transformer architectures. To assess the impact of contamination on model performance, we conducted experiments using both holdout and k-fold cross-validation strategies and applied statistical tests to compare results across corpus versions. The findings indicate that annotation inconsistencies can significantly influence evaluation outcomes, underscoring the importance of careful corpus preparation in domain-specific NER tasks.en
dc.description.abstractEste trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectReconhecimento de entidade nomeadapt_BR
dc.subjectData contaminationen
dc.subjectLow-resourceen
dc.subjectModelos de linguagem de grande escalapt_BR
dc.subjectEvaluationen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectAprendizado profundopt_BR
dc.titleData contamination in specialized named entity recognition corporapt_BR
dc.title.alternativeContaminação de dados em corpora de reconhecimento de entidades nomeadas especializados pt
dc.typeDissertaçãopt_BR
dc.contributor.advisor-coBalreira, Dennis Giovanipt_BR
dc.identifier.nrb001290043pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.levelmestradopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record