Mostrar registro simples

dc.contributor.advisorBalreira, Dennis Giovanipt_BR
dc.contributor.authorBombardieri, Giovani Ghenopt_BR
dc.date.accessioned2024-09-11T06:18:22Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/278797pt_BR
dc.description.abstractExtracting meaningful information from unstructured text is essential in fields like political discourse, where language nuances significantly impact public opinion and policy development. In this work, we develop and evaluate a Named Entity Recognition (NER) model tailored to analyze Brazilian political discourse. Leveraging a comprehensive corpus of political speeches from the Brazilian Chamber of Deputies, we automatically generated a set of NER categories using a hybrid methodology that combines distant supervision techniques with a domain-specific Thesaurus. Next, we annotate the resulting corpus to train BERTimbau, a Bidirectional Encoder Representations from Transformers (BERT) based model optimized for Brazilian Portuguese. Our approach also included implementing a proof-of-concept web tool to visualize and interact with the extracted entities, offering valuable insights into political language trends. The results demonstrate that while the model does not achieve state-of-the-art performance, it effectively recognizes key entities, making it a valuable tool for specific applications in political discourse analysis. This work highlights the potential of automated NER systems in understudied languages and domains, providing a foundation for future research and improvements.en
dc.description.abstractExtrair informações significativas de textos não estruturados é fundamental em áreas como o discurso político, onde as nuances da linguagem impactam significativamente a opinião pública e o desenvolvimento de políticas. Neste trabalho, desenvolvemos e avaliamos um modelo de Reconhecimento de Entidades Nomeadas (NER) especificamente adaptado para a análise do discurso político brasileiro. Utilizando um corpus abrangente de discursos políticos da Câmara dos Deputados, geramos automaticamente um conjunto de categorias de NER por meio de uma metodologia híbrida que combina técnicas de supervisão distante com um Tesauro específico do domínio. O corpus resultante foi então anotado e utilizado para treinar o modelo BERTimbau, baseado no modelo Bidirectional Encoder Representations from Transformers (BERT) otimizado para o português do Brasil. Nossa abordagem também incluiu a implementação de uma ferramenta web, em formato de prova de conceito, projetada para visualizar e interagir com as entidades extraí- das, oferecendo insights valiosos sobre as tendências da linguagem política. Os resultados demonstram que, embora o modelo não atinja desempenho de ponta, ele reconhece efetivamente entidades-chave, tornando-se uma ferramenta útil para aplicações específicas na análise do discurso político. Este trabalho destaca o potencial de sistemas automatizados de NER em línguas e domínios pouco estudados, fornecendo uma base para futuras pesquisas e melhorias.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectReconhecimento de entidade nomeadapt_BR
dc.subjectCorpus annotationen
dc.subjectModelos de Linguagempt_BR
dc.subjectDiscurso políticopt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.titleAutomatic generation of a named entity set for analysis of political speechespt_BR
dc.title.alternativeGeração automática de um conjunto de entidades nomeadas para análise de discursos políticos pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coNunes, Rafael Olequespt_BR
dc.identifier.nrb001210524pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples