Automatic generation of a named entity set for analysis of political speeches
Visualizar/abrir
Data
2024Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Geração automática de um conjunto de entidades nomeadas para análise de discursos políticos
Assunto
Abstract
Extracting meaningful information from unstructured text is essential in fields like political discourse, where language nuances significantly impact public opinion and policy development. In this work, we develop and evaluate a Named Entity Recognition (NER) model tailored to analyze Brazilian political discourse. Leveraging a comprehensive corpus of political speeches from the Brazilian Chamber of Deputies, we automatically generated a set of NER categories using a hybrid methodology that com ...
Extracting meaningful information from unstructured text is essential in fields like political discourse, where language nuances significantly impact public opinion and policy development. In this work, we develop and evaluate a Named Entity Recognition (NER) model tailored to analyze Brazilian political discourse. Leveraging a comprehensive corpus of political speeches from the Brazilian Chamber of Deputies, we automatically generated a set of NER categories using a hybrid methodology that combines distant supervision techniques with a domain-specific Thesaurus. Next, we annotate the resulting corpus to train BERTimbau, a Bidirectional Encoder Representations from Transformers (BERT) based model optimized for Brazilian Portuguese. Our approach also included implementing a proof-of-concept web tool to visualize and interact with the extracted entities, offering valuable insights into political language trends. The results demonstrate that while the model does not achieve state-of-the-art performance, it effectively recognizes key entities, making it a valuable tool for specific applications in political discourse analysis. This work highlights the potential of automated NER systems in understudied languages and domains, providing a foundation for future research and improvements. ...
Resumo
Extrair informações significativas de textos não estruturados é fundamental em áreas como o discurso político, onde as nuances da linguagem impactam significativamente a opinião pública e o desenvolvimento de políticas. Neste trabalho, desenvolvemos e avaliamos um modelo de Reconhecimento de Entidades Nomeadas (NER) especificamente adaptado para a análise do discurso político brasileiro. Utilizando um corpus abrangente de discursos políticos da Câmara dos Deputados, geramos automaticamente um c ...
Extrair informações significativas de textos não estruturados é fundamental em áreas como o discurso político, onde as nuances da linguagem impactam significativamente a opinião pública e o desenvolvimento de políticas. Neste trabalho, desenvolvemos e avaliamos um modelo de Reconhecimento de Entidades Nomeadas (NER) especificamente adaptado para a análise do discurso político brasileiro. Utilizando um corpus abrangente de discursos políticos da Câmara dos Deputados, geramos automaticamente um conjunto de categorias de NER por meio de uma metodologia híbrida que combina técnicas de supervisão distante com um Tesauro específico do domínio. O corpus resultante foi então anotado e utilizado para treinar o modelo BERTimbau, baseado no modelo Bidirectional Encoder Representations from Transformers (BERT) otimizado para o português do Brasil. Nossa abordagem também incluiu a implementação de uma ferramenta web, em formato de prova de conceito, projetada para visualizar e interagir com as entidades extraí- das, oferecendo insights valiosos sobre as tendências da linguagem política. Os resultados demonstram que, embora o modelo não atinja desempenho de ponta, ele reconhece efetivamente entidades-chave, tornando-se uma ferramenta útil para aplicações específicas na análise do discurso político. Este trabalho destaca o potencial de sistemas automatizados de NER em línguas e domínios pouco estudados, fornecendo uma base para futuras pesquisas e melhorias. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1025)
Este item está licenciado na Creative Commons License