Extração de tópicos em Notas Fiscais Eletrônicas (NF-e) : uma análise utilizando BERTopic
View/ Open
Date
2024Author
Advisor
Academic level
Graduation
Subject
Abstract in Portuguese (Brasil)
À medida que informações são geradas, a busca por suas interpretações cresce. No entanto, em muitos bancos de dados, a falta de rotulação dificulta sua interpretabilidade. Assim, os modelos de aprendizado profundo surgem para abordar essas tarefas complexas de Processamento de Linguagem Natural. Utilizando dados não rotulados obtidos de Notas Fiscais Eletrônicas da Secretaria da Fazenda do Rio Grande do Sul, este trabalho visa construir um modelo BERTopic para agrupar produtos semelhantes em tó ...
À medida que informações são geradas, a busca por suas interpretações cresce. No entanto, em muitos bancos de dados, a falta de rotulação dificulta sua interpretabilidade. Assim, os modelos de aprendizado profundo surgem para abordar essas tarefas complexas de Processamento de Linguagem Natural. Utilizando dados não rotulados obtidos de Notas Fiscais Eletrônicas da Secretaria da Fazenda do Rio Grande do Sul, este trabalho visa construir um modelo BERTopic para agrupar produtos semelhantes em tópicos. Durante essa modelagem, diversos hiperparâmetros foram variados, com o objetivo de encontrar o melhor resultado com base em métricas como a silhueta e considerando também o número de tópicos gerados. ...
Abstract
As information is generated, the search for its interpretations grows. However, in many databases, the lack of labeling complicates their interpretability. Thus, deep learning models emerge to address these complex tasks in Natural Language Processing. Using unlabeled data obtained from Electronic Invoices of the Department of Finance of Rio Grande do Sul, this work aims to build a BERTopic model to group similar products into topics. During this modeling process, various hyperparameters were a ...
As information is generated, the search for its interpretations grows. However, in many databases, the lack of labeling complicates their interpretability. Thus, deep learning models emerge to address these complex tasks in Natural Language Processing. Using unlabeled data obtained from Electronic Invoices of the Department of Finance of Rio Grande do Sul, this work aims to build a BERTopic model to group similar products into topics. During this modeling process, various hyperparameters were adjusted, aiming to find the best result based on metrics such as silhouette and also considering the number of generated topics. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Matemática e Estatística. Curso de Estatística: Bacharelado.
Collections
This item is licensed under a Creative Commons License