Vetorização de textos com Bag-of-Words e aprendizado de máquina para cadastro de NCMs - Nomenclatura Comum do MERCOSUL

Pires, Francisco Barbosa

Ver

Texto completo (2.096Mb)

Fecha

2024

Autor

Pires, Francisco Barbosa

Tutor

Santos, Hugo Henrique Kegler dos

Nivel académico

Grado

Resumo

O cadastro da Nomenclatura Comum do MERCOSUL (NCM) de uma mercadoria é uma atividade executada por analistas em empresas com o objetivo de atribuir a classificação mais adequada a um material produzido. Cadastros feitos de forma errada podem resultar em problemas para as empresas tais como multas e recolhimento de tributos erroneamente. Este trabalho tem como objetivo estudar o método de vetorização Bag-of-Words e construir um algoritmo de aprendizado de máquina para auxiliar no cadastro de NCMs. A base de dados utilizada nesta pesquisa é oriunda de uma metalúrgica situada em Porto Alegre – RS, e foi inicialmente filtrada e processada pelo algoritmo de stemming RSLP. Em seguida, foram testadas e avaliadas as métricas do Bag-of-Words (Boolean, Frequency e tfidf ) por visualização gráfica usando o método de visualização de dados em alta dimensão t-SNE. A métrica escolhida para a construção do algoritmo de aprendizado de máquina foi a tfidf. A base de dados vetorizada foi submetida ao método de Mapa de Difusão para reduzir a dimensionalidade dos dados em cinquenta componentes. Os dados redimensionados foram usados para construir o modelo de aprendizado de máquina, Máquina de Vetores de Suporte (SVM). A escolha dos melhores parâmetros do modelo SVM foi feita através do método de Grid-Search. O modelo final apresentou uma acurácia de 88,06%. Os resultados indicaram a adequação da metodologia utilizada para a construção desta pesquisa, entretanto, sugere-se alterações no método de redução de dimensão dos dados vetorizados e testagem de outras técnicas de modelagem para a construção do modelo de classificação final. Esta pesquisa foi construída na linguagem de programação Python e seu código pode ser acessado através da plataforma GitHub. ...

Abstract

The Mercosur Common Nomenclature (NCM) register of a product is a process developed by analysts in companies, aiming to attribute the most appropriate classification to a produced material. Incorrect registration may result in problems for companies such as fines and incorrect tax payments. This work aims to study the Bag-of-Words vectorization method and build a machine learning algorithm to assist in registering NCMs. The database used in this research, which was initially filtered and processed by the RSLP stemming algorithm, comes from a metallurgy in Porto Alegre – RS. After that, the Bag-of-Words metrics (Boolean, Frequency, and tfidf) were tested and evaluated, using the t-SNE graphical visualization for high-dimensional data. The metric chosen to build the machine learning algorithm was tfidf. The vectorized database was subjected to the Difusion Map method to reduce the dimensionality of the data into fifty components. The resized data were used to build the machine learning model, Support Vector Machine (SVM). The best parameters of the SVM model were chosen through the Grid-Search method. The final model showed an accuracy of 88,06%. The results indicated the suitability of the used methodology in order to carry out this research, however, it is advisable some changes to the dimension reduction method for vectorized data and testing other modeling techniques for building the final classification model. This research was done using the Python language and its code can be accessed through the GitHub platform. ...

Institución

Universidade Federal do Rio Grande do Sul. Instituto de Matemática e Estatística. Curso de Estatística: Bacharelado.

Colecciones

Tesinas de Curso de Grado (37618)

Tesinas Estadística (295)

Otras opciones

Mostrar todos los metadatos

Estatísticas

Este ítem está licenciado en la Creative Commons License