Desenvolvimento de modelo de aprendizado de máquina para classificar o motivo de compra de produtos a partir de notas fiscais eletrônicas
| dc.contributor.advisor | Recamonde-Mendoza, Mariana | pt_BR |
| dc.contributor.author | Tesche, Nikolas | pt_BR |
| dc.date.accessioned | 2025-08-08T08:00:56Z | pt_BR |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | http://hdl.handle.net/10183/294848 | pt_BR |
| dc.description.abstract | O sistema tributário do Brasil estabelece que, em uma transação comercial entre empre sas, diferentes impostos e taxas se aplicam, a depender do motivo da compra ou venda. O Código Fiscal de Operações e Prestações (CFOP), que deve ser preenchido para cada produto da Nota Fiscal Eletrônica (NF-e), tanto na nota de saída quanto na de entrada, ajuda na regularização e fiscalização, codificando o motivo da transação, sua abrangência geográfica, a natureza da tributação, entre outros aspectos. No Escritório Contábil Tes che, a determinação do CFOP é feita com auxílio do software Domínio Contábil, que usa umsistema de códigos numéricos chamados acumuladores. Um acumulador determina o motivo da compra e alguns detalhes sobre a tributação do produto, e o software encontra o CFOP apropriado com base nele e em informações do arquivo XML da NF-e. Apesar da possibilidade de criar regras automáticas, sua manutenção e atualização são complexas, o que leva os funcionários a preferirem o preenchimento manual. Neste trabalho, propo mos uma solução que substitui a necessidade de regras explícitas para determinação de acumuladores por um modelo de Inteligência Artificial (IA) de classificação. Abstraindo os acumuladores para representar apenas o motivo da compra, criamos classes que po dem ser previstas por um modelo de aprendizado de máquina com base no histórico de notas. Usamos informações extraídas da NF-e e de tabelas disponíveis no escritório para compor as entradas do modelo, classificando os produtos entre "Insumos", "Revendas", "Consumos"e "Outros". Exploramos os campos de NCM, descrição textual e CST de diferentes impostos, aplicando Target Encoding, vetorização TF-IDF e One-Hot Enco ding, respectivamente, para treinar e avaliar cinco algoritmos de classificação: regressão logística, random forest, XGBoost, multilayer perceptron (MLP) e máquina de vetores de suporte (SVM). Os modelos foram desenvolvidos com base em dois conjuntos de dados- um original, com erros históricos nos rótulos, e outro corrigido- e avaliados em um conjunto de dados independente. Os melhores resultados permitiram reduzir o volume de classificações manuais em até 93%, diminuindo erros em itens que passariam sem revisão humana. | pt_BR |
| dc.description.abstract | Brazilian tax system establishes that, in commercial transactions between companies, dif ferent taxes and fees apply depending on the purpose of the purchase or sale. The Fiscal Code of Operations and Services (CFOP), which must be specified for each product in the Electronic Invoice (NF-e), both in the outgoing and incoming invoices, supports tax com pliance and enforcement by encoding the transaction’s purpose, geographical scope, tax nature, and other aspects. At Escritório Contábil Tesche, the CFOP is determined using the Domínio Contábil software, which relies on a system of numerical codes called "ac cumulators." Each accumulator identifies the reason for the purchase and some taxation details, and the software derives the appropriate CFOP using this code along with data from the NF-e XML file. Although it is possible to automate this process with rule-based systems, maintaining and updating such rules is complex, leading staff to prefer manual input. In this work, we propose a solution that replaces explicit rule-based determination of accumulators with a classification model based on Artificial Intelligence (AI). By ab stracting accumulators to represent only the purchase purpose, we define target classes that can be predicted by a machine learning model using historical invoice data. Features are derived from the NF-e and tables available to the office, and products are classified into four categories: "Inputs", "Resales", "Consumption", and "Others." We explore the use of NCM (Mercosur Common Nomenclature), textual description, and CST (Tax Sit uation Code), applying Target Encoding, TF-IDF vectorization, and One-Hot Encoding, respectively, to train and evaluate five classification algorithms: logistic regression, ran dom forest, XGBoost, multilayer perceptron (MLP), and linear support vector machine (SVM). The models were trained using two datasets—one original, with historical label errors, and one corrected—and evaluated on an independent test set. The best results achieved up to 93% reduction in the volume of manual classifications, while minimizing errors in items that would otherwise go unchecked. | en |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language.iso | eng | pt_BR |
| dc.rights | Open Access | en |
| dc.subject | Aprendizado de máquina | pt_BR |
| dc.subject | Inteligência artificial | pt_BR |
| dc.subject | Sistema tributário | pt_BR |
| dc.subject | Nota fiscal eletrônica | pt_BR |
| dc.title | Desenvolvimento de modelo de aprendizado de máquina para classificar o motivo de compra de produtos a partir de notas fiscais eletrônicas | pt_BR |
| dc.title.alternative | Development of a machine learning model to evaluate the reason for purchasing products from electronic invoices | en |
| dc.type | Trabalho de conclusão de graduação | pt_BR |
| dc.identifier.nrb | 001290829 | pt_BR |
| dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
| dc.degree.department | Instituto de Informática | pt_BR |
| dc.degree.local | Porto Alegre, BR-RS | pt_BR |
| dc.degree.date | 2025 | pt_BR |
| dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
| dc.degree.level | graduação | pt_BR |
Files in this item
This item is licensed under a Creative Commons License

