Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
View/ Open
Date
2020Advisor
Academic level
Master professional
Type
Subject
Abstract in Portuguese (Brasil)
Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cad ...
Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura. ...
Abstract
Methods for feature selection are important to make machine learning models parsimonious and accurate, eliminating non-relevant, noisy and highly correlated features. Moreover, these methods can contribute to cost reduction and increased efficiency in activities that include quality assessments in industrial processes and proving the authenticity of product samples. This paper proposes two new approaches to feature selection, each of which is arranged in an article. Regarding the method, a new ...
Methods for feature selection are important to make machine learning models parsimonious and accurate, eliminating non-relevant, noisy and highly correlated features. Moreover, these methods can contribute to cost reduction and increased efficiency in activities that include quality assessments in industrial processes and proving the authenticity of product samples. This paper proposes two new approaches to feature selection, each of which is arranged in an article. Regarding the method, a new ranking of the importance of variables, based on the singular value decomposition, is proposed and used to guide an iterative process that composes subsets and underlies them to a machine learning technique. In the sequence, the accuracy of the model is evaluated; the process retains the variables that promote accuracy gain and discards the others. In terms of the articles that compose this dissertation, in the first one the k-Nearest Neighbor machine learning method is applied, and the experiments are directed to the forensic analysis of falsified drug identification. The second article uses the Ensemble Logistic GMDH-NN machine learning method and performs experiments on industrial process data and physical-chemical properties of Brazilian Biodiesel and Diesel. The two proposed approaches demonstrate superior performance in terms of to improve accuracy and reduction of the subset of variables when compared to methods reported in the literature. ...
Institution
Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Programa de Pós-Graduação em Engenharia de Produção e Transportes.
Collections
-
Engineering (7412)Production Engineering (1233)
This item is licensed under a Creative Commons License