Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
View/ Open
Date
2019Author
Advisor
Academic level
Doctorate
Type
Subject
Abstract in Portuguese (Brasil)
Com os avanços tecnológicos nos mais diversos processos industriais, é cada vez mais frequente a coleta de grandes volumes de dados e seu armazenamento com vistas ao monitoramento de tais processos. Entretanto, a análise precisa das informações coletadas pode ser comprometida pelo volume excessivo de variáveis, provocando ruído e distorções nos resultados. Neste contexto, a seleção de variáveis consideradas mais importantes para a correta interpretação dos dados surge como uma alternativa para ...
Com os avanços tecnológicos nos mais diversos processos industriais, é cada vez mais frequente a coleta de grandes volumes de dados e seu armazenamento com vistas ao monitoramento de tais processos. Entretanto, a análise precisa das informações coletadas pode ser comprometida pelo volume excessivo de variáveis, provocando ruído e distorções nos resultados. Neste contexto, a seleção de variáveis consideradas mais importantes para a correta interpretação dos dados surge como uma alternativa para a identificação de padrões com propósitos que incluem classificação, predição e agrupamento de amostras, removendo aquelas que apresentam ruídos ou alta correlação. Dentro do escopo desta tese, a seleção de variáveis tem por objetivo criar modelos inovadores que se adaptem aos mais variados tipos de objetivos de classificação, predição e agrupamento, reduzindo o número de variáveis irrelevantes, ruidosas e redundantes, bem como apresentando maior eficiência computacional para a realização das análises. Tais metodologias são apresentadas em três artigos, visando a resolução de problemas específicos. No primeiro artigo, um índice de importância de variáveis é apresentado para selecionar as variáveis mais relevantes na construção de um modelo de predição, através de Informação Mútua; no segundo artigo, uma nova metodologia apoiada em duas fases para identificar as variáveis mais relevantes ao agrupamento de amostras de medicamentos similares quanto a aspectos químicos é proposta; no terceiro artigo, uma abordagem para seleção das variáveis mais informativas para classificação de bateladas produtivas em sete bancos de dados supervisionados é proposta através de três testes não-paramétricos. A aplicação dos métodos em distintos bancos de dados industriais, sua validação e comparação com abordagens da literatura corroboram a adequabilidade das proposições desta tese. ...
Abstract
The recent developments in technology area allowed the collection of larger amounts of data and its storage in industrial sector. However, the excessive number of variables, which generate results comprised of noise and distortion, may compromise the correct analysis of such information. In this context, the selection of most informative variables to analyze data precisely emerges as an alternative to pattern identification with purposes that include classification, prediction and clustering of ...
The recent developments in technology area allowed the collection of larger amounts of data and its storage in industrial sector. However, the excessive number of variables, which generate results comprised of noise and distortion, may compromise the correct analysis of such information. In this context, the selection of most informative variables to analyze data precisely emerges as an alternative to pattern identification with purposes that include classification, prediction and clustering of samples, removing noisy and high collinear features. Within the scope of the thesis, variable selection has the objective to create groundbreaking models that can adapt to a large variety of model classification, prediction and clustering, reducing the number of irrelevant, noisy and redundant features, as well as presenting a higher computational efficiency in the data analysis. Such methodologies are presented in three scientific articles, aiming the solution of specific problems: the first one presents a variable importance index to select the most relevant features to build a prediction model, through Mutual Information; the second article proposes a new framework to identify the most informative variables to cluster similar medicine samples based on their chemical aspects, where a new feature selection in two phases is conducted; the third article proposes a new methodology to select the most important variables through three non-parametric tests to classify production batches in seven supervised datasets. The application of the framework in different industrial datasets as well as the validation and comparison with other studies and methodologies corroborates the suitability of the thesis’ propositions. ...
Institution
Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Programa de Pós-Graduação em Engenharia de Produção.
Collections
-
Engineering (7412)Production Engineering (1233)
This item is licensed under a Creative Commons License