Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais

Beuren, Gilberto Müller

dc.contributor.advisor	Anzanello, Michel José	pt_BR
dc.contributor.author	Beuren, Gilberto Müller	pt_BR
dc.date.accessioned	2020-02-13T04:22:32Z	pt_BR
dc.date.issued	2019	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/205832	pt_BR
dc.description.abstract	Com os avanços tecnológicos nos mais diversos processos industriais, é cada vez mais frequente a coleta de grandes volumes de dados e seu armazenamento com vistas ao monitoramento de tais processos. Entretanto, a análise precisa das informações coletadas pode ser comprometida pelo volume excessivo de variáveis, provocando ruído e distorções nos resultados. Neste contexto, a seleção de variáveis consideradas mais importantes para a correta interpretação dos dados surge como uma alternativa para a identificação de padrões com propósitos que incluem classificação, predição e agrupamento de amostras, removendo aquelas que apresentam ruídos ou alta correlação. Dentro do escopo desta tese, a seleção de variáveis tem por objetivo criar modelos inovadores que se adaptem aos mais variados tipos de objetivos de classificação, predição e agrupamento, reduzindo o número de variáveis irrelevantes, ruidosas e redundantes, bem como apresentando maior eficiência computacional para a realização das análises. Tais metodologias são apresentadas em três artigos, visando a resolução de problemas específicos. No primeiro artigo, um índice de importância de variáveis é apresentado para selecionar as variáveis mais relevantes na construção de um modelo de predição, através de Informação Mútua; no segundo artigo, uma nova metodologia apoiada em duas fases para identificar as variáveis mais relevantes ao agrupamento de amostras de medicamentos similares quanto a aspectos químicos é proposta; no terceiro artigo, uma abordagem para seleção das variáveis mais informativas para classificação de bateladas produtivas em sete bancos de dados supervisionados é proposta através de três testes não-paramétricos. A aplicação dos métodos em distintos bancos de dados industriais, sua validação e comparação com abordagens da literatura corroboram a adequabilidade das proposições desta tese.	pt_BR
dc.description.abstract	The recent developments in technology area allowed the collection of larger amounts of data and its storage in industrial sector. However, the excessive number of variables, which generate results comprised of noise and distortion, may compromise the correct analysis of such information. In this context, the selection of most informative variables to analyze data precisely emerges as an alternative to pattern identification with purposes that include classification, prediction and clustering of samples, removing noisy and high collinear features. Within the scope of the thesis, variable selection has the objective to create groundbreaking models that can adapt to a large variety of model classification, prediction and clustering, reducing the number of irrelevant, noisy and redundant features, as well as presenting a higher computational efficiency in the data analysis. Such methodologies are presented in three scientific articles, aiming the solution of specific problems: the first one presents a variable importance index to select the most relevant features to build a prediction model, through Mutual Information; the second article proposes a new framework to identify the most informative variables to cluster similar medicine samples based on their chemical aspects, where a new feature selection in two phases is conducted; the third article proposes a new methodology to select the most important variables through three non-parametric tests to classify production batches in seven supervised datasets. The application of the framework in different industrial datasets as well as the validation and comparison with other studies and methodologies corroborates the suitability of the thesis’ propositions.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Variable selection	en
dc.subject	Seleção de variáveis	pt_BR
dc.subject	Análise de dados	pt_BR
dc.subject	Classification	en
dc.subject	Clustering	en
dc.subject	Prediction	en
dc.subject	Industrial data	en
dc.title	Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais	pt_BR
dc.type	Tese	pt_BR
dc.identifier.nrb	001111858	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Escola de Engenharia	pt_BR
dc.degree.program	Programa de Pós-Graduação em Engenharia de Produção	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2019	pt_BR
dc.degree.level	doutorado	pt_BR

Nome:: 001111858.pdf
Tamanho:: 1.921Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Engenharias (7687)

Engenharia de Produção (1266)

Mostrar registro simples