Stability and performance of machine learning feature selection methods : a case study on COVID-19 diagnosis datasets
Visualizar/abrir
Data
2022Orientador
Nível acadêmico
Graduação
Outro título
Estabilidade e desempenho de métodos de seleção de atributos em aprendizado de máquina: um estudo de caso para diagnóstico de COVID-19
Assunto
Abstract
Feature selection (FS) is defined as a preprocessing step that aims to find the smallest possible subset of the features that is enough to achieve the data analysis goal, in this case, the classification. The stability of FS methods refers to finding the same relevant features, either by applying different forms of this technique or by using different data from the same domain. This work aims to evaluate the stability of FS methods applied to a collection of datasets related to the same domain, ...
Feature selection (FS) is defined as a preprocessing step that aims to find the smallest possible subset of the features that is enough to achieve the data analysis goal, in this case, the classification. The stability of FS methods refers to finding the same relevant features, either by applying different forms of this technique or by using different data from the same domain. This work aims to evaluate the stability of FS methods applied to a collection of datasets related to the same domain, investigating whether their features would have the same predictive power regardless of the database or the FS method used. The Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) has launched the COVID-19 Data Sharing/BR initiative to make publicly available data from individ uals tested for COVID-19, either with positive or negative results, including not only the results for SARS-CoV-2 infection but also other laboratory tests, such as blood counts. This work uses the COVID-19 Data Sharing/BR repository, which is composed of five distinct databases with COVID-19-related data, as a case study. We evaluate distinct FS methods in each database, comparing the most relevant features among them and also in contrast to the literature. Moreover, we assess the classification performance based on the most relevant features and the stability of FS methods in three distinct settings: among folds within a cross-validation process, among methods, and among databases. Finally, based on the multiple feature rankings obtained in these settings, we analyze the predic tive power of classification models trained with an ensemble FS approach that explores distinct databases or distinct FS methods. Our results suggest that the stability of feature relevance rankings among datasets is lower when compared to stability among distinct FS methods applied to the same dataset, which may be due to variations in the distribution of exams in each dataset. We conclude that the performance after FS obtained better results when using an ensemble approach between datasets, and that in ensembles among distinct FS methods the performance is directly related to the size of the dataset used as the basis for the analysis. ...
Resumo
Seleção de atributos (SA) é uma etapa de pré-processamento de dados que busca encontrar o menor subgrupo possível de atributos necessário e suficiente para atingir o objetivo na análise de dados. A estabilidade de métodos de SA se refere a encontrar os mesmos atributos relevantes, seja aplicando formas distintas dessa técnica ou utilizando dados diferentes de um mesmo domínio. Esse trabalho visa testar a estabilidade de métodos de SA aplicados a uma coleção de bases de dados, avaliando se seus ...
Seleção de atributos (SA) é uma etapa de pré-processamento de dados que busca encontrar o menor subgrupo possível de atributos necessário e suficiente para atingir o objetivo na análise de dados. A estabilidade de métodos de SA se refere a encontrar os mesmos atributos relevantes, seja aplicando formas distintas dessa técnica ou utilizando dados diferentes de um mesmo domínio. Esse trabalho visa testar a estabilidade de métodos de SA aplicados a uma coleção de bases de dados, avaliando se seus atributos teriam o mesmo poder preditivo independente da base de dados ou do método de SA utilizado, e verificando o desempenho de diferentes classificadores com a SA. A Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) lançou a iniciativa COVID-19 Data Sharing/BR para disponibilizar publicamente dados de indivíduos testados para a COVID-19, quer com resultados positivos ou negativos, incluindo os resultados do teste diagnóstico e outros testes laboratoriais, como o hemograma. Este trabalho utiliza o repositório COVID-19 Data Sharing/BR, que é composto por cinco bases de dados de fontes distintas, como um estudo de caso. Avaliamos métodos distintos de SA em cada base de dados, comparando os atributos identificados como mais relevantes entre as bases e também em contraste com a literatura. Além disso, avaliamos o desempenho da classificação com base nos atributos mais relevantes e a estabilidade dos métodos de SA em três cenários: entre folds de uma validação cruzada, entre métodos de SA, e entre bases de dados. Finalmente, com base nos múltiplos rankings de atributos obtidos entre bases ou por métodos de SA distintos, analisamos o poder preditivo dos modelos de classificação treinados com uma abordagem ensemble de SA. Concluímos que a estabilidade dos rankings de relevância de atributos entre bases de dados é menor quando comparada à estabilidade entre métodos distintos de SA aplicados a um mesmo conjunto de dados, o que pode ser devido a variações na distribuição de exames entre as bases. O desempenho após a SA obteve melhores resul tados ao utilizar uma abordagem ensemble entre bases de dados, ainda que a escolha do algoritmo de aprendizado pareça ter maior influência sobre os resultados que a estratégia de SA. Por fim, no caso de SA com ensemble de métodos, observamos que o desempenho está diretamente relacionado ao tamanho da base de dados utilizada na análise. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1128)
Este item está licenciado na Creative Commons License


