N3O : a NEAT expansion for improving classification and feature selection applied to microarray data
Visualizar/abrir
Data
2018Autor
Orientador
Co-orientador
Nível acadêmico
Mestrado
Tipo
Outro título
N3O : uma expansão de NEAT para melhorar a classificação e seleção de caracteristicos aplicada a dados de microarranjo
Assunto
Abstract
Microarrays are one of the major techniques employed in the study of genes expression, but the identification of expression patterns from microarray datasets is a significant challenge to overcome. In this work, besides reviewing the application of machine learning in the tasks of microarray classification and gene selection, a new approach using Neuroevolution, a machine learning field that combines neural networks and evolutionary computation, is proposed for simultaneously classifying microa ...
Microarrays are one of the major techniques employed in the study of genes expression, but the identification of expression patterns from microarray datasets is a significant challenge to overcome. In this work, besides reviewing the application of machine learning in the tasks of microarray classification and gene selection, a new approach using Neuroevolution, a machine learning field that combines neural networks and evolutionary computation, is proposed for simultaneously classifying microarray data and autonomously selecting the subset of more relevant genes. The algorithm FS-NEAT was adapted by the addition of three new structural operators designed for better exploring this high dimensional space. A rigorous filtering and preprocessing protocol was also employed to select quality microarray datasets for the experiments, selecting 13 datasets from three different cancer types (breast, colorectal, and leukemia). The results from different experiments show that the proposed method was able to successfully classify microarray samples when compared with other alternatives in the literature, including regular FS-NEAT and SVM, while also finding subsets of genes that can be generalized for other algorithms and carry relevant biological information. This approach detected 177 genes capable of differing classes, 82 of them already being associated to their respective cancer types in the literature and 44 being associated to other types of cancer, becoming potential targets to be explored as cancer biomarkers. ...
Resumo
Microarranjos são uma das principais técnicas empregadas no estudo de expressão gênica, mas a identificação de padrões de expressão a partir de conjuntos de dados de microarranjo é um desafio significativo a se superar. Neste trabalho, além de revisar a aplicação de aprendizado de máquina nas tarefas de classificação de microarranjos e seleção de genes, uma nova técnica utilizando Neuroevolução, um campo do aprendizado de máquina que combina redes neurais e computação evolutiva, é proposta para ...
Microarranjos são uma das principais técnicas empregadas no estudo de expressão gênica, mas a identificação de padrões de expressão a partir de conjuntos de dados de microarranjo é um desafio significativo a se superar. Neste trabalho, além de revisar a aplicação de aprendizado de máquina nas tarefas de classificação de microarranjos e seleção de genes, uma nova técnica utilizando Neuroevolução, um campo do aprendizado de máquina que combina redes neurais e computação evolutiva, é proposta para simultaneamente classificar dados de microarranjo e automaticamente selecionar o subconjunto de genes mais relevantes. O algoritmo FS-NEAT foi adaptado através da adição de três novos operadores estruturais projetados para melhor explorar este espaço de busca de alta dimensionalidade. Um rigoroso protocolo de filtragem e preprocessamento foi empregado para selecionar conjuntos de dados de microarranjo de qualidade para os experimentos, selecionando 13 conjuntos de dados de três tipos diferentes de câncer (mama, colorretal e leucemia). Os resultados de diferentes experimentos mostram que o método proposto foi capaz de classificar amostras de microarranjos satisfatoriamente quando comparado com outras alternativas da literatura, incluindo FS-NEAT padrão e SVM, enquanto também encontrando subconjuntos de genes que podem ser generalizados para outros algoritmos e carregam informação biológica relevante. Esta abordagem detectou 177 genes capazes de diferenciar classes, dos quais 82 já foram associados aos seus respectivos tipos de câncer na literatura e 44 foram associados a outros tipos de câncer, tornando-se alvos em potencial a serem explorados como biomarcadores de câncer. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Coleções
-
Ciências Exatas e da Terra (5129)Computação (1764)
Este item está licenciado na Creative Commons License