An embedded categorical feature selector applied to the genotype-phenotype prediction problem
dc.contributor.advisor | Dorn, Márcio | pt_BR |
dc.contributor.author | Martinez, José Pedro Silveira | pt_BR |
dc.date.accessioned | 2020-08-19T03:39:22Z | pt_BR |
dc.date.issued | 2019 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/212990 | pt_BR |
dc.description.abstract | One crucial preprocessing step in many machine learning algorithms is feature selection since many predictions tasks are defined without knowledge of which attributes lying on data are relevant to the given task. The burden of evaluating all possible features subsets is computationally intractable and many heuristics for choosing sub-optimal attributes sets have been proposed and evaluated over the last decades. With the advance of data storage and collection technology, databases posing novel predictions tasks are filled with spurious attributes, which enforces the urge for general and computationally inexpensive feature selection algorithms. Elimination of redundant attributes is capable of improving machine learning models predictive capability, while the discovery of relevant features has an important scientific value on domains in which knowledge about the relationship of collected data attributes is null or insufficient. This study proposes N3O-D, a novel feature selection algorithm based on neuroevolution and mutual information which automatically selects categorical attributes as it learns to solve a given learning task. The proposed method classification and selection capability are experimentally evaluated on the genotype-phenotype prediction of eye and skin color. Experimental results showed that the method has the potential of improving classification performance obtained from state-of-art feature selection frameworks, achieving it on some of the evaluated data sets. | en |
dc.description.abstract | Uma etapa crucial do pré-processamento de muitos algoritmos de aprendizado de máquina é a seleção de atributos, visto que muitas tarefas preditivas são definidas sem um conhecimento prévio de quais atributos presentes nos dados são de fatos relevantes para o problema. A tarefa de avaliar todos os possíveis subconjuntos de atributos é computacionalmente intratável e heurísticas que propõe conjuntos de atributos sub-ótimos tem sido propostas e avaliadas nas últimas décadas. Com o avanço tecnólogico da coleta e armazenamento de dados em larga escala, bancos de dados apresentam tarefas preditivas inéditas contendo atributos supérfluos, reforçando a carência de algoritmos de seleção de atributos genéricos e computacionalmente baratos. A eliminação de atributos redundantes é capaz de melhorar a capacidade preditiva de algoritmos de aprendizado de máquina, enquanto a descoberta de atributos relevantes tem um valor científico importante para domínios onde o conhecimento sobre a relação dos dados coletados é nula ou insuficiente. Esta monografia propõe N3O-D, um seletor de atributos baseado em neuro-evolução e informação mútua que automaticamente seleciona atributos categóricos enquanto aprende a resolver uma tarefa de aprendizado. O método proposto é avaliado experimentalmente na predição dos fenótipos cor de olho e cor de pele a partir de dados genotípicos. Resultados experimentais demonstraram que o método é capaz de superar a capacidade preditiva obtida a partir de métodos de seleção de atributos no estado da arte, atingindo o objetivo em alguns dos conjuntos de dados analisados. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Redes neurais | pt_BR |
dc.subject | Neuroevolution | en |
dc.subject | Feature selection | en |
dc.subject | Aprendizado de máquina | pt_BR |
dc.subject | Genetic algorithm | en |
dc.subject | Metaheuristicas | pt_BR |
dc.subject | Mutual information | en |
dc.subject | Teoria da informação | pt_BR |
dc.title | An embedded categorical feature selector applied to the genotype-phenotype prediction problem | pt_BR |
dc.title.alternative | Um seletor de atributos categóricos baseado em neuroevolução aplicado ao problema de predição de fenótipo a partir de genótipo | pt |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.contributor.advisor-co | Grisci, Bruno Iochins | pt_BR |
dc.identifier.nrb | 001117137 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Ciência da Computação (1024)