Combining performance and diversity measures for optimizing classification ensembles via a genetic algorithm in the miRNA-target prediction problem
Visualizar/abrir
Data
2018Autor
Orientador
Nível acadêmico
Graduação
Outro título
Combinando Medidas de Performance e Diversidade para Otimizar Classificadores Ensemble através de Algoritmo Genético no Problema de Predição de Alvos de miRNAs
Assunto
Abstract
MicroRNAs, also called miRNAs, are a large family of non-coding RNAs of approximately 22 nucleotides (nt) in length, which act as post-transcriptional gene silencers via translational repression or degradation of targets mRNAs, and have an important role in metabolism and genesis of different genetic diseases, such as cancers. The miRNA target prediction problem is considered a difficult challenge in the molecular biology area. There are millions of possible miRNA-mRNA possible combinations, an ...
MicroRNAs, also called miRNAs, are a large family of non-coding RNAs of approximately 22 nucleotides (nt) in length, which act as post-transcriptional gene silencers via translational repression or degradation of targets mRNAs, and have an important role in metabolism and genesis of different genetic diseases, such as cancers. The miRNA target prediction problem is considered a difficult challenge in the molecular biology area. There are millions of possible miRNA-mRNA possible combinations, and to experimentally find the functional combinations takes a large quantity of effort, therefore time and investment. The scientific community is actively researching computational approaches to overcome this cost with Machine Learning and their predictive models to better understand the interactions between miRNA-mRNA, and how they influence metabolic and disease processes. The purpose of this work is to study the effect of combining performance and diversity measures in a Genetic Algorithm’s (GA) fitness function that learns the best combination of classifiers in an heterogeneous ensemble classifier in the miRNA-Target prediction problem. Through experimentation, we’ve concluded that the challenge presented by the unbalanced and relatively small available datasets overshadows the possible benefits that the diversity measure could bring to the GA fitness function. Although the ensemble optimization combining performance and diversity measures has achieved better solutions than performance-based optimization in some cases, on average, the former solution did not surpass the latter. This doesn’t allow us to conclude if the combination of performance and diversity measures results in better ensembles or not in our problem. ...
Resumo
MicroRNAs, também chamados de miRNAs, são uma grande família de RNAs nãocodificantes de aproximadamente 22 nucleotídeos (nt) de tamanho, que atuam como silenciadores pós-transcricionais de genes através da repressão da tradução ou degradação dos mRNAs alvos, e tem um papel importante no metabolismo e na criação de diferentes doenças genéticas, como cânceres. O problema da predição de alvos de miRNAs é considerado um difícil desafio na área de biologia molecular. Há milhões de possíveis combinaç ...
MicroRNAs, também chamados de miRNAs, são uma grande família de RNAs nãocodificantes de aproximadamente 22 nucleotídeos (nt) de tamanho, que atuam como silenciadores pós-transcricionais de genes através da repressão da tradução ou degradação dos mRNAs alvos, e tem um papel importante no metabolismo e na criação de diferentes doenças genéticas, como cânceres. O problema da predição de alvos de miRNAs é considerado um difícil desafio na área de biologia molecular. Há milhões de possíveis combinações entre miRNAs e mRNAs, e encontrar experimentalmente as combinações funcionais demanda um grande esforço, ou seja, tempo e investimento. A comunidade científica está ativamente pesquisando abordagens computacionais para superar esses custos com Machine Learning e seus modelos preditivos para melhor entender a interação entre miRNAs e mRNAs, e como eles influenciam nos processos metabólicos e de doenças. O propósito deste trabalho é estudar o efeito da combinação de medidas de performance e diversidade na função de fitness de um Algoritmo Genético (AG) que aprende a melhor combinação de classificadores em um classificador conjunto heterogêneo no problema da predição de alvos de miRNAs. Através de experimentação, nós concluímos que o desafio apresentado pelos datsets desbalanceados e relativamente pequenos obscurece os possíveis benefícios que a medida de diversidade pode trazer para a função de fitness do AG. Embora a otimização do ensemble combinando medidas de performance e diversidade tenha alcançado soluções melhores do que optimização baseada em performance em alguns casos, na média ela não supera. Isso não nos permite concluir se a combinação das medidas de performance e diversidade resulta ou não em conjuntos melhores no nosso problema. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1025)
Este item está licenciado na Creative Commons License