Comparação de estratégias computacionais para integração de dados ômicos na classificação de subtipos de tumores

Atualmente, o uso de Aprendizado de Máquina (AM) para auxílio ao diagnóstico de doen ças tem sido recorrente devido aos seus excelentes resultados. Essa técnica tem se tornado fundamental para se trabalhar com dados ômicos, de alta dimensionalidade e complexi dade, na elaboração de modelos clínicos preditivos. Na busca por modelos de alta sen sibilidade e precisão, múltiplos dados ômicos são utilizados em conjunto, havendo uma crescente necessidade em se explorar análises computacionais integrativas. Dessa forma, muitos métodos de integração para dados ômicos têm surgido e avaliá-los tem se trans formado em uma tarefa cada vez mais difícil. Neste trabalho, avaliamos as três principais estratégias de integração de dados ômicos: estratégia de estágio inicial, intermediário e final; bem como alguns algoritmos para integração de dados para estratégia de estágio in termediários. Para tal, utilizamos três algoritmos de AM para avaliar os resultados de cada uma das estratégias de integração de dados ômicos: (i) Árvores de Decisão; (ii) Florestas Aleatórias; (iii) Máquinas de Vetores de Suporte (SVM). Além disso, selecionamos dois algoritmos de integração de dados ômicos, o Neighborhood based Multi-Omics Cluste ring (NEMO) e o Cancer Integration via Multikernel Learning (CIMLR), para executar a integração dos dados na estratégia de estágios intermediários. Os resultados obtidos neste trabalho apontaram que a estratégia de estágio inicial, apesar de muito criticada, tem certa vantagem sobre as demais para os modelos testados. Entretanto, os resultados obtidos com as outras estratégias não são ruins, indicando que, devido aos testes realiza dos com modelos específicos, não é possível chegar a uma conclusão definitiva sobre qual estratégia é a melhor. Na estratégia de estágio intermediário, também reforçamos a ideia de que alguns modelos específicos de AM desempenham melhor que outros, pois pos suem certa dificuldade em utilizar suas transformações. Finalmente, apesar das diversas críticas existentes sobre a estratégia de estágio inicial (e.g., inconsistências nos dados, alta dimensionalidade), seus resultados foram os melhores dentre todas, reforçando a ideia de que ela não pode ser descartada como uma possibilidade. Além disso, reforça também que quando o objetivo é identificar padrões ou relacionamentos que abrangem várias ômi cas, a estratégia de estágio inicial é uma das mais úteis. Contudo, não podemos ignorar os benefícios das demais estratégias. ...

Abstract

Currently, the use of Machine Learning (ML) to aid in the diagnosis of diseases has been recurrent due to its excellent results. This technique has become fundamental for working with omic data, of high dimensionality and complexity, in the elaboration of predictive clinical models. In the search for models with high sensitivity and precision, multiple omic data are used together, with a growing need to explore integrative computational analysis. Thus, many integration methods for omic data have emerged and evaluating them has become an increasingly difficult task. In this work, we evaluate the three main omics data integration strategies: early integration, intermediate integration, and late inte gration strategies, as well as some data integration algorithms for intermediate integration strategies. To do so, we use three ML algorithms to evaluate the results of each of the omics data integration strategies: (i) Decision Trees; (ii) Random Forests; (iii) Support Vector Machines (SVM). In addition, we select two omics data integration algorithms, the Neighborhood-based Multi-Omics Clustering (NEMO) and the Cancer Integration via Multikernel Learning (CIMLR), to perform data integration in the intermediate integra tion strategy. The results obtained in this work showed that the early integration strategy, despite being heavily criticized, has some advantage over the others for the tested mod els. However, the results obtained with the other strategies are not bad, indicating that, due to the tests carried out with specific models, it is not possible to reach a definitive conclusion about which strategy is the best. In the intermediate integration strategy, we also reinforce the idea that some specific ML models perform better than others, as they have some difficulty in using their transformations. Finally, despite the various criticisms about the early integration strategy (e.g., inconsistencies in data, high dimensionality), its results were the best among all, reinforcing the idea that it cannot be discarded as a possibility. Furthermore, it also reinforces that when the goal is to identify patterns or relationships that span multiple omics, the early integration strategy is one of the most useful. However, we cannot ignore the benefits of the other strategies. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (38739)

TCC Ciência da Computação (1087)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License