Comparação de estratégias computacionais para integração de dados ômicos na classificação de subtipos de tumores

Beretta, Gabriel Moreira

dc.contributor.advisor	Recamonde-Mendoza, Mariana	pt_BR
dc.contributor.author	Beretta, Gabriel Moreira	pt_BR
dc.date.accessioned	2023-06-23T03:33:08Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/259333	pt_BR
dc.description.abstract	Atualmente, o uso de Aprendizado de Máquina (AM) para auxílio ao diagnóstico de doen ças tem sido recorrente devido aos seus excelentes resultados. Essa técnica tem se tornado fundamental para se trabalhar com dados ômicos, de alta dimensionalidade e complexi dade, na elaboração de modelos clínicos preditivos. Na busca por modelos de alta sen sibilidade e precisão, múltiplos dados ômicos são utilizados em conjunto, havendo uma crescente necessidade em se explorar análises computacionais integrativas. Dessa forma, muitos métodos de integração para dados ômicos têm surgido e avaliá-los tem se trans formado em uma tarefa cada vez mais difícil. Neste trabalho, avaliamos as três principais estratégias de integração de dados ômicos: estratégia de estágio inicial, intermediário e final; bem como alguns algoritmos para integração de dados para estratégia de estágio in termediários. Para tal, utilizamos três algoritmos de AM para avaliar os resultados de cada uma das estratégias de integração de dados ômicos: (i) Árvores de Decisão; (ii) Florestas Aleatórias; (iii) Máquinas de Vetores de Suporte (SVM). Além disso, selecionamos dois algoritmos de integração de dados ômicos, o Neighborhood based Multi-Omics Cluste ring (NEMO) e o Cancer Integration via Multikernel Learning (CIMLR), para executar a integração dos dados na estratégia de estágios intermediários. Os resultados obtidos neste trabalho apontaram que a estratégia de estágio inicial, apesar de muito criticada, tem certa vantagem sobre as demais para os modelos testados. Entretanto, os resultados obtidos com as outras estratégias não são ruins, indicando que, devido aos testes realiza dos com modelos específicos, não é possível chegar a uma conclusão definitiva sobre qual estratégia é a melhor. Na estratégia de estágio intermediário, também reforçamos a ideia de que alguns modelos específicos de AM desempenham melhor que outros, pois pos suem certa dificuldade em utilizar suas transformações. Finalmente, apesar das diversas críticas existentes sobre a estratégia de estágio inicial (e.g., inconsistências nos dados, alta dimensionalidade), seus resultados foram os melhores dentre todas, reforçando a ideia de que ela não pode ser descartada como uma possibilidade. Além disso, reforça também que quando o objetivo é identificar padrões ou relacionamentos que abrangem várias ômi cas, a estratégia de estágio inicial é uma das mais úteis. Contudo, não podemos ignorar os benefícios das demais estratégias.	pt_BR
dc.description.abstract	Currently, the use of Machine Learning (ML) to aid in the diagnosis of diseases has been recurrent due to its excellent results. This technique has become fundamental for working with omic data, of high dimensionality and complexity, in the elaboration of predictive clinical models. In the search for models with high sensitivity and precision, multiple omic data are used together, with a growing need to explore integrative computational analysis. Thus, many integration methods for omic data have emerged and evaluating them has become an increasingly difficult task. In this work, we evaluate the three main omics data integration strategies: early integration, intermediate integration, and late inte gration strategies, as well as some data integration algorithms for intermediate integration strategies. To do so, we use three ML algorithms to evaluate the results of each of the omics data integration strategies: (i) Decision Trees; (ii) Random Forests; (iii) Support Vector Machines (SVM). In addition, we select two omics data integration algorithms, the Neighborhood-based Multi-Omics Clustering (NEMO) and the Cancer Integration via Multikernel Learning (CIMLR), to perform data integration in the intermediate integra tion strategy. The results obtained in this work showed that the early integration strategy, despite being heavily criticized, has some advantage over the others for the tested mod els. However, the results obtained with the other strategies are not bad, indicating that, due to the tests carried out with specific models, it is not possible to reach a definitive conclusion about which strategy is the best. In the intermediate integration strategy, we also reinforce the idea that some specific ML models perform better than others, as they have some difficulty in using their transformations. Finally, despite the various criticisms about the early integration strategy (e.g., inconsistencies in data, high dimensionality), its results were the best among all, reinforcing the idea that it cannot be discarded as a possibility. Furthermore, it also reinforces that when the goal is to identify patterns or relationships that span multiple omics, the early integration strategy is one of the most useful. However, we cannot ignore the benefits of the other strategies.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Multi-omics data	en
dc.subject	Dados ômicos	pt_BR
dc.subject	Data integration strategies	en
dc.subject	Bioinformática	pt_BR
dc.title	Comparação de estratégias computacionais para integração de dados ômicos na classificação de subtipos de tumores	pt_BR
dc.title.alternative	Comparison of computational strategies for integrating omic data in the classification of tumor subtypes	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001169449	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001169449.pdf
Tamanho:: 2.305Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (38551)

TCC Ciência da Computação (1082)

Mostrar registro simples