Show simple item record

dc.contributor.advisorRecamonde-Mendoza, Marianapt_BR
dc.contributor.authorBeretta, Gabriel Moreirapt_BR
dc.date.accessioned2023-06-23T03:33:08Zpt_BR
dc.date.issued2023pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/259333pt_BR
dc.description.abstractAtualmente, o uso de Aprendizado de Máquina (AM) para auxílio ao diagnóstico de doen ças tem sido recorrente devido aos seus excelentes resultados. Essa técnica tem se tornado fundamental para se trabalhar com dados ômicos, de alta dimensionalidade e complexi dade, na elaboração de modelos clínicos preditivos. Na busca por modelos de alta sen sibilidade e precisão, múltiplos dados ômicos são utilizados em conjunto, havendo uma crescente necessidade em se explorar análises computacionais integrativas. Dessa forma, muitos métodos de integração para dados ômicos têm surgido e avaliá-los tem se trans formado em uma tarefa cada vez mais difícil. Neste trabalho, avaliamos as três principais estratégias de integração de dados ômicos: estratégia de estágio inicial, intermediário e final; bem como alguns algoritmos para integração de dados para estratégia de estágio in termediários. Para tal, utilizamos três algoritmos de AM para avaliar os resultados de cada uma das estratégias de integração de dados ômicos: (i) Árvores de Decisão; (ii) Florestas Aleatórias; (iii) Máquinas de Vetores de Suporte (SVM). Além disso, selecionamos dois algoritmos de integração de dados ômicos, o Neighborhood based Multi-Omics Cluste ring (NEMO) e o Cancer Integration via Multikernel Learning (CIMLR), para executar a integração dos dados na estratégia de estágios intermediários. Os resultados obtidos neste trabalho apontaram que a estratégia de estágio inicial, apesar de muito criticada, tem certa vantagem sobre as demais para os modelos testados. Entretanto, os resultados obtidos com as outras estratégias não são ruins, indicando que, devido aos testes realiza dos com modelos específicos, não é possível chegar a uma conclusão definitiva sobre qual estratégia é a melhor. Na estratégia de estágio intermediário, também reforçamos a ideia de que alguns modelos específicos de AM desempenham melhor que outros, pois pos suem certa dificuldade em utilizar suas transformações. Finalmente, apesar das diversas críticas existentes sobre a estratégia de estágio inicial (e.g., inconsistências nos dados, alta dimensionalidade), seus resultados foram os melhores dentre todas, reforçando a ideia de que ela não pode ser descartada como uma possibilidade. Além disso, reforça também que quando o objetivo é identificar padrões ou relacionamentos que abrangem várias ômi cas, a estratégia de estágio inicial é uma das mais úteis. Contudo, não podemos ignorar os benefícios das demais estratégias.pt_BR
dc.description.abstractCurrently, the use of Machine Learning (ML) to aid in the diagnosis of diseases has been recurrent due to its excellent results. This technique has become fundamental for working with omic data, of high dimensionality and complexity, in the elaboration of predictive clinical models. In the search for models with high sensitivity and precision, multiple omic data are used together, with a growing need to explore integrative computational analysis. Thus, many integration methods for omic data have emerged and evaluating them has become an increasingly difficult task. In this work, we evaluate the three main omics data integration strategies: early integration, intermediate integration, and late inte gration strategies, as well as some data integration algorithms for intermediate integration strategies. To do so, we use three ML algorithms to evaluate the results of each of the omics data integration strategies: (i) Decision Trees; (ii) Random Forests; (iii) Support Vector Machines (SVM). In addition, we select two omics data integration algorithms, the Neighborhood-based Multi-Omics Clustering (NEMO) and the Cancer Integration via Multikernel Learning (CIMLR), to perform data integration in the intermediate integra tion strategy. The results obtained in this work showed that the early integration strategy, despite being heavily criticized, has some advantage over the others for the tested mod els. However, the results obtained with the other strategies are not bad, indicating that, due to the tests carried out with specific models, it is not possible to reach a definitive conclusion about which strategy is the best. In the intermediate integration strategy, we also reinforce the idea that some specific ML models perform better than others, as they have some difficulty in using their transformations. Finally, despite the various criticisms about the early integration strategy (e.g., inconsistencies in data, high dimensionality), its results were the best among all, reinforcing the idea that it cannot be discarded as a possibility. Furthermore, it also reinforces that when the goal is to identify patterns or relationships that span multiple omics, the early integration strategy is one of the most useful. However, we cannot ignore the benefits of the other strategies.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectAprendizado de máquinapt_BR
dc.subjectMulti-omics dataen
dc.subjectDados ômicospt_BR
dc.subjectData integration strategiesen
dc.subjectBioinformáticapt_BR
dc.titleComparação de estratégias computacionais para integração de dados ômicos na classificação de subtipos de tumorespt_BR
dc.title.alternativeComparison of computational strategies for integrating omic data in the classification of tumor subtypes en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001169449pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2023pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record