Investigating pooling in graph neural networks for cancer genomics classification and the generalizability of pan-cancer models to cancer-specific predictions
dc.contributor.advisor | Recamonde-Mendoza, Mariana | pt_BR |
dc.contributor.author | Fontanari, Thomas Vaitses | pt_BR |
dc.date.accessioned | 2024-02-17T04:55:25Z | pt_BR |
dc.date.issued | 2023 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/272037 | pt_BR |
dc.description.abstract | New sequencing technologies have lead to a massive generation of gene expression data, enabling the analysis and modeling of the genomic aspects of critical diseases, such as cancers. In this context, machine learning (ML) models are of fundamental importance, as they can help physicians in clinical settings and also in the identification of biologi cal markers than can lead to the discovery of new therapies. However, it is difficult to model gene expression data due to the general lack of samples of rarer diseases. This has prompted the proposal of various ML models that can work with genomic data and, in particular, to model cancer samples. Among these, different neural network architec tures have been developed, and a few recent works have proposed the use of graph neural networks (GNNs) to embed prior biological knowledge into the models. In general, how ever, these works have not presented any exploration of the pooling operation, which is a significant aspect of graph-level classification with GNNs. Therefore, a major part of this dissertation is devoted to analyzing how pooling and clustering an input biological network impacts the performance of the GNNs in the context of cancer genomics classi fication tasks. Among our results, we found that multiple coarsening levels of the graph has a general negative impact in the performance, but that this can be partially circum vented when weighted pooling and graph convolutions are used. We also show that these models lead to significant genes when they are interpreted using gradient-based methods, many of which have been previously studied in the context of cancers and cancer ther apies. Furthermore, we also interpreted the models at the coarser levels of the graphs generated through the pooling operations, and found that the related clusters of genes were often over-represented in biological processes associated with cancer. As a byprod uct of our experiments, we observed that the pan-cancer models achieved a high perfor mance in comparison with cancer-specific ones. Because of that, we also explored in this work how the introduction of samples from different cohorts could improve the results on cohort-specific tasks, focusing only on traditional neural networks, as baseline in this domain. Our results indicated that the use of out-of-cohort samples reduces the variance of the cohort-specific models, improving their performance, and is most beneficial when the dataset is small and class-imbalanced. Finally, we also show that it is possible to have good performance on cohort-specific tasks on cohorts that were not seeing during training. | en |
dc.description.abstract | Novas tecnologias de sequenciamento levaram à geração massiva de dados de expressão gênica, possibilitando a análise e modelagem dos aspectos genômicos de doenças críticas, como o câncer. Nesse contexto, modelos de aprendizado de máquina (AM) são de fundamental importância, pois podem auxiliar médicos em ambientes clínicos e também na identificação de marcadores biológicos que podem levar à descoberta de novas terapias. No entanto, a alta dimensionalidade e não-linearidade desses dados, aliada à baixa disponibilidade de exemplos, especialmente para tipos mais raros de cânceres, dificulta a sua análise. Esses fatores levaram a propostas de vários modelos de AM que poderiam trabalhar com dados de genômicos de câncer. Dentre esses, diferentes arquiteturas de re des neurais foram desenvolvidas, e alguns trabalhos recentes propuseram o uso de redes neurais de grafo (GNN) para incorporar redes biológicas prévias aos modelos. De forma geral, no entanto, esses trabalhos não exploraram de maneira mais aprofundada a etapa de pooling, fundamental na classificação no nível do grafo quando são usadas as GNNs. Assim, uma parte importante dessa dissertação é dedicada a analisar como o pooling, ba seado no agrupamento hierárquico dos nodos da rede biológica de entrada, impacta no desempenho das GNNs nas tarefas de classificação com dados genômicos de câncer. Entre nossos resultados, descobrimos que múltiplos níveis de agrupamento do grafo têm um impacto geral negativo no desempenho, mas que isso pode ser parcialmente contornado quando o pooling com pesos e as convoluções de grafo são usadas. Mostramos também que esses modelos levam a genes significativos quando são interpretados usando métodos baseados em gradientes, muitos dos quais foram estudados anteriormente no contexto de cânceres e terapias contra o câncer. Além disso, interpretamos os modelos nos níveis de menor resolução dos grafos, gerados por meio das operações de agrupamento, e desco brimos que os supernodos, relacionados aos agrupamentos de genes no grafo de entrada, estão frequentemente super-representados em processos biológicos associados a câncer. Como subproduto de nossos experimentos, observamos que os modelos pan-câncer alcançaram alto desempenho em comparação com os específicos para o câncer. Por causa disso, também exploramos neste trabalho como a inclusão de amostras de diferentes tipos de cânceres poderia melhorar os resultados em tarefas de classificação para grupos específicos, focando apenas nas redes neurais tradicionais. Nossos resultados indicaram que a inclusão de amostras de outros tipos de cäncer reduz a variância dos modelos, melhorando seu desempenho, e é mais benéfica quando o conjunto de dados é pequeno e desequilibrado. Finalmente, também mostramos que é possível obter um bom desempenho em tarefas com dados de tipos de câncer que não foram observados no treinamento. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Open Access | en |
dc.subject | Genômica do câncer | pt_BR |
dc.subject | Cancer genomics | en |
dc.subject | GNN | en |
dc.subject | Redes neurais | pt_BR |
dc.subject | Aprendizado de máquina | pt_BR |
dc.subject | Pooling | en |
dc.subject | Interpretabiliy | en |
dc.subject | Few-shot learning | en |
dc.title | Investigating pooling in graph neural networks for cancer genomics classification and the generalizability of pan-cancer models to cancer-specific predictions | pt_BR |
dc.title.alternative | Pooling em redes neurais em grafos para classificação em genônimca do câncer e generalização de modelos pan-cancer para tipos específicos | pt |
dc.type | Dissertação | pt_BR |
dc.identifier.nrb | 001196150 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2023 | pt_BR |
dc.degree.level | mestrado | pt_BR |
Files in this item
This item is licensed under a Creative Commons License
-
Exact and Earth Sciences (5129)Computation (1764)