A study on graph neural networks for classification tasks and model interpretability on genomic datasets
Fecha
2024Autor
Co-director
Nivel académico
Grado
Tipo
Otro título
Um estudo sobre redes neurais em grafos para tarefas de classificação e interpretabilidade de modelos em conjuntos de dados genômicos
Materia
Abstract
Recently, a few works have started proposing the use of graph neural networks (GNNs) to embed knowledge of gene interactions in machine learning models and thus produce more robust classifiers for genomic classification tasks. GNNs, however, produce em beddings for each gene in the biological network, and these embeddings must then be summarized into a single representation that can be used to produce a classification for the entire network - a process commonly referred to as pooling. Although ...
Recently, a few works have started proposing the use of graph neural networks (GNNs) to embed knowledge of gene interactions in machine learning models and thus produce more robust classifiers for genomic classification tasks. GNNs, however, produce em beddings for each gene in the biological network, and these embeddings must then be summarized into a single representation that can be used to produce a classification for the entire network - a process commonly referred to as pooling. Although previous works have achieved encouraging results, there is a lack of studies that aim to understand the effects of the choice of GNN architecture, biological network, and, in particular, the pool ing approach. Therefore, this work aims to explore the impact that these alternatives have on the performance and interpretability of the resulting models. Our findings highlight SAGPool’s superior predictive power and GraphSAGE’s robustness across most pooling methods. We also showed that a preprocessing technique could offer enhanced perfor mance for certain pooling methods, providing favorable trade-offs in predictive perfor mance and computational resources. Despite challenges in identifying biomarker genes through saliency maps, we were able to identify genes like ADAM33 and DNASE1L3 that correlate with breast cancer. We conclude that the choice of the right architecture significantly impacts model performance and resource utilization, underscoring its im portance in GNNs studies. ...
Resumo
Recentemente, alguns trabalhos começaram a propor o uso de redes neurais de grafo (GNNs) para incorporar o conhecimento das interações genéticas nos modelos de aprendizado de máquina e, assim, produzir classificadores mais robustos para tarefas de classificação genômica. No entanto, as GNNs produzem embeddings para cada gene na rede biológica, e esses embeddings devem então ser resumidas em uma única representação que possa ser usada para produzir uma classificação para toda a rede - um process ...
Recentemente, alguns trabalhos começaram a propor o uso de redes neurais de grafo (GNNs) para incorporar o conhecimento das interações genéticas nos modelos de aprendizado de máquina e, assim, produzir classificadores mais robustos para tarefas de classificação genômica. No entanto, as GNNs produzem embeddings para cada gene na rede biológica, e esses embeddings devem então ser resumidas em uma única representação que possa ser usada para produzir uma classificação para toda a rede - um processo comumente referido como pooling. Embora trabalhos anteriores tenham alcançado resultados encorajadores, há uma falta de estudos que visem entender os efeitos da escolha da arquitetura da GNN, da rede biológica e, em particular, da abordagem de pooling. Portanto, este trabalho tem como objetivo explorar o impacto que essas alternativas têm no desempenho e na interpretabilidade dos modelos resultantes. Nossos resultados destacam o poder preditivo superior do SAGPool e a robustez do GraphSAGE em relação à maioria dos métodos de pooling. Também demonstramos que uma técnica de pré-processamento pode oferecer um melhor desempenho para certos métodos de pooling, proporcionando compensações favoráveis em poder preditivo e recursos computacionais. Apesar dos de safios em identificar genes marcadores através de mapas de saliência, fomos capazes de identificar genes como ADAM33 e DNASE1L3 que se correlacionam com o câncer de mama. Concluímos que a escolha da arquitetura correta impacta significativamente o de sempenho do modelo e a utilização de recursos, destacando sua importância em estudos de GNNs. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Colecciones
-
Tesinas de Curso de Grado (38354)
Este ítem está licenciado en la Creative Commons License
