A study on graph neural networks for classification tasks and model interpretability on genomic datasets

Melo, Lucas Lima de

dc.contributor.advisor	Recamonde-Mendoza, Mariana	pt_BR
dc.contributor.author	Melo, Lucas Lima de	pt_BR
dc.date.accessioned	2024-03-22T05:06:40Z	pt_BR
dc.date.issued	2024	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/274066	pt_BR
dc.description.abstract	Recently, a few works have started proposing the use of graph neural networks (GNNs) to embed knowledge of gene interactions in machine learning models and thus produce more robust classifiers for genomic classification tasks. GNNs, however, produce em beddings for each gene in the biological network, and these embeddings must then be summarized into a single representation that can be used to produce a classification for the entire network - a process commonly referred to as pooling. Although previous works have achieved encouraging results, there is a lack of studies that aim to understand the effects of the choice of GNN architecture, biological network, and, in particular, the pool ing approach. Therefore, this work aims to explore the impact that these alternatives have on the performance and interpretability of the resulting models. Our findings highlight SAGPool’s superior predictive power and GraphSAGE’s robustness across most pooling methods. We also showed that a preprocessing technique could offer enhanced perfor mance for certain pooling methods, providing favorable trade-offs in predictive perfor mance and computational resources. Despite challenges in identifying biomarker genes through saliency maps, we were able to identify genes like ADAM33 and DNASE1L3 that correlate with breast cancer. We conclude that the choice of the right architecture significantly impacts model performance and resource utilization, underscoring its im portance in GNNs studies.	en
dc.description.abstract	Recentemente, alguns trabalhos começaram a propor o uso de redes neurais de grafo (GNNs) para incorporar o conhecimento das interações genéticas nos modelos de aprendizado de máquina e, assim, produzir classificadores mais robustos para tarefas de classificação genômica. No entanto, as GNNs produzem embeddings para cada gene na rede biológica, e esses embeddings devem então ser resumidas em uma única representação que possa ser usada para produzir uma classificação para toda a rede - um processo comumente referido como pooling. Embora trabalhos anteriores tenham alcançado resultados encorajadores, há uma falta de estudos que visem entender os efeitos da escolha da arquitetura da GNN, da rede biológica e, em particular, da abordagem de pooling. Portanto, este trabalho tem como objetivo explorar o impacto que essas alternativas têm no desempenho e na interpretabilidade dos modelos resultantes. Nossos resultados destacam o poder preditivo superior do SAGPool e a robustez do GraphSAGE em relação à maioria dos métodos de pooling. Também demonstramos que uma técnica de pré-processamento pode oferecer um melhor desempenho para certos métodos de pooling, proporcionando compensações favoráveis em poder preditivo e recursos computacionais. Apesar dos de safios em identificar genes marcadores através de mapas de saliência, fomos capazes de identificar genes como ADAM33 e DNASE1L3 que se correlacionam com o câncer de mama. Concluímos que a escolha da arquitetura correta impacta significativamente o de sempenho do modelo e a utilização de recursos, destacando sua importância em estudos de GNNs.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Redes neurais de grafo	pt_BR
dc.subject	Graph neural networks	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Pooling	en
dc.subject	Interpretability	en
dc.subject	Genoma	pt_BR
dc.subject	Genomics	en
dc.title	A study on graph neural networks for classification tasks and model interpretability on genomic datasets	pt_BR
dc.title.alternative	Um estudo sobre redes neurais em grafos para tarefas de classificação e interpretabilidade de modelos em conjuntos de dados genômicos	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Fontanari, Thomas Vaitses	pt_BR
dc.identifier.nrb	001197948	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2024	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001197948.pdf
Tamanho:: 1.092Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (40205)

TCC Ciência da Computação (1127)

Mostrar registro simples