Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model

Identifying cancer driver genes (CDGs) is crucial for improving the understanding of cancer biology and developing effective diagnostic and treatment strategies. However, accurately identifying CDGs from a vast array of somatic mutations remains a challenge despite the substantial amount of genomic data available. Recent developments in graph based machine learning (ML) methods, such as Graph Neural Networks (GNNs), have made them powerful tools for analyzing protein-protein interaction (PPI) networks and performing predictions at the node level of biological networks. However, the use of GNNs for identifying candidate CDGs is still underexplored. This study aims to explore the predictive power of GNNs and develop a practical approach for predicting CDGs by integrating PPI networks and multi-omics data across several cancer types. We investigate data-centric and algorithmic decisions involved in model training to understand the poten tial of GNNs for this prediction task and to identify a robust methodology for classifying genes as cancer-causing or neutral in 16 types of cancer. Three primary decision levels are addressed: (i) node feature definition, (ii) class imbalance mitigation, and (iii) choice of the learning algorithm. We extensively analyze different GNN models trained through a semi-supervised approach, using six different PPI networks and four types of omics data: single nucleotide variant, copy number variation, DNA methylation, and gene expression. These models are contrasted with the performance achieved by traditional ML algorithms using regular structured data for model development. Following the experimental com parative analysis, we explore ensemble learning strategies and hyperparameter tuning to improve the predictive power of the top-performing model. Our results demonstrate that GNNs outperform traditional ML approaches in predicting CDGs, and that adding node centrality measures as node features improves learning outcomes even for graph-based learning methods. We also highlight the significant contribution of ensemble learning methodologies in improving performance metrics by aggregating predictions of models trained on multiple PPI networks. Finally, using the proposed approach, we provide pre dictions for unlabeled genes regarding their potential role as CDGs. Overall, this study provides relevant insights into using GNNs to predict CDGs and highlights Graph Con volutional Networks as an effective algorithm for this task. ...

Abstract in Portuguese (Brasil)

Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa. ...

Institution

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.

Collections

Exact and Earth Sciences (5129)

Computation (1764)

Other options

Show all item metadata

Statistics

This item is licensed under a Creative Commons License