Assessing the applicability of graph neural networks for cancer staging using sample similarity networks

Cancer staging is a challenging classification task in which, given the samples’ charac teristics, the employed strategy needs to categorize them into typically one out of four stages. As more public biological data becomes available, such task starts receiving more attention from the scientific community, and questions like the integration and how to use these varied sources of information emerge. Because of the classification task’s com plexity, employing accurate machine learning models could significantly help in related clinical practices since the cancer stage information is crucial for adopting a successful patient’s treatment. In particular, deep learning strategies can be very useful as they have been successfully applied in a wide range of similarly difficult classification tasks. With that in mind, our study proposes to investigate the applicability of a data modeling ap proach based on sample similarity networks to deal with this multi-sourced information, shifting the problem’s representation to a node classification problem. The Graph Atten tion Network and Graph Convolutional Network algorithms are applied for classifying the samples and their performance is compared to a more traditional Multilayer Percep tron algorithm. Our main hypothesis, supported by similar studies, is that, by introducing something like the samples’ correlation as a measure of similarity, the ones with the same class will tend to be highly correlated and form a connection in the network, thus, help ing in the node classification task that typically assumes the neighborhood influences in a node’s characteristics. Additionally, with such problem representation, we can also achieve greater flexibility regarding the data modeling, allowing even semi-supervised learning techniques to be used. After analyzing the results, we observed no significant performance gains by using the network-based strategy compared to the Multilayer Per ceptron algorithm. ...

Resumo

O estadiamento tumoral é uma tarefa de classificação desafiante na qual, dadas as características das amostras, a estratégia empregada deve as categorizar em tipicamente um dos quatro estágios tumorais. À medida em que mais dados biológicos públicos se tornaram disponíveis, tal tarefa começou a receber mais atenção da comunidade científica, dando origem a questões como a integração e a forma de utilizar estas variadas fontes de informação. Devido à complexidade da tarefa de classificação, o emprego de modelos de aprendizado de máquina acurados tem a possibilidade de ajudar significativamente nas práticas clínicas relacionadas, uma vez que a informação do estágio tumoral é crucial para a adoção de um tratamento bem sucedido do paciente. Em particular, estratégias de aprendizado profundo podem ser muito úteis, visto que têm sido aplicadas com sucesso numa vasta gama de tarefas de classificação igualmente difíceis. Tendo isso em mente, o nosso estudo se propõe a investigar a aplicabilidade de uma abordagem de modelagem de dados baseada em redes de similaridade de amostras para lidar com esta informação de múltiplas fontes, deslocando a representação do problema para um problema de classificação de nós em um grafo. Os algoritmos Graph Attention Network e Graph Convolutional Network são aplicados para classificar as amostras e o seu desempenho é comparado com um algoritmo mais tradicional, o Multilayer Perceptron. A nossa hipótese principal, apoiada por estudos semelhantes, é que, ao introduzir algo como a correlação das amostras como me dida de similaridade, aquelas de mesma classe tenderão a estar altamente correlacionadas e a formar uma conexão na rede, auxiliando, assim, na tarefa de classificação de nós que tipicamente assume que a vizinhança influencia nas características de um nó. Além disso, com tal representação de problema, é possível também alcançar uma maior flexibilidade no que diz respeito à modelagem dos dados, permitindo inclusive a utilização de técni cas de aprendizado semi-supervisionado. Após a análise dos resultados, não observamos quaisquer ganhos significativos de desempenho ao utilizar a estratégia baseada em redes se comparada com o algoritmo tradicional Multilayer Perceptron. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (38795)

TCC Ciência da Computação (1087)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License