Graph representation learning for images

While a plurality of developments in AI still focus largely on Convolutional Neural Networks and Transformers, there has been frequent calls in the community towards building models with symbolic and relational processing capabilities. In our study we first reframe image classification as graph classification and then we attempt to realign the graph-based image classification back into the main image classification literature through the use of attentional models. To use graph-based attention models for image classification we first use a superpixel algorithm to segment images, which we then use to build a graph whose nodes’ information is based on the superpixel positions and average colours, and whose edges are based on the superpixel adjacencies, forming a Superpixel Image Classification (SIC) instance, to which then Graph Neural Networks can be applied for classification, for which we use a Graph Attention Network (GAT). Our Superpixel Image Classification with Graph Attention Networks (SICGAT) model was tested in several common image-based benchmarks and achieved a higher classification accuracy than the baselines available at the time, even though we restricted our model to have access to less information and, thus, a harder problem. This was done by both reducing the number of superpixels available to the model as well as by using the superpixel adjacencies, which provides less edges per node than previous bechmarks, which both reduces information and constrains information flow within the model. We then propose a novel framework – SuperPixel Transformer (SPT) – which generalises both our SICGAT model and the Vision Transformer (ViT) model, and allows us to keep the full superpixel information while still working with superpixel graphs. Our results show that using superpixel patches in our SPT framework is comparable to using regular square grid patches normally used in ViTs, and that different connectivity patterns than the fully connected one used in the ViT might actually improve results from using squaregrid-based superpixels. We conclude by providing discussion on possible future applications of our work as well as some directions for future improvements, some of which have already been explored in the mainstream ViT literature, but might not have been explored in the SIC literature. ...

Resumo

Com uma variedade de desenvolvimentos em IA ainda focando em Redes Neurais Convolucionais e Transformers, existem vozes persistentes na comunidade para que se construam modelos com capacidades relacionais e simbólicas. Neste estudo primeiramente repensamos classificação de imagens como classificação de grafos para então tentarmos realinhar classificação de imagens baseadas em grafos de volta com a literatura de classificação de imagens através do uso de models com atenção. A fim de utilizar modelos com atenção baseados em grafos para classificação de imagens, primeiramente utilizamos um algoritmo de superpixel para segmentar a imagem, que é transformada em um grafo onde a informação de cada nodo contém a média das posições e cores de cada superpixel, e cujas arestas são baseadas na adjacência entre cada par de superpixel, formando uma instância de Superpixel Image Classification (SIC), na qual então uma rede grafo-neural pode ser aplicada para realizar a classificação, dentre as quais escolhemos a rede grafo-atencional – Graph Attention Network (GAT). Nosso modelo Superpixel Image Classification with Graph Attention Networks (SICGAT) foi testado em vários benchmarks de imagens comuns, onde conseguiu uma acurácia de classificação maior que baselines disponíveis na época, a despeito do fato de que restringimos a informação disponível para o nosso modelo e, portanto, resolvemos um problema mais difícil. Isto foi feito tanto reduzindo o número de superpixels disponíveis para o modelo quanto usando as adjacências entre os superpixels para construir o grafo, o que produz menos arestas por nodos que benchmarks anteriores, assim não só reduzindo a informação disponível para o modelo quanto restringindo o fluxo de informação dentro do modelo. Então, propomos uma nova framework – SuperPixel Transformer (SPT) – que generalisa tanto o nosso modelo SICGAT quanto Vision Transformers (ViT), e permite que mantenhamos toda a informação disponível em um superpixel enquanto o modelo ainda usa grafos de superpixels. Nossos resultados mostram que usar fragmentos baseados em superpixel tem performance comparável com quando se utiliza fragmentos quadrados regulares, comummente utilizados nos ViTs. Também mostramos que padrões de conectividade além de fragmentos completament conectados, também comummente utilizados nos ViTs, podem melhorar os resultados quando comparados quando utilizados até com superpixels de fragmentos quadrados regulares.Por fim, concluimos a tese discutindo possíveis usos do nosso trabalho assim como dire- ções para melhorias e trabalhos futuros, algumas das quais já foram exploradas na literatura de ViTs convencionais, mas talvez não foram ainda exploradas na literatura de SIC. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.

Coleções

Ciências Exatas e da Terra (5411)

Computação (1842)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License