Evaluating data imbalance approaches for classifying semantic relations using machine learning and word embeddings

Domingues, Gabriel Couto

dc.contributor.advisor	Carbonera, Joel Luis	pt_BR
dc.contributor.author	Domingues, Gabriel Couto	pt_BR
dc.date.accessioned	2023-11-25T03:26:22Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/267624	pt_BR
dc.description.abstract	Explicit knowledge models are artifacts that represent domain knowledge in an explicit way and can be used in different ways, including structuring data, supporting information retrieval and reasoning. The identification and classification of semantic relationships between concepts is a critical task in the development of knowledge models. This work investigates the use of machine learning approaches and pre-trained static word embeddings to classify semantic relationships between concepts, evaluating different techniques to deal with the challenges imposed by data imbalance in this context. We proposed a methodology for building datasets for the task of semantic relationship classification from word embeddings using WordNet as a semantic reference. By applying the proposed methodology, we generated two different datasets, with two variations, for the target task. Finally, we evaluated a set of general approaches for dealing with data imbalance in classification tasks. Our results indicated that while some strategies like SMOTE showed promise in specific metrics, the baseline model consistently achieved superior performance in terms of F1 score.	pt_BR
dc.description.abstract	Modelos de conhecimento explícito são artefatos que representam conhecimento de domí- nio de forma explícita e podem ser usados de diferentes maneiras, incluindo estruturação de dados e suporte à recuperação de informações e raciocínio. A identificação e classificação das relações semânticas entre conceitos é uma tarefa crítica no desenvolvimento de modelos de conhecimento. Este trabalho investiga o uso de abordagens de aprendizado de máquina e word embeddings estáticos pré-treinados para classificar relações semânticas entre conceitos, avaliando diferentes técnicas para lidar com os desafios impostos por dados desbalanceados neste contexto. Propomos uma metodologia para construir conjuntos de dados para a tarefa de classificação de relações semânticas a partir de word embeddings usando o WordNet como referência semântica. Ao aplicar a metodologia proposta, geramos dois conjuntos de dados diferentes, com duas variações, para a tarefa de classificação. Por fim, avaliamos um conjunto de abordagens gerais para lidar com desbalanceamento de dados em tarefas de classificação. Nossos resultados indicaram que, enquanto algumas estratégias, como o SMOTE, mostraram promessa em métricas específicas, o modelo base demonstrou consistentemente um desempenho superior em termos de F1 score.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Word Embeddings	en
dc.subject	Redes neurais	pt_BR
dc.subject	Supervised Learning	en
dc.subject	Semântica computacional	pt_BR
dc.subject	Ontologies	en
dc.subject	Knowledge Graphs	en
dc.subject	WordNet	en
dc.title	Evaluating data imbalance approaches for classifying semantic relations using machine learning and word embeddings	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Lopes Junior, Alcides Gonçalves	pt_BR
dc.identifier.nrb	001187681	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001187681.pdf
Tamanho:: 7.029Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (37618)

TCC Ciência da Computação (1025)

Mostrar registro simples