Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection

Silva, Nicolas Eymael da

dc.contributor.advisor	Barone, Dante Augusto Couto	pt_BR
dc.contributor.author	Silva, Nicolas Eymael da	pt_BR
dc.date.accessioned	2021-07-31T04:40:27Z	pt_BR
dc.date.issued	2021	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/224833	pt_BR
dc.description.abstract	Information Extraction is an essential process for automatically building a Knowledge Graph, a type of knowledge base that represents knowledge through semantic connections and has been gaining focus in recent years. Two tasks required during this construction are Named Entity Recognition (NER), responsible for identifying and classifying the en tities in the text, and Relation Extraction (RE), responsible for identifying and classifying the relations between these entities. These two tasks combined will generate the tuples that form the Knowledge Graph. Although there are already works that deal with these two tasks, many of them are focused on the English language and few on Portuguese. The goal of this work was the development of machine learning models capable of extracting entities and relations from texts in Portuguese. The first model was used to extract entities through the Simple Transformers library, while the second model was used to determine the relations between entities through the Kindred library. Both models were trained and evaluated using a simplified version of the Second HAREM Golden Collection dataset, a golden standard for NLP in Portuguese. After evaluating the models, it was observed that the results obtained in the NER task were good for the main classes present in the dataset, however, the results of the RE task did not meet expectations and the metrics were lower compared to the related works. Finally, it would be interesting to develop new models for the RE task using the spaCy or Transformers libraries, alternatives that are more complex than Kindred, but more effective.	en
dc.description.abstract	A Extração de Informações é um processo essencial para construir um Grafo de Conheci mento de forma automatizada, um tipo de base de conhecimento que representa o conhe cimento através de conexões semânticas e que vem ganhando foco nos últimos anos. Duas tarefas necessárias durante essa construção são o Reconhecimento de Entidades Nomea das (REN), responsável por identificar e classificar as entidades do texto, e a Extração de Relações (ER), responsável por identificar e classificar as relações entre essas entidades. Essas duas tarefas combinadas irão gerar as tuplas que formam o Grafo de Conhecimento. Apesar de já existirem trabalhos que tratam dessas duas tarefas, muitos deles são voltados para a língua inglesa e poucos para o português. O objetivo deste trabalho foi o desenvol vimento de modelos de aprendizado de máquina capazes de extrair entidades e relações de textos em português. O primeiro modelo foi utilizado para a extração das entidades por meio da biblioteca Simple Transformers, enquanto que o segundo modelo foi utilizado para determinar as relações entre as entidades através da biblioteca Kindred. Ambos os modelos foram treinados e avaliados utilizando uma versão simplificada do conjunto de dados do Segundo HAREM, um padrão de ouro para o Processamento de Linguagem Na tural em português. Após a avaliação dos modelos, observou-se que os resultados obtidos na tarefa de REN foram bons para as principais classes presentes no conjunto de dados, no entanto os resultados da tarefa de ER não atenderam às expectativas e as métricas foram inferiores se comparadas aos trabalhos relacionados. Por fim, seria interessante desenvol ver novos modelos para a tarefa de ER utilizando as bibliotecas spaCy ou Transformers, alternativas que são mais complexas do que o Kindred, porém mais eficazes.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Named Entity Recognition	en
dc.subject	Aprendizado : máquina	pt_BR
dc.subject	Grafos de conhecimento	pt_BR
dc.subject	Relation Extraction	en
dc.subject	HAREM	en
dc.subject	Knowledge Graph	en
dc.title	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection	pt_BR
dc.title.alternative	Extração de entidades e relações em português a partir da Coleção Dourada do Segundo HAREM	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Côrtes, Eduardo Gabriel	pt_BR
dc.identifier.nrb	001129035	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2021	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001129035.pdf
Tamanho:: 1.161Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (37361)

TCC Ciência da Computação (1024)

Mostrar registro simples