Automated concatenation of embeddings for named-entity recognition in Portuguese

Azeredo, Julio Cesar de

dc.contributor.advisor	Moreira, Viviane Pereira	pt_BR
dc.contributor.author	Azeredo, Julio Cesar de	pt_BR
dc.date.accessioned	2022-09-02T05:00:05Z	pt_BR
dc.date.issued	2021	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/248469	pt_BR
dc.description.abstract	Nearly 80% of all potentially usable business information exists in unstructured form, primarily as text and images. Techniques such as named-entity recognition (NER) can provide a way to extract structured information from plain text. In general terms, NER aims to recognize information entities that refer to real-world objects, called named en tities. Many applications use NER, but most studies have been done in English. In this work, we propose the use of automated concatenation of embeddings (ACE) approach for the Portuguese NER task. Given a set of candidate word embeddings, ACE is trained to find the best concatenation of embeddings to use for structured prediction. In addition, we propose the use of BERTimbau, a state-of-the-art Portuguese language model, as a can didate embedding. The results of the work show that our approach can outperform some previous works. However, it cannot achieve better results than the current state-of-the-art.	en
dc.description.abstract	Quase 80% de todas as informações potencialmente utilizáveis existem na forma não estruturada. Técnicas como o Reconhecimento de Entidade Nomeada (NER) podem nos fornecer uma maneira de extrair informações estruturadas desta categoria de dados. Em termos gerais, esse conjunto de técnicas visam reconhecer entidades de informação que se referem a objetos reais, chamados entidades nomeadas (NE). NER é usado em variadas aplicações, mas a maioria dos estudos desse campo estão relacionados à língua inglesa. Neste trabalho, propomos o uso da abordagem de concatenação automatizada de embeddings (ACE) para a tarefa de NER em português. Dado um conjunto de embeddings candidatos, ACE é treinado para encontrar a melhor concatenação de embeddings a ser usada para predição estruturada. Além disso, propomos o uso do BERTimbau, um modelo de linguagem em português de última geração, como um embedding candidato. Os resultados do trabalho mostram que nossa abordagem pode superar alguns trabalhos anteriores. Entretanto, não pode alcançar melhores resultados que o atual estado da arte.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Processamento : Linguagem natural	pt_BR
dc.subject	Named-entity recognition	en
dc.subject	Natural language processing	en
dc.subject	Reconhecimento de entidade nomeada	pt_BR
dc.subject	Deep learning	en
dc.subject	HAREM	en
dc.subject	portuguese language	en
dc.title	Automated concatenation of embeddings for named-entity recognition in Portuguese	pt_BR
dc.title.alternative	Concatenação automática de embeddings para reconhecimento de entidades nomeadas em português	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001137706	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2021	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001137706.pdf
Tamanho:: 1.891Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (35846)

TCC Ciência da Computação (992)

Mostrar registro simples