Automated concatenation of embeddings for named-entity recognition in Portuguese
Visualizar/abrir
Data
2021Autor
Orientador
Nível acadêmico
Graduação
Outro título
Concatenação automática de embeddings para reconhecimento de entidades nomeadas em português
Assunto
Abstract
Nearly 80% of all potentially usable business information exists in unstructured form, primarily as text and images. Techniques such as named-entity recognition (NER) can provide a way to extract structured information from plain text. In general terms, NER aims to recognize information entities that refer to real-world objects, called named en tities. Many applications use NER, but most studies have been done in English. In this work, we propose the use of automated concatenation of embeddings ...
Nearly 80% of all potentially usable business information exists in unstructured form, primarily as text and images. Techniques such as named-entity recognition (NER) can provide a way to extract structured information from plain text. In general terms, NER aims to recognize information entities that refer to real-world objects, called named en tities. Many applications use NER, but most studies have been done in English. In this work, we propose the use of automated concatenation of embeddings (ACE) approach for the Portuguese NER task. Given a set of candidate word embeddings, ACE is trained to find the best concatenation of embeddings to use for structured prediction. In addition, we propose the use of BERTimbau, a state-of-the-art Portuguese language model, as a can didate embedding. The results of the work show that our approach can outperform some previous works. However, it cannot achieve better results than the current state-of-the-art. ...
Resumo
Quase 80% de todas as informações potencialmente utilizáveis existem na forma não estruturada. Técnicas como o Reconhecimento de Entidade Nomeada (NER) podem nos fornecer uma maneira de extrair informações estruturadas desta categoria de dados. Em termos gerais, esse conjunto de técnicas visam reconhecer entidades de informação que se referem a objetos reais, chamados entidades nomeadas (NE). NER é usado em variadas aplicações, mas a maioria dos estudos desse campo estão relacionados à língua i ...
Quase 80% de todas as informações potencialmente utilizáveis existem na forma não estruturada. Técnicas como o Reconhecimento de Entidade Nomeada (NER) podem nos fornecer uma maneira de extrair informações estruturadas desta categoria de dados. Em termos gerais, esse conjunto de técnicas visam reconhecer entidades de informação que se referem a objetos reais, chamados entidades nomeadas (NE). NER é usado em variadas aplicações, mas a maioria dos estudos desse campo estão relacionados à língua inglesa. Neste trabalho, propomos o uso da abordagem de concatenação automatizada de embeddings (ACE) para a tarefa de NER em português. Dado um conjunto de embeddings candidatos, ACE é treinado para encontrar a melhor concatenação de embeddings a ser usada para predição estruturada. Além disso, propomos o uso do BERTimbau, um modelo de linguagem em português de última geração, como um embedding candidato. Os resultados do trabalho mostram que nossa abordagem pode superar alguns trabalhos anteriores. Entretanto, não pode alcançar melhores resultados que o atual estado da arte. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1003)
Este item está licenciado na Creative Commons License