ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
Fecha
2020Autor
Tutor
Co-director
Nivel académico
Grado
Tipo
Otro título
ACERPI: an approach for document collection, information extraction and entity resolution in federal institutions’ documents from Brazil
Materia
Resumo
Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste ...
Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros. ...
Abstract
Portarias are documents issued by federal institutional organizations that contain, among others, information regarding the staff of institutions. These documents are accessible through public repositories from each institution that, in general, do not allow any type of filter or advanced search on documents’ contents. Through the ACERPI approach developed in this work, the creation of a document oriented database (MongoDB) is carried out for advanced queries regarding the documents related to ...
Portarias are documents issued by federal institutional organizations that contain, among others, information regarding the staff of institutions. These documents are accessible through public repositories from each institution that, in general, do not allow any type of filter or advanced search on documents’ contents. Through the ACERPI approach developed in this work, the creation of a document oriented database (MongoDB) is carried out for advanced queries regarding the documents related to an institution’s employee, as well as which employees are referenced in a given published document. In order to do this, techniques are used to discover, obtain, convert and structure documents, extract information and link entities (employees, in the context of this work). Experiments with data from the Federal University of Rio Grande do Sul and the Federal Institute of Rio Grande do Sul, Campus Ibirubá, demonstrate and explain the main challenges encountered when applying the approach to two data sources. Finally, improvement points and future work are discussed. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Colecciones
-
Tesinas de Curso de Grado (37361)
Este ítem está licenciado en la Creative Commons License