ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
dc.contributor.advisor | Galante, Renata de Matos | pt_BR |
dc.contributor.author | Schmitz, Christian | pt_BR |
dc.date.accessioned | 2021-03-11T04:23:38Z | pt_BR |
dc.date.issued | 2020 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/218605 | pt_BR |
dc.description.abstract | Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros. | pt_BR |
dc.description.abstract | Portarias are documents issued by federal institutional organizations that contain, among others, information regarding the staff of institutions. These documents are accessible through public repositories from each institution that, in general, do not allow any type of filter or advanced search on documents’ contents. Through the ACERPI approach developed in this work, the creation of a document oriented database (MongoDB) is carried out for advanced queries regarding the documents related to an institution’s employee, as well as which employees are referenced in a given published document. In order to do this, techniques are used to discover, obtain, convert and structure documents, extract information and link entities (employees, in the context of this work). Experiments with data from the Federal University of Rio Grande do Sul and the Federal Institute of Rio Grande do Sul, Campus Ibirubá, demonstrate and explain the main challenges encountered when applying the approach to two data sources. Finally, improvement points and future work are discussed. | en |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Open Access | en |
dc.subject | Bancos de dados | pt_BR |
dc.subject | Documents retrieval | en |
dc.subject | Análise de dados | pt_BR |
dc.subject | Information extraction | en |
dc.subject | Entity resolution | en |
dc.subject | Portarias públicas | pt_BR |
dc.subject | Documentos | pt_BR |
dc.title | ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais | pt_BR |
dc.title.alternative | ACERPI: an approach for document collection, information extraction and entity resolution in federal institutions’ documents from Brazil | en |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.contributor.advisor-co | Manica, Edimar | pt_BR |
dc.identifier.nrb | 001123333 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2020 | pt_BR |
dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Ciência da Computação (1024)