Qualificador Lattes : uma ferramenta para a padronização de dados utilizando junção por similaridade textual
Fecha
2008Autor
Tutor
Nivel académico
Grado
Tipo
Otro título
Lattes Qualifier: a tool for data standardization using textual similarity join
Resumo
Este trabalho apresenta um estudo e uma aplicação de técnicas de integração de dados textuais utilizando junção por similaridade no escopo de currículos acadêmicos da Plataforma Lattes. Duas técnicas são analisadas: junção por similaridade aproximada baseada em amostragem, executada em um SGBDR; e junção por similaridade exata, executada em memória. A superioridade da segunda técnica para o domínio considerado, demonstrada através de experimentos, leva à sua utilização no sistema Qualificador L ...
Este trabalho apresenta um estudo e uma aplicação de técnicas de integração de dados textuais utilizando junção por similaridade no escopo de currículos acadêmicos da Plataforma Lattes. Duas técnicas são analisadas: junção por similaridade aproximada baseada em amostragem, executada em um SGBDR; e junção por similaridade exata, executada em memória. A superioridade da segunda técnica para o domínio considerado, demonstrada através de experimentos, leva à sua utilização no sistema Qualificador Lattes. Essa aplicação, apresentada em detalhes, consiste em uma ferramenta com interface web para realizar a padronização da documentação de produção científica de pesquisadores de forma tão automática quanto possível. Os resultados obtidos com a associação de participações em eventos e periódicos científicos contidas em currículos Lattes com as bases de dados oficiais da CAPES são discutidos e avaliados como satisfatórios. ...
Abstract
This work presents an analysis and an application of textual data integration techniques using similarity join applied to the scope of academic résumés on the Lattes Platform. Two techniques are analyzed: the approximate similarity join based on sampling, which is executed inside a relational database management system; and the exact similarity join, which is executed in the main memory. The superiority of the latter, established through experimentation, leads to its utilization in the Lattes Q ...
This work presents an analysis and an application of textual data integration techniques using similarity join applied to the scope of academic résumés on the Lattes Platform. Two techniques are analyzed: the approximate similarity join based on sampling, which is executed inside a relational database management system; and the exact similarity join, which is executed in the main memory. The superiority of the latter, established through experimentation, leads to its utilization in the Lattes Qualifier system. This application, presented in detail, consists of a web tool to perform the standardization of scientific production reports of researchers as automatically as possible. The results obtained with the association of participations in scientific events and periodicals described in Lattes résumés with the official databases from CAPES are discussed and considered satisfactory. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Colecciones
-
Tesinas de Curso de Grado (37361)
Este ítem está licenciado en la Creative Commons License