AnHALytics : a workflow for text mining
Visualizar/abrir
Data
2018Orientador
Nível acadêmico
Graduação
Assunto
Resumo
AnHALytics é um framework para mineração de dados de documentos técnicos e científicos oriundos de repositórios de grande porte. AnHALytics recupera, extrai dados importantes, e enriquece esses arquivos usando informação sobre o próprio artigo, além de outras bases de dados (por exemplo, a Wikipedia). O workflow de AnHALytics é executado de forma manual, o que causa alguns problemas relacionados com a falta de tolerância a falhas e de um fluxo de execução mais flexível, além da dificuldade para ...
AnHALytics é um framework para mineração de dados de documentos técnicos e científicos oriundos de repositórios de grande porte. AnHALytics recupera, extrai dados importantes, e enriquece esses arquivos usando informação sobre o próprio artigo, além de outras bases de dados (por exemplo, a Wikipedia). O workflow de AnHALytics é executado de forma manual, o que causa alguns problemas relacionados com a falta de tolerância a falhas e de um fluxo de execução mais flexível, além da dificuldade para manter e garantir a reprodutibilidade científica. Para prover uma solução para esse problema, um estudo sobre os principais sistemas de workflow e como eles iriam se comportar com uma aplicação como AnHALytics foi realizado. No final desse estudo, um desses sistemas foi selecionado, e sobre ele foi executada uma simulação de performance em uma aplicação similar à AnHALytics, onde foi observado seu comportamento em comparação a uma solução por scripts. Os resultados dessa simulação mostraram que esse tipo de aplicação pode ser significantemente melhorado com a integração de workflows científicos. Como os resultados da simulação mostraram, workflows científicos — criados inicialmente para aplicações no domínio das biociências — também podem ser utilizados em aplicações de mineração de dados, e apresentam resultados similares, dando à aplicação significantes melhoras quando comparado com a versão em script, manualmente executada, do workflow. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1024)
Este item está licenciado na Creative Commons License