Mostrar registro simples

dc.contributor.advisorMoreira, Viviane Pereirapt_BR
dc.contributor.authorMoreira, Carlos Eduardo Manzonipt_BR
dc.date.accessioned2014-05-09T02:04:28Zpt_BR
dc.date.issued2014pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/95074pt_BR
dc.description.abstractA Wikipédia é uma enciclopédia pública composta por milhões de artigos editados diariamente por uma comunidade de autores de diferentes regiões do mundo. Os artigos que constituem a Wikipédia possuem um tipo de link chamado de Cross-language Link que relaciona artigos correspondentes em idiomas diferentes. O objetivo principal dessa estrutura é permitir a navegação dos usuários por diferentes versões de um mesmo artigo em busca da informação desejada. Além disso, por permitir a obtenção de corpora comparáveis, os Cross-language Links são extremamente importantes para aplicações que trabalham com tradução automática e recuperação de informações multilíngues. Visto que os Cross-language Links são inseridos manualmente pelos autores dos artigos, quando o autor não reconhece o seu correspondente em determinado idioma ocorre uma situação de Cross-language Links ausente. Sendo assim, é importante o desenvolvimento de uma abordagem que realize a descoberta de Cross-language Links entre artigos que são correspondentes, porém, não estão conectados por esse tipo link. Nesta dissertação, é apresentado o CLLFinder, uma abordagem para a descoberta de Cross-language Links ausentes. A nossa abordagem utiliza o relacionamento entre as categorias e a indexação e consulta do conteúdo dos artigos para realizar a seleção do conjunto de candidatos. Para a identificação do artigo correspondente, são utilizados atributos que exploram a transitividade de Cross-language Links entre outros idiomas bem como características textuais dos artigos. Os resultados demonstram a criação de um conjunto de candidatos com 84,3% de presença do artigo correspondente, superando o trabalho utilizado como baseline. A avaliação experimental com mais de dois milhões de pares de artigos aponta uma precisão de 99,2% e uma revocação geral de 78,9%, superando, também, o baseline. Uma inspeção manual dos resultados do CLLFinder aplicado em um cenário real indica que 73,6% dos novos Cross-language Links sugeridos pela nossa abordagem eram de fato correspondentes.pt_BR
dc.description.abstractWikipedia is a public encyclopedia composed of millions of articles written daily by volunteer authors from different regions of the world. The articles contain links called Cross-language Links which relate corresponding articles across different languages. This feature is extremely useful for applications that work with automatic translation and multilingual information retrieval as it allows the assembly of comparable corpora. Since these links are created manually, in many occasions, the authors fail to do so. Thus, it is important to have a mechanism that automatically creates such links. This has been motivating the development of techniques to identify missing cross-language links. In this work, we present CLLFinder, an approach for finding missing cross-language links. The approach makes use of the links between categories and an index of the content of the articles to select candidates. In order to identify corresponding articles, the method uses the transitivity between existing cross-language links in other languages as well as textual features extracted from the articles. Experiments on over two million pairs of articles from the English and Portuguese Wikipedias show that our approach has a recall of 78.9% and a precision of 99.2%, outperforming the baseline system.A manual inspection of the results of CLLFinder applied to a real situation indicates that our approach was able to identify the Cross-language Link correctly 73.6% of the time.en
dc.format.mimetypeapplication/pdf
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectRecuperacao : Informacaopt_BR
dc.subjectClassificationen
dc.subjectCross-language linksen
dc.subjectWikipédiapt_BR
dc.subjectSimilarity functionsen
dc.subjectGerencia : Conhecimentopt_BR
dc.titleDescoberta de cross-language links ausentes na wikipédiapt_BR
dc.title.alternativeIdentifying missing cross-language links in wikipedia en
dc.typeDissertaçãopt_BR
dc.identifier.nrb000917568pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2014pt_BR
dc.degree.levelmestradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples