Construção e avaliação de modelos semânticos distribucionais

No estudo do processamento de linguagem natural, os tesauros distribucionais, que representam modelos semânticos de linguagens, são muito utilizados em tarefas que envolvem relações semânticas, tais como respostas a perguntas, simplificação de texto, desambiguação, análise de sentimentos, entre outras. Uma barreira frequentemente encontrada nestas tarefas é a falta destes recursos - seja devido a altos custos de criá-los e extendê-los, difícil acesso ou até mesmo por serem inexistentes para algumas línguas. Muitos esforços são dedicados à construção automática de tesauros, e diferentes técnicas foram desenvolvidas a fim de atingir este objetivo, mas elas precisam ser cuidadosamente avaliadas para garantir que a qualidade dos resultados obtidos seja satisfatória. Este trabalho fará uma comparação entre modelos semânticos distribucionais construídos automaticamente para dois idiomas, português e inglês, para determinar se estas técnicas podem ser aplicadas em linguagens com diferentes características léxicas e sintáticas. Também serão comparadas duas técnicas de construção de tesauros para determinar se elas são equivalentes. Finalmente, será examinado o impacto do tamanho e do tipo de contexto utilizado para cada modelo, assumindo que contextos maiores levam a resultados de maior qualidade. Modelos semânticos construídos automaticamente implicam em uma redução de custos e aumento na abrangência e acessibilidade da área de processamento de linguagem ao permitir a criação destes recursos para idiomas que não possuam tesauros construídos manualmente ou para os quais estes recursos sejam de difícil acesso. ...

Abstract

In Natural Language Processing, distributional thesauri, semantic model language representations, are widely used in tasks that involve semantic relations, such as question answering, text simplification, disambiguation and sentiment analysis. A frequent barrier to these tasks is the lack of resources - either due to the high cost of manually constructing and extending them, difficulty of access or even because they do not exist for some languages. Therefore much effort have been dedicated to the automatic construction of thesauri, and different techniques have been developed in order to reach that goal, but they need to be carefully assessed to ensure the quality of the results obtained with them is satisfactory. This work compares distributional semantic models built automatically for two different languages, Portuguese and English, to determine whether the techniques can be robustly applied to languages with different lexical and syntactics characteristics. Secondly, we compare two different techniques for thesaurus construction, to determine if they are equivalent. Finally we examine the impact of the type and size of context used for each of the model, assuming that larger contexts lead to better quality results. Automatically built semantic models imply in a cost reduction and a raise in coverage and accessibility of the area by enabling the construction of these resources for languages that may not have manually built ones or for languages whose resources have restrict access. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (37015)

TCC Ciência da Computação (1021)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License