Extração de expressões multipalavra em corpora técnicos

Machado, André Maranhão

dc.contributor.advisor	Villavicencio, Aline	pt_BR
dc.contributor.author	Machado, André Maranhão	pt_BR
dc.date.accessioned	2010-02-19T04:14:42Z	pt_BR
dc.date.issued	2009	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/18526	pt_BR
dc.description.abstract	Expressões multipalavra (EMPs) são um dos obstáculos para a obtenção de sistemas de PLN mais precisos. Particularmente, a falta de cobertura de EMPs em recursos lexicais pode impactar negativamente na performance de tarefas e aplicações, levando a perda de informação ou erros de comunicação. Isso é especialmente problemático em domínios técnicos, onde uma parte significativa do vocabulário é composta de EMPs. Este trabalho tem por objetivo investigar o uso de diferentes métodos para a identificação de EMPs em corpora técnicos. São usadas diversas fontes de dados, incluindo um corpus paralelo, utilizando textos em português e inglês de um corpus de Pediatria. Examina-se como uma segunda língua pode fornecer informações relevantes para essas tarefa. Este trabalho é uma extensão dos artigos abaixo: Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains publicado no Workshop on Multiword Expressions: Identification, Interpretation, Disambiguation and Applications. Singapura, 2009. Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches publicado no 7th Brazilian Symposium in Information and Human Language Technology. A Hybrid Approach for Multiword Expression Identification aceito para o International Conference on Computational Processing of Portuguese Language. 2010, Porto Alegre.	pt_BR
dc.description.abstract	Multiword Expressions (MWEs) are one of the stumbling blocks for more precise Natural Language Processing (NLP) systems. Particularly, the lack of coverage of MWEs in resources can impact negatively on the performance of tasks and applications, and can lead to loss of information or communication errors. This is especially problematic in technical domains, where a signi cant portion of the vocabulary is composed of MWEs. This work investigates the use of di erent approaches to the identi cation of MWEs in technical corpora. We look at the use of several sources of data, including a parallel corpus, using English and Portuguese data from a corpus of Pediatrics, and examining how a second language can provide relevant cues for this task. This is an extended version of the following papers: Statistically-Driven Alignment-Based Multiword Expression Identi cation for Technical Domains published at the Workshop on Multiword Expressions: Identfiication, Interpretation, Disambiguation and Applications. 2009, Singapore .Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches published at the 7th Brazilian Symposium in Information and Human Language Technology. 2009, S~ao Carlos. A Hybrid Approach for Multiword Expression Identi cation accepted for the International Conference on Computational Processing of Portuguese Language. 2010, Porto Alegre.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Linguagem natural	pt_BR
dc.subject	Natural language processing	en
dc.subject	Multiword expressions	en
dc.subject	Linguística computacional	pt_BR
dc.subject	Parallel corpora	en
dc.subject	UFRGS	en
dc.title	Extração de expressões multipalavra em corpora técnicos	pt_BR
dc.title.alternative	Extraction of multiword expressions in technical domains	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	000730568	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2009	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 000730568.pdf
Tamanho:: 191.6Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36369)

TCC Ciência da Computação (991)

Mostrar registro simples