Avaliando um rotulador estatístico de categorias morfo-sintáticas para a língua portuguesa

Villavicencio, Aline

dc.contributor.advisor	Vicari, Rosa Maria	pt_BR
dc.contributor.author	Villavicencio, Aline	pt_BR
dc.date.accessioned	2010-09-03T04:18:50Z	pt_BR
dc.date.issued	1995	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/25524	pt_BR
dc.description.abstract	O Processamento de Linguagem Natural (PLN) é uma área da Ciência da Computação, que vem tentando, ao longo dos anos, aperfeiçoar a comunicação entre o homem e o computador. Varias técnicas tem sido utilizadas para aperfeiçoar esta comunicação, entre elas a aplicação de métodos estatísticos. Estes métodos tem sido usados por pesquisadores de PLN, com um crescente sucesso e uma de suas maiores vantagens é a possibilidade do tratamento de textos irrestritos. Em particular, a aplicação dos métodos estatísticos, na marcação automática de "corpus" com categorias morfo-sintáticas, tem se mostrado bastante promissora, obtendo resultados surpreendentes. Assim sendo, este trabalho descreve o processo de marcação automática de categorias morfo-sintáticas. Inicialmente, são apresentados e comparados os principais métodos aplicados a marcação automática: os métodos baseados em regras e os métodos estatísticos. São descritos os principais formalismos e técnicas usadas para esta finalidade pelos métodos estatísticos. E introduzida a marcação automática para a Língua Portuguesa, algo até então inédito. O objetivo deste trabalho é fazer um estudo detalhado e uma avaliação do sistema rotulador de categorias morfo-sintáticas, a fim de que se possa definir um padrão no qual o sistema apresente a mais alta precisão possível. Para efetuar esta avaliação, são especificados alguns critérios: a qualidade do "corpus" de treinamento, o seu tamanho e a influencia das palavras desconhecidas. A partir dos resultados obtidos, espera-se poder aperfeiçoar o sistema rotulador, de forma a aproveitar, da melhor maneira possível, os recursos disponíveis para a Língua Portuguesa.	pt_BR
dc.description.abstract	Natural Language Processing (NLP) is an area of Computer Sciences, that have been trying to improve communication between human beings and computers. A number of different techniques have been used to improve this communication and among them, the use of stochastic methods. These methods have successfully being used by NLP researchers and one of their most remarkable advantages is that they are able to deal with unrestricted texts. Namely, the use of stochastic methods for part-of-speech tagging has achieving some extremely good results. Thus, this work describes the process of part-of-speech tagging. At first, we present and compare the main tagging methods: the rule-based methods and the stochastic ones. We describe the main stochastic tagging formalisms and techniques for part-of-speech tagging. We also introduce part-of-speech tagging for the Portuguese Language. The main purpose of this work is to study and evaluate a part-of-speech tagger system in order to establish a pattern in which it is possible to achieve the greatest accuracy. To perform this evaluation, several parameters were set: the corpus quality, its size and the relation between unknown words and accuracy. The results obtained will be used to improve the tagger, in order to use better the available Portuguese Language resources.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Linguística computacional	pt_BR
dc.subject	Part-of-speech taggers	en
dc.subject	Corpus	en
dc.subject	Rotuladores : Categorias morfo-sintaticas	pt_BR
dc.subject	Hidden markov models	en
dc.subject	Processamento : Linguagem natural	pt_BR
dc.title	Avaliando um rotulador estatístico de categorias morfo-sintáticas para a língua portuguesa	pt_BR
dc.title.alternative	Evaluating a stochastic part-of-speech tagger for the portuguese language	en
dc.type	Dissertação	pt_BR
dc.identifier.nrb	000177540	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Curso de Pós-Graduação em Ciência da Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	1995	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 000177540.pdf
Tamanho:: 18.09Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5041)

Computação (1733)

Mostrar registro simples