Aelius falado 1.0
Fecha
2014Autor
Tutor
Nivel académico
Grado
Tipo
Materia
Resumo
Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as ...
Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais. ...
Abstract
This project is included in the area of Corpus Linguistics and morphological analysis of Brazilian Portuguese, which is about automatic morphological annotation corpus of spoken language. The work aims to contribute to the improvement of the automatic morphosyntactic tagger Aelius, originally developed by prof. Dr. Leonel Alencar, from Universidade Federal do Ceará, coordinator of the project CompLin - Natural Language and Computation. The tags used in Aelius are the same tags of Tycho-Brahe hi ...
This project is included in the area of Corpus Linguistics and morphological analysis of Brazilian Portuguese, which is about automatic morphological annotation corpus of spoken language. The work aims to contribute to the improvement of the automatic morphosyntactic tagger Aelius, originally developed by prof. Dr. Leonel Alencar, from Universidade Federal do Ceará, coordinator of the project CompLin - Natural Language and Computation. The tags used in Aelius are the same tags of Tycho-Brahe historical Portuguese corpus (electronic corpus already tagged, composed of texts in Portuguese written by authors born between 1380 and 1845). The texts that were used for tagging come from the bank of Varsul project, which studies the linguistic variation in southern Brazil. We worked with automatic tag of 20 texts, containing 154.530 words. This project presents the tool for automatic tagging, the automatic morphosyntactic analysis process executed by the tagger and our auto-tagging manual review work, besides some suggestions of improvement to deal specifically with aspects of orality. We will verify the Aelius’ performance in automatic morphosyntactic tagging of a corpus of spoken language, an unprecedented challenge to this tool. From the errors of the tagger, we seek to infer certain patterns of annotation to overcome limitations presented by the program, proposing some suggestions of implementations so that Aelius can tag even more satisfactorily corpus of spoken language. We will deal especially with cases of interjections, apheresis, onomatopoeia and conversational markers. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Letras. Curso de Letras: Licenciatura.
Colecciones
-
Tesinas de Curso de Grado (37361)Tesinas Letras (1219)
Este ítem está licenciado en la Creative Commons License