Show simple item record

dc.contributor.advisorVillavicencio, Alinept_BR
dc.contributor.authorWagner Filho, Jorge Albertopt_BR
dc.date.accessioned2016-08-25T02:16:11Zpt_BR
dc.date.issued2016pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/147619pt_BR
dc.description.abstractEste trabalho apresenta um estudo de diferentes abordagens de Aprendizado de Máquina para a tarefa de avaliação de legibilidade de textos em português, utilizando o conceito de criação de corpora a partir da Web (Iniciativa Wacky) para propor um framework de geração automática de grandes corpora classificados por legibilidade. Para isto, é apresentada uma série de experimentos focados na seleção de atributos, no treinamento de modelos de aprendizado e na avaliação dos corpora resultantes. Em uma comparação entre métricas textuais rasas e profundas, observamos que as primeiras apresentaram um ótimo desempenho na classificação, embora o conjunto completo o supere na maioria dos casos. Em um teste comparativo com o inglês, observou-se que fórmulas clássicas de legibilidade tendem a apresentar maior relevância naquela língua. A regressão logística apresentou, em geral, os melhores resultados de classificação, mas foi observada uma grande diferença de desempenho entre classificadores para duas e três classes de legibilidade, especialmente em relação à classe intermediária. Analisando a questão da generalização, foi observada uma grande discordância entre modelos treinados em diferentes corpora de referência, demonstrando a profunda ligação entre o treino do modelo e a classificação desejada no corpus final. No entanto, mostramos que a avaliação da concordância entre múltiplos modelos pode ser uma abordagem proveitosa na geração de uma classificação mais rigorosa do corpus final. Como resultado deste trabalho, foi construído um corpus WaC de grandes proporções para o português, composto por 1,4 milhão de documentos e cerca de 1,5 bilhão de tokens, sendo destes 720 mil documentos e 769 milhões de tokens já anotados com um analisador sintático e com 134 diferentes atributos textuais, e classificados por quatro diferentes modelos de aprendizado com diferentes características, podendo contribuir para novos estudos.pt_BR
dc.description.abstractThis work presents a study of different Machine Learning approaches to the task of readability assessment of texts in Portuguese, applying the relatively recent concept of building corpora from the Web (Wacky Initiative) to propose a framework for automatic generation of large corpora classified by readability. In order to accomplish this, a series of experiments is presented focusing in aspects such as feature selection, learning models training and evaluation of the resultant corpora. In a comparison between superficial and complex text attributes, we observed that the first achieved an excellent classification performance, although the full set overcomes it in most cases. In a comparative test with English, we observed that classic readability formulas tend to show greater classification relevance in that language. Logistic regression exhibited, in general, the best classification results, but we observed great differences between performances in two and three-classes classifiers, specially regarding the intermediary class. Assessing the topic of generalization, we observed a large disagreement between models trained in different reference corpora, demonstrating a great association between the model training and the desired classification in the final corpus. However, we showed that assessing the agreement between different models can be an efficient approach to achieve a stricter classification of the final corpus. As a result of this work, a large WaC corpus was built, including 1.4 million documents and about to 1.5 billion tokens, being 720 thousand documents and 769 million tokens already annotated with a syntactic analyser and 134 different textual attributes, and classified with four different learning models with different characteristics, what can contribute to further studies.en
dc.format.mimetypeapplication/pdf
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectProcessamento : Linguagem naturalpt_BR
dc.subjectReadability assessmenten
dc.subjectAprendizagem : Maquinapt_BR
dc.subjectReadability assessment in Portugueseen
dc.subjectReadability assessment in Englishen
dc.subjectPortuguese corpusen
dc.subjectAutomatic readability assessmenten
dc.subjectAutomatic corpus creationen
dc.subjectText classificationen
dc.subjectWeb as Corpusen
dc.titleColeta automática de corpora Web classificados por grau de legibilidade para o portugêspt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coWilkens, Rodrigo Souzapt_BR
dc.identifier.nrb000999681pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2016pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record