Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais

Evers, Aline; Finatto, Maria José Bocorny

dc.contributor.author	Evers, Aline	pt_BR
dc.contributor.author	Finatto, Maria José Bocorny	pt_BR
dc.date.accessioned	2017-09-20T02:31:56Z	pt_BR
dc.date.issued	2016	pt_BR
dc.identifier.issn	2447-9551	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/168725	pt_BR
dc.description.abstract	Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações.	pt_BR
dc.description.abstract	Based on the theoretical and methodological framework of Corpus Linguistics (CL), and allied to Natural Language Processing (NLP) techniques, we present a lexicostatistical study about textual productions written by students of Portuguese as an additional language. We begin by discussing the relevance of quantitative language studies, specially regarding word frequencies, as proposed by Biderman (1978, 1996) and Hoffmann (2007). Then, we situate CL and NLP and their role in the proposition of a methodology (EVERS, 2013) for automatic essay score applied to texts produced in the context of Celpe-Bras – a Brazilian Portuguese as an additional language proficiency exam. By using supervised Machine Learning (ML), a NLP technique, it was possible to identify lexical cohesive patterns and distinguish levels of proficiency using such patterns. Cohesion, coherence and intelligibility parameters were used and the text sample was submitted for examination. At the end, the proposed methodology combines CL and NLP and it is problematized: we point out limits, advantages and future applications for the results found with this research.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.relation.ispartof	Revista GTLex. Uberlândia, MG. Vol. 1, n. 2 (jan./jun. 2016), p. [271]-295	pt_BR
dc.rights	Open Access	en
dc.subject	Corpus linguistics	en
dc.subject	Lingüística de corpus	pt_BR
dc.subject	Produção textual	pt_BR
dc.subject	Lexicostastic	en
dc.subject	Portuguese as an additional language	en
dc.subject	Linguagem natural	pt_BR
dc.subject	Linguística	pt_BR
dc.subject	Língua portuguesa	pt_BR
dc.title	Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais	pt_BR
dc.title.alternative	Corpus linguistics, lexicostatistics and natural language processing : perspective for vocabulary studies about essays	en
dc.type	Artigo de periódico	pt_BR
dc.identifier.nrb	001047485	pt_BR
dc.type.origin	Nacional	pt_BR

Ficheros en el ítem

Nombre:: 001047485.pdf
Tamaño:: 1.310Mb
Formato:: PDF
Descripción:: Texto completo

Ver

Este ítem está licenciado en la Creative Commons License

Artículos de Periódicos (39096)

Lingüística, Letras y Artes (2657)

Mostrar el registro sencillo del ítem