Unsupervised word discovery using attentional encoder decoder models

Boito, Marcely Zanon

dc.contributor.advisor	Villavicencio, Aline	pt_BR
dc.contributor.author	Boito, Marcely Zanon	pt_BR
dc.date.accessioned	2018-11-24T03:14:29Z	pt_BR
dc.date.issued	2018	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/185054	pt_BR
dc.description.abstract	Os sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Processamento : Linguagem natural	pt_BR
dc.title	Unsupervised word discovery using attentional encoder decoder models	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001077780	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2018	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Files in this item

Name:: 001077780.pdf
Size:: 1.355Mb
Format:: PDF
Description:: Texto completo (inglês)

View/Open

This item is licensed under a Creative Commons License

Final Papers - Undergraduate Courses (37317)

Computer Science - Undergraduate degree (1024)

Show simple item record