Mostrar registro simples

dc.contributor.advisorVillavicencio, Alinept_BR
dc.contributor.authorBoito, Marcely Zanonpt_BR
dc.date.accessioned2018-11-24T03:14:29Zpt_BR
dc.date.issued2018pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/185054pt_BR
dc.description.abstractOs sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectProcessamento : Linguagem naturalpt_BR
dc.titleUnsupervised word discovery using attentional encoder decoder modelspt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001077780pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2018pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples