Geração de representação distribuída de palavras fatorando a matriz de informação mútua pontual utilizando o gradiente descendente estocástico no modelo de MapReduce

Pinto, Júlio Coitinho

Visualizar/abrir

Texto completo (773.7Kb)

Data

2018

Autor

Pinto, Júlio Coitinho

Orientador

Geyer, Claudio Fernando Resin

Nível acadêmico

Graduação

Resumo

Este trabalho consiste na implementação de um método de fatoração de grandes matrizes de forma paralela utilizando o gradiente descendente estocástico e o adaptando ao modelo de programação MapReduce. Apresentando inicialmente ao leitor conceitos básicos de processamento de linguagem natural (PLN), da área de BigData e dos conceitos de MapReduce , este trabalho tem como objetivo aplicar técnicas atualmente utilizadas na geração de representações distribuídas de palavras ao framework Apache Flink, a fim de beneficiar o método com as vantagens cada vez mais presentes e acessíveis da programação distribuída e paralela. Este processo exige a manipulação de matrizes muito grandes e esparsas o que traz um grande tempo de processamento e de uso de recursos das máquinas utilizadas. A aplicação implementa todo o pré-processamento do arquivo de entrada até a etapa da aplicação do gradiente descendente estocástico, que realiza a fatoração da matriz em vetores de palavras e contextos, no modelo MapReduce . Com base na observação dos resultados mostramos que a implementação consegue ter um ganho de performance quando executada paralelamente, nas etapas do pré-processamento e na etapa final do modelo, que gera os vetores desejados. ...

Abstract

This work consists in the implementation of a method of factoring large matrices in parallel using the stochastic descendent gradient and adapting it to the MapReduce programming model. Introducing initially the basic concepts of natural language processing (NLP), the area of BigData and the concepts of MapReduce, this work aims to apply techniques currently used in the generation of distributed representations of words to the Apache Flink framework in order to benefit the method with the increasingly present and accessible advantages of distributed and parallel programming. This process requires the manipulation of very large and sparse matrices which brings a great deal of time to processing and resource use of the machines used. The application implements all the pre-processing of the input file until the step of applying the stochastic descendent gradient, which performs the factorization of the matrix into vectors of words and contexts, in the model MapReduce. Based on the observation of the results we show that the implementation achieves a performance gain when executed in parallel, in the pre-processing stages and in the final stage of the model, which generates the desired vectors. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (37361)

TCC Ciência da Computação (1024)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License