Mostrar registro simples

dc.contributor.advisorGeyer, Claudio Fernando Resinpt_BR
dc.contributor.authorPinto, Júlio Coitinhopt_BR
dc.date.accessioned2018-11-24T03:14:22Zpt_BR
dc.date.issued2018pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/185040pt_BR
dc.description.abstractEste trabalho consiste na implementação de um método de fatoração de grandes matrizes de forma paralela utilizando o gradiente descendente estocástico e o adaptando ao modelo de programação MapReduce. Apresentando inicialmente ao leitor conceitos básicos de processamento de linguagem natural (PLN), da área de BigData e dos conceitos de MapReduce , este trabalho tem como objetivo aplicar técnicas atualmente utilizadas na geração de representações distribuídas de palavras ao framework Apache Flink, a fim de beneficiar o método com as vantagens cada vez mais presentes e acessíveis da programação distribuída e paralela. Este processo exige a manipulação de matrizes muito grandes e esparsas o que traz um grande tempo de processamento e de uso de recursos das máquinas utilizadas. A aplicação implementa todo o pré-processamento do arquivo de entrada até a etapa da aplicação do gradiente descendente estocástico, que realiza a fatoração da matriz em vetores de palavras e contextos, no modelo MapReduce . Com base na observação dos resultados mostramos que a implementação consegue ter um ganho de performance quando executada paralelamente, nas etapas do pré-processamento e na etapa final do modelo, que gera os vetores desejados.pt
dc.description.abstractThis work consists in the implementation of a method of factoring large matrices in parallel using the stochastic descendent gradient and adapting it to the MapReduce programming model. Introducing initially the basic concepts of natural language processing (NLP), the area of BigData and the concepts of MapReduce, this work aims to apply techniques currently used in the generation of distributed representations of words to the Apache Flink framework in order to benefit the method with the increasingly present and accessible advantages of distributed and parallel programming. This process requires the manipulation of very large and sparse matrices which brings a great deal of time to processing and resource use of the machines used. The application implements all the pre-processing of the input file until the step of applying the stochastic descendent gradient, which performs the factorization of the matrix into vectors of words and contexts, in the model MapReduce. Based on the observation of the results we show that the implementation achieves a performance gain when executed in parallel, in the pre-processing stages and in the final stage of the model, which generates the desired vectors.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectProgramação paralelapt_BR
dc.subjectDistributed and Parallel Programmingen
dc.subjectApache Flinken
dc.subjectProgramacao distribuidapt_BR
dc.subjectBig dataen
dc.subjectNatural Language Processingen
dc.subjectFactoring of Matricesen
dc.subjectText processingen
dc.subjectMapReduceen
dc.titleGeração de representação distribuída de palavras fatorando a matriz de informação mútua pontual utilizando o gradiente descendente estocástico no modelo de MapReducept_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001077763pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2018pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples