Text Mining utilizando o Software R : um estudo de caso de uma biblioteca americana
Fecha
2016Nivel académico
Grado
Tipo
Resumo
A quantidade de dados textuais existente na rede de computadores é enorme, pois muitas pessoas e empresas usam a internet diariamente para expressarem suas opiniões sobre diversos assuntos. Esses dados textuais podem conter informações valiosas, que muitas vezes, podem ser obtidas com rapidez e baixo custo financeiro, como a informação obtida nas redes sociais. Nas redes sociais são estimadas milhares de postagens de escrita e fotos por segundo. Sendo assim, o domínio de técnicas para extrair i ...
A quantidade de dados textuais existente na rede de computadores é enorme, pois muitas pessoas e empresas usam a internet diariamente para expressarem suas opiniões sobre diversos assuntos. Esses dados textuais podem conter informações valiosas, que muitas vezes, podem ser obtidas com rapidez e baixo custo financeiro, como a informação obtida nas redes sociais. Nas redes sociais são estimadas milhares de postagens de escrita e fotos por segundo. Sendo assim, o domínio de técnicas para extrair informações de bases textuais sem necessidade de leitura prévia é de grande relevância. Tendo em vista a busca de informações pertinentes e relevantes, um programa de leitura da biblioteca da cidade de Chicago, decidiu usar a técnica de Text Mining para extrair essas informações na rede social Twitter, em busca de ideias para aperfeiçoamento e continuidade do programa. Hoje em dia, há diversos softwares pagos e gratuitos que contém a técnica do Text Mining. Dessa maneira, o objetivo desse trabalho é estudar o processo de Text Mining desde a obtenção até a análise dos dados e seu uso no Software R, além de mostrar sua aplicação para ajudar o programa de leitura de Chicago a obter as informações para tomada de decisões. Com o Software R, foram coletados tweets sobre o programa de leitura da biblioteca de Chicago. Inicialmente, esses dados foram devidamente preparados para análise, depois foram construídos gráficos de frequências e nuvem de palavras. Para dividir os tweets por assunto foram utilizadas três diferentes técnicas de Clustering e modelagem por tópicos. Com a limpeza e análise dos tweets foi possível obter uma ideia dos diversos assuntos que as pessoas estavam falando no Twitter sobre o programa de leitura. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Matemática e Estatística. Curso de Estatística: Bacharelado.
Colecciones
-
Tesinas de Curso de Grado (37361)Tesinas Estadística (295)
Este ítem está licenciado en la Creative Commons License