Clustering multilingual aspect phrases for sentiment analysis
dc.contributor.advisor | Moreira, Viviane Pereira | pt_BR |
dc.contributor.author | Pessutto, Lucas Rafael Costella | pt_BR |
dc.date.accessioned | 2019-03-01T02:27:59Z | pt_BR |
dc.date.issued | 2019 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/189069 | pt_BR |
dc.description.abstract | The area of sentiment analysis has experienced significant developments in the last few years. More specifically, there has been growing interest in aspect-based sentiment analysis in which the goal is to extract, group, and rate the overall opinion about the features of the entity being evaluated. Techniques for aspect extraction can produce an undesirably large number of aspects – with many of those relating to the same product feature. This problem is aggravated when the reviews are written in many languages. We address the novel task of multilingual aspect clustering which aims at grouping together semantic related aspects extracted from reviews written in several languages. Our method is unsupervised. We rely on the contextual information of the aspects, whichwas represented through word embeddings in our approach. This representation allied with a good similarity measure (Word Mover’s Distance) allows us to cluster together related aspect phrases, using k-means algorithm. We contribute with a proposal of techniques to tackle this problem and test them on reviews written in five languages. Our experiments show that our unsupervised clustering technique achieves results that outperform a semi-supervised baseline. | en |
dc.description.abstract | A pesquisa em análise de sentimentos obteve um significante desenvolvimento nos últimos anos motivado pela crescente disponibilidade de comentários opinativos sobre produtos. Mais especificamente, tem havido um crescente interesse em análise de sentimentos baseada em aspectos, cujo objetivo principal consiste em extrair, agrupar e avaliar a opinião global em relação às características da entidade que está sendo avaliada. As técnicas existentes para extração de aspectos podem produzir uma quantidade excessiva de aspectos – muitos destes relacionados a uma mesma característica do produto. Este problema é agravado quando os comentários estão escritos em muitos idiomas. Este trabalho aborda a tarefa de agrupamento de aspectos multilíngues, que consiste em criar grupos de aspectos semanticamente relacionados, extraídos de comentários escritos em diversos idiomas. Este trabalho propõe uma técnica não supervisionada para esta tarefa. Ela baseia-se na informação contextual advinda dos aspectos, que é representada através de word embeddings. Esta representação aliada a uma medida de similaridade (Word Mover’s Distance) permitiu realizar o agrupamento de aspectos relacionados, utilizando o algoritmo k-means. A contribuição deste trabalho inclui as técnicas para resolver este problema juntamente com os testes realizados em comentários escritos em cinco idiomas. Os experimentos mostraram que a técnica não supervisionada de agrupamento alcança resultados que superam um baseline semi-supervisionado. | pt |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Open Access | en |
dc.subject | Linguística computacional | pt_BR |
dc.subject | Aspect-based sentiment analysis | en |
dc.subject | Aspectos Cognitivos | pt_BR |
dc.subject | Multilingual aspect clustering | en |
dc.subject | Unsupervised learning | en |
dc.subject | Word embeddings | en |
dc.title | Clustering multilingual aspect phrases for sentiment analysis | pt_BR |
dc.title.alternative | Agrupamento de expressões de aspecto multilíngues em análise de sentimentos | pt |
dc.type | Dissertação | pt_BR |
dc.identifier.nrb | 001086991 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2019 | pt_BR |
dc.degree.level | mestrado | pt_BR |
Files in this item
This item is licensed under a Creative Commons License
-
Exact and Earth Sciences (5141)Computation (1766)