Atribuição de perfis de autoria
dc.contributor.advisor | Moreira, Viviane Pereira | pt_BR |
dc.contributor.author | Weren, Edson Roberto Duarte | pt_BR |
dc.date.accessioned | 2014-12-23T02:13:52Z | pt_BR |
dc.date.issued | 2014 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/108592 | pt_BR |
dc.description.abstract | A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. | pt_BR |
dc.description.abstract | Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions. | en |
dc.format.mimetype | application/pdf | |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Information storage and retrieval | en |
dc.subject | Recuperacao : Informacao | pt_BR |
dc.subject | Processamento : Palavra | pt_BR |
dc.subject | Document | en |
dc.subject | Text processing | en |
dc.subject | Interface : Usuario | pt_BR |
dc.title | Atribuição de perfis de autoria | pt_BR |
dc.title.alternative | Author profiling | en |
dc.type | Dissertação | pt_BR |
dc.contributor.advisor-co | Oliveira, Jose Palazzo Moreira de | pt_BR |
dc.identifier.nrb | 000949234 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2014 | pt_BR |
dc.degree.level | mestrado | pt_BR |
Este item está licenciado na Creative Commons License
-
Ciências Exatas e da Terra (5141)Computação (1766)