Mostrar registro simples

dc.contributor.advisorMoreira, Viviane Pereirapt_BR
dc.contributor.authorLorentz, Gustavo Acauanpt_BR
dc.date.accessioned2022-07-20T04:49:09Zpt_BR
dc.date.issued2022pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/243201pt_BR
dc.description.abstractSocial media has significantly impacted our lives by changing how we work, study, relax, inform ourselves, and communicate. Social media and the Web create a false sense of se curity. With apparent anonymity, users participate in the sharing and making of fake news and hateful speech, which explains why misogyny (i.e., hatred targeted at women), is prevalent and (increasingly) abundant on the internet. Taking that into consideration, aca demic researchers and social media platforms dedicate considerable efforts to developing automatic hate speech identification methods. Because hateful speech and its branches are complex and involve matters of cultural background and societal norms, the question remains: is it possible to automatically identify and classify hateful content, and, more specifically, multimodal misogynous content, that is, content based not only on textual in puts but also on visual inputs? Previous research on general hateful content has shown that yes, it is possible to identify multimodal hateful content. Deep learning models achieve better-than-random performance. However, the performances fall short of human accu racy. It is known, however, that the knowledge obtained by algorithms about specific hate targets does not extend to other hate targets. It is not clear whether the same performances can be obtained when analyzing a type of hate with specific targets, namely women. Therefore, the goal of this work is to determine whether these same models can also auto matically identify misogyny. To discover that, we trained models using the dataset from SemEval2022 Task 5 Multimedia Automatic Misogyny Identification (MAMI), which has the goal of improving the quality of existing methods for misogyny identification, many of which require dedicated personnel. The training dataset contains 10,000 memes, with both visual and textual information. The Modular Multimodal Framework (MMF), de veloped by Facebook A.I. Research was used for the training process. The evaluation consisted of obtaining the Macro-F1 measure for all models on their predictions for the test set, which contained 1,000 memes. We experimented with seven models: ViLBERT and VisualBERT both uni and multimodally pretrained, MMBT, and two unimodal mod els, Image-Grid (ResNet152) and BERT. The results show that all multimodal models achieved Macro-F1 scores above 0.649. While Image-Grid performed the worst, with a score of 0.59. ViLBERT was the best performer with a score of 0.698 and ranked 32nd on MAMI’s leaderboard. These results show that yes, these models are capable of identi fying multimodal misogynous content, although still falling short of human accuracy. In conclusion, our work helps establish that multimodal automatic identification of misog- ynous content is plausible but still has a lot to improve. We confirm the findings from previous research on general hateful content and show that the performance obtained in that dataset is also achievable on MAMI’s datasets, which focus on women as hate speech targets.en
dc.description.abstractAs redes sociais impactaram significamente as nossas vidas, ao mudar a forma como tra balhamos, estudamos, relaxamos, nos informamos e comunicamos. As redes sociais e a internet criam uma falsa sensação de segurança. Com o aparente anonimato, os usuários participam no compartilhamento e na criação de fake news e discurso de ódio, o que ex plica porquê a misoginia – ódio destinado a mulheres –, cuja identificação é o principal foco desse trabalho, é prevalente e (crescentemente) abundante na internet. Considerando esse cenário, pesquisadores da academia e plataformas de rede sociais dedicam esfor ços consideráveis para desenvolver métodos automáticos de identificação de discurso de ódio. Por discurso de ódio e suas ramificações serem conceitos complexos que envolvem questões culturais e de normas da sociedade, pode-se perguntar: é possível identificar conteúdo de ódio automaticamente, e, mais especificamente para esse trabalho, conteúdo multimodal misógino, isso é, conteúdo baseado não somente em textos como entrada, mas também em imagens como entrada? Pesquisas existentes em conteúdo de ódio geral mostram que sim, é possível identificar conteúdo de ódio multimodal. Modelos de Deep Learning alcançam performances melhores do que aleatórias, apesar de ficarem para trás comparados a acurácia de humanos. Sabe-se, entretanto, que o conhecimento obtido por algoritmos sobre alvos específicos de discurso de ódio não se extende para outros alvos de discurso de ódio. Não é claro se as mesmas performances podem ser obtidas ao se ana lizar um tipo de discurso de ódio com alvos específicos, mulheres, nesse caso. Portanto, o objetivo desse trabalho é determinar se os mesmos modelos também podem identificar mi soginia automaticamente. Para descobrir isso, os modelos deste trabalho foram treinados usando o dataset da Task 5 do SemEval2022, Multimedia Automatic Misogyny Identifica tion (MAMI), ou Identificação Multimídia e Automática de Misoginia, a qual tem como objetivo melhorar a qualidade de métodos existentes para identificação de misoginia, mui tos dos quais requerem funcionários dedicados para essa tarefa. O dataset de treinamento contém 10.000 memes, com informação visual e textual. O Modular Multimodal Fra mework (MMF), desenvolvido pelo Facebook A.I Research foi utilizado para o processo de treinamento. A avaliação consistiu em obter os valores de Macro-F1 de todos modelos após eles classificarem o dataset de teste, que contém 1.000 memes. Foram feitos experimentos com sete modelos existentes: ViLBERT e VisualBERT, ambos pré-treinados uni e multimodalmente, MMBT, e dois modelos unimodais, Image-Grid (ResNet152) e BERT. Os resultados mostram que todos modelos multimodais alcançam scores de Macro-F1 acima de 0,649. Enquanto Image-Grid teve a pior performance, com um score de 0,59. ViLBERT foi o modelo com melhor performance, com um score de 0.698 e alcançou a posição 32 no ranking da competição MAMI. Esses resultados mostram que sim, esses modelos são capazes de executar identificação multimodal de conteúdo misógino, apesar de ainda ficarem abaixo de performances humanas. Em conclusão, esse trabalho ajuda a estabelecer que a identificação multimodal automática de conteúdo misógino é plausível porém ainda possui muito o que melhorar. Nós confirmamos os achados de pesquisas existentes sobre conteúdo de ódio geral e mostramos que a performance obtida naquele dataset também é alcançável no dataset da competição MAMI, que foca em mulheres como alvos de dispt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectMultimodalen
dc.subjectRedes sociaispt_BR
dc.subjectInternetpt_BR
dc.subjectClassificatioen
dc.subjectMisoginiapt_BR
dc.subjectDeep learningen
dc.subjectViLBERTen
dc.subjectVisual BERTen
dc.subjectMMBTen
dc.subjectResNet152en
dc.subjectBERTen
dc.titleAnalysis of multimodal methods for automatic misogyny identificationpt_BR
dc.title.alternativeAvaliação de modelos na identificação multimodal e automática de misoginia en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001145223pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2022pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples