Mostrar registro simples

dc.contributor.advisorBalreira, Dennis Giovanipt_BR
dc.contributor.authorPereira, Vinicius Meirellespt_BR
dc.date.accessioned2025-08-07T08:03:34Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/294824pt_BR
dc.description.abstractA detecção automática de emoções em fala surge como alicerce para interfaces capazes de compreender não apenas o quê é dito, mas também como é dito. Essa tarefa ganha cada vez mais destaque devido a novas arquiteturas de inteligência artificial como as baseadas em transformadores. Este trabalho investiga a generalização de modelos de inteligência artificial baseados em transformadores para diversos idiomas na tarefa de reconhecimento de emoçõesemfala, avaliando cinco sistemas de código aberto (Speech Emotion Recognition by Fine-Tuning Wav2Vec 2.0, Speech Emotion Recognition with Wav2Vec2, Wav2Vec 2.0 XLS-R for Spontaneous Speech Emotion Recognition, Speech Emotion Recognition with Whisper e emotion2vec) em nove corpora que abrangem inglês, português, francês, italiano, alemão e quechua. Após normalização dos áudios e conversão de rótulos coordenadas valência-excitação-dominância (VAD) para categorias discretas quando necessário, os modelos são utilizados para inferência de sentimentos, com desempenho medido pelo F1–macro. O modelo emotion2vec liderou em quase todos os corpora, mas apresentou queda acentuada no idioma quechua, única língua fora da família indo-europeia, indicando que a distância tipológica ainda impõe barreiras. Apresenta-se, como prova de conceito, um fluxo de processamento capaz de gerar traduções que preservam as emoções presentes na fala original. Esses achados reforçam tanto o potencial quanto os limites atuais da generalização da detecção de emoções entre idiomas e fornecem base empírica para pipelines de tradução capazes de preservar o conteúdo emocional da fala. Avanços futuros dependerão da inclusão de mais famílias linguísticas e de dados de fala espontânea para assegurar a sensibilidade emocional em contextos reais de uso.pt_BR
dc.description.abstractAutomatic speech emotion recognition constitutes a cornerstone of interfaces that understand not only what is said but also how it is said. This task has gained increasing prominence with the advent of new artificial-intelligence architectures, particularly those based on transformers. This work analyzes the capability of transformer-based models to generalize across multiple languages in the task of speech emotion recognition, evaluating five open-source systems (Speech Emotion Recognition by Fine-Tuning Wav2Vec 2.0, Speech Emotion Recognition with Wav2Vec2, Wav2Vec 2.0 XLS-R for Spontaneous Speech Emotion Recognition, Speech Emotion Recognition with Whisper and emotion2vec) on nine corpora covering English, Portuguese, French, Italian, German and Quechua. After audio normalization and, when necessary, conversion of valence-arousal-dominance coordinates (VAD) coordinates into discrete emotion categories, the models perform emotion inference, and performance is measured with the F1-macro score. The emotion2vec model achieved the best results on most corpora but dropped sharply on Quechua, the only evaluated language outside the indo-european family, indicating that typological distance still poses substantial barriers. As a proof of concept, we present a pipeline capable of producing speech translations while preserving the emotions of the original utterances. These f indings highlight both the potential and the current limits of generalization in crosslingual speech emotion detection and provide an empirical basis for speech-translation pipelines that preserve emotional content. Future progress will hinge on the inclusion of additional language families and spontaneous-speech data to ensure emotional sensitivity in real-world scenarios.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectReconhecimento de emoções na falapt_BR
dc.subjectModelos de fundação : IApt_BR
dc.subjectGeneralização entre idiomaspt_BR
dc.subjectTradução de falapt_BR
dc.titleOuvindo além das palavras: análise comparativa de modelos de IA para detecção de emoções em falapt_BR
dc.title.alternativeListening beyond words: a comparative analysis of AI models for speech emotion detectionen
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001290511pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples