Ouvindo além das palavras: análise comparativa de modelos de IA para detecção de emoções em fala

Pereira, Vinicius Meirelles

dc.contributor.advisor	Balreira, Dennis Giovani	pt_BR
dc.contributor.author	Pereira, Vinicius Meirelles	pt_BR
dc.date.accessioned	2025-08-07T08:03:34Z	pt_BR
dc.date.issued	2025	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/294824	pt_BR
dc.description.abstract	A detecção automática de emoções em fala surge como alicerce para interfaces capazes de compreender não apenas o quê é dito, mas também como é dito. Essa tarefa ganha cada vez mais destaque devido a novas arquiteturas de inteligência artificial como as baseadas em transformadores. Este trabalho investiga a generalização de modelos de inteligência artificial baseados em transformadores para diversos idiomas na tarefa de reconhecimento de emoçõesemfala, avaliando cinco sistemas de código aberto (Speech Emotion Recognition by Fine-Tuning Wav2Vec 2.0, Speech Emotion Recognition with Wav2Vec2, Wav2Vec 2.0 XLS-R for Spontaneous Speech Emotion Recognition, Speech Emotion Recognition with Whisper e emotion2vec) em nove corpora que abrangem inglês, português, francês, italiano, alemão e quechua. Após normalização dos áudios e conversão de rótulos coordenadas valência-excitação-dominância (VAD) para categorias discretas quando necessário, os modelos são utilizados para inferência de sentimentos, com desempenho medido pelo F1–macro. O modelo emotion2vec liderou em quase todos os corpora, mas apresentou queda acentuada no idioma quechua, única língua fora da família indo-europeia, indicando que a distância tipológica ainda impõe barreiras. Apresenta-se, como prova de conceito, um fluxo de processamento capaz de gerar traduções que preservam as emoções presentes na fala original. Esses achados reforçam tanto o potencial quanto os limites atuais da generalização da detecção de emoções entre idiomas e fornecem base empírica para pipelines de tradução capazes de preservar o conteúdo emocional da fala. Avanços futuros dependerão da inclusão de mais famílias linguísticas e de dados de fala espontânea para assegurar a sensibilidade emocional em contextos reais de uso.	pt_BR
dc.description.abstract	Automatic speech emotion recognition constitutes a cornerstone of interfaces that understand not only what is said but also how it is said. This task has gained increasing prominence with the advent of new artificial-intelligence architectures, particularly those based on transformers. This work analyzes the capability of transformer-based models to generalize across multiple languages in the task of speech emotion recognition, evaluating five open-source systems (Speech Emotion Recognition by Fine-Tuning Wav2Vec 2.0, Speech Emotion Recognition with Wav2Vec2, Wav2Vec 2.0 XLS-R for Spontaneous Speech Emotion Recognition, Speech Emotion Recognition with Whisper and emotion2vec) on nine corpora covering English, Portuguese, French, Italian, German and Quechua. After audio normalization and, when necessary, conversion of valence-arousal-dominance coordinates (VAD) coordinates into discrete emotion categories, the models perform emotion inference, and performance is measured with the F1-macro score. The emotion2vec model achieved the best results on most corpora but dropped sharply on Quechua, the only evaluated language outside the indo-european family, indicating that typological distance still poses substantial barriers. As a proof of concept, we present a pipeline capable of producing speech translations while preserving the emotions of the original utterances. These f indings highlight both the potential and the current limits of generalization in crosslingual speech emotion detection and provide an empirical basis for speech-translation pipelines that preserve emotional content. Future progress will hinge on the inclusion of additional language families and spontaneous-speech data to ensure emotional sensitivity in real-world scenarios.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Reconhecimento de emoções na fala	pt_BR
dc.subject	Modelos de fundação : IA	pt_BR
dc.subject	Generalização entre idiomas	pt_BR
dc.subject	Tradução de fala	pt_BR
dc.title	Ouvindo além das palavras: análise comparativa de modelos de IA para detecção de emoções em fala	pt_BR
dc.title.alternative	Listening beyond words: a comparative analysis of AI models for speech emotion detection	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001290511	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2025	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001290511.pdf
Tamanho:: 726.7Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (40344)

TCC Ciência da Computação (1128)

Mostrar registro simples