Ouvindo além das palavras: análise comparativa de modelos de IA para detecção de emoções em fala
| dc.contributor.advisor | Balreira, Dennis Giovani | pt_BR |
| dc.contributor.author | Pereira, Vinicius Meirelles | pt_BR |
| dc.date.accessioned | 2025-08-07T08:03:34Z | pt_BR |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | http://hdl.handle.net/10183/294824 | pt_BR |
| dc.description.abstract | A detecção automática de emoções em fala surge como alicerce para interfaces capazes de compreender não apenas o quê é dito, mas também como é dito. Essa tarefa ganha cada vez mais destaque devido a novas arquiteturas de inteligência artificial como as baseadas em transformadores. Este trabalho investiga a generalização de modelos de inteligência artificial baseados em transformadores para diversos idiomas na tarefa de reconhecimento de emoçõesemfala, avaliando cinco sistemas de código aberto (Speech Emotion Recognition by Fine-Tuning Wav2Vec 2.0, Speech Emotion Recognition with Wav2Vec2, Wav2Vec 2.0 XLS-R for Spontaneous Speech Emotion Recognition, Speech Emotion Recognition with Whisper e emotion2vec) em nove corpora que abrangem inglês, português, francês, italiano, alemão e quechua. Após normalização dos áudios e conversão de rótulos coordenadas valência-excitação-dominância (VAD) para categorias discretas quando necessário, os modelos são utilizados para inferência de sentimentos, com desempenho medido pelo F1–macro. O modelo emotion2vec liderou em quase todos os corpora, mas apresentou queda acentuada no idioma quechua, única língua fora da família indo-europeia, indicando que a distância tipológica ainda impõe barreiras. Apresenta-se, como prova de conceito, um fluxo de processamento capaz de gerar traduções que preservam as emoções presentes na fala original. Esses achados reforçam tanto o potencial quanto os limites atuais da generalização da detecção de emoções entre idiomas e fornecem base empírica para pipelines de tradução capazes de preservar o conteúdo emocional da fala. Avanços futuros dependerão da inclusão de mais famílias linguísticas e de dados de fala espontânea para assegurar a sensibilidade emocional em contextos reais de uso. | pt_BR |
| dc.description.abstract | Automatic speech emotion recognition constitutes a cornerstone of interfaces that understand not only what is said but also how it is said. This task has gained increasing prominence with the advent of new artificial-intelligence architectures, particularly those based on transformers. This work analyzes the capability of transformer-based models to generalize across multiple languages in the task of speech emotion recognition, evaluating five open-source systems (Speech Emotion Recognition by Fine-Tuning Wav2Vec 2.0, Speech Emotion Recognition with Wav2Vec2, Wav2Vec 2.0 XLS-R for Spontaneous Speech Emotion Recognition, Speech Emotion Recognition with Whisper and emotion2vec) on nine corpora covering English, Portuguese, French, Italian, German and Quechua. After audio normalization and, when necessary, conversion of valence-arousal-dominance coordinates (VAD) coordinates into discrete emotion categories, the models perform emotion inference, and performance is measured with the F1-macro score. The emotion2vec model achieved the best results on most corpora but dropped sharply on Quechua, the only evaluated language outside the indo-european family, indicating that typological distance still poses substantial barriers. As a proof of concept, we present a pipeline capable of producing speech translations while preserving the emotions of the original utterances. These f indings highlight both the potential and the current limits of generalization in crosslingual speech emotion detection and provide an empirical basis for speech-translation pipelines that preserve emotional content. Future progress will hinge on the inclusion of additional language families and spontaneous-speech data to ensure emotional sensitivity in real-world scenarios. | en |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language.iso | eng | pt_BR |
| dc.rights | Open Access | en |
| dc.subject | Reconhecimento de emoções na fala | pt_BR |
| dc.subject | Modelos de fundação : IA | pt_BR |
| dc.subject | Generalização entre idiomas | pt_BR |
| dc.subject | Tradução de fala | pt_BR |
| dc.title | Ouvindo além das palavras: análise comparativa de modelos de IA para detecção de emoções em fala | pt_BR |
| dc.title.alternative | Listening beyond words: a comparative analysis of AI models for speech emotion detection | en |
| dc.type | Trabalho de conclusão de graduação | pt_BR |
| dc.identifier.nrb | 001290511 | pt_BR |
| dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
| dc.degree.department | Instituto de Informática | pt_BR |
| dc.degree.local | Porto Alegre, BR-RS | pt_BR |
| dc.degree.date | 2025 | pt_BR |
| dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
| dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Ciência da Computação (1128)

