LLMusic: Modelagem de tópicos em letras de músicas combinando LLM, Engenharia de Prompt e BERTopic - Estudo de Caso no Funk Brasileiro
Visualizar/abrir
Data
2025Orientador
Nível acadêmico
Mestrado
Tipo
Outro título
LLMusic: topic modeling in song lyrics combining LLM, prompt eEngineering, and BERTopic - a case study in brazilian funk
Assunto
Resumo
Letras de músicas impõem desafios à modelagem de tópicos pela presença de linguagem figurada, gírias e discursos implícitos. Este trabalho propõe o LLMusic, framework que integra LLMs, Engenharia de Prompt (EP) e BERTopic. O LLMusic funciona em duas etapas principais: (i) identificação de tópicos, utilizando LLMs para sintetizar trechos de letras em temas centrais e posteriormente agrupá-los em tópicos usando BERTopic; e (ii) classificação em tópicos, na qual LLMs são empregados em tarefas de c ...
Letras de músicas impõem desafios à modelagem de tópicos pela presença de linguagem figurada, gírias e discursos implícitos. Este trabalho propõe o LLMusic, framework que integra LLMs, Engenharia de Prompt (EP) e BERTopic. O LLMusic funciona em duas etapas principais: (i) identificação de tópicos, utilizando LLMs para sintetizar trechos de letras em temas centrais e posteriormente agrupá-los em tópicos usando BERTopic; e (ii) classificação em tópicos, na qual LLMs são empregados em tarefas de classificação multi-rótulo por meio de EP. Em experimentos, uma especialista validou a clareza e relevância dos tópicos; criamos uma base anotada de funk e medimos precisão, revocação e F1. Técnicas como autoconsistência elevaram o desempenho, inclusive com modelos quantizados, superando modelos pagos. Aplicamos o LLMusic à análise das 11 músicas mais populares de 2023 e, em larga escala, às 990 mais ouvidas de 2024; regras de associação revelaram padrões recorrentes. As principais contribuições incluem: (i) um método não supervisionado de modelagem de tópicos em letras musicais, (ii) a criação de uma base anotada de letras de funk com tópicos, (iii) a demonstração da correlação entre consistência de inferência e qualidade classificatória, e (iv) a realização de uma análise temática em larga escala do funk brasileiro contemporâneo. ...
Abstract
Song lyrics pose challenges to topic modeling due to the presence of figurative language, slang, and implicit discourse. This work proposes LLMusic, a framework that integrates LLMs, Prompt Engineering (EP), and BERTopic. LLMusic works in two main stages: (i) topic identification, using LLMs to synthesize lyric excerpts into central themes and subsequently group them into topics using BERTopic; and (ii) topic classification, in which LLMs are employed for multi-label classification tasks using ...
Song lyrics pose challenges to topic modeling due to the presence of figurative language, slang, and implicit discourse. This work proposes LLMusic, a framework that integrates LLMs, Prompt Engineering (EP), and BERTopic. LLMusic works in two main stages: (i) topic identification, using LLMs to synthesize lyric excerpts into central themes and subsequently group them into topics using BERTopic; and (ii) topic classification, in which LLMs are employed for multi-label classification tasks using EP. In experiments, a subject-matter expert validated the clarity and relevance of the topics; we built an annotated funk-lyrics dataset and measured precision, recall, and F1 score. Techniques such as self-consistency improved performance, even with quantized models, outperforming paid models. We applied LLMusic to the analysis of the 11 most popular funk songs of 2023 and, on a larger scale, to the 990 most listened-to songs of 2024; association rules revealed recurring patterns. The main contributions include: (i) an unsupervised method for topic modeling in song lyrics, (ii) the creation of an annotated database of funk lyrics with topics, (iii) a demonstration of the correlation between inference consistency and classification quality, and (iv) a large-scale thematic analysis of contemporary Brazilian funk. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Coleções
-
Ciências Exatas e da Terra (5308)Computação (1814)
Este item está licenciado na Creative Commons License


