Voice : easier audio analysis for digital phenotyping
View/ Open
Date
2025Author
Advisor
Academic level
Doctorate
Type
Title alternative
Voice : áudio análise mais fácil para fenotipagem digital
Subject
Abstract
This thesis presents the development and validation of voice, an open-source package developed in the R language to facilitate audio analysis in digital phenotyping research. The proposal arises from the need to overcome technical barriers that limit the use of voice data in mental health and behavioral studies, such as the lack of accessible and integrated tools, the complexity of signal preprocessing, and the difficulty of extracting relevant acoustic measures. voice integrates music theory w ...
This thesis presents the development and validation of voice, an open-source package developed in the R language to facilitate audio analysis in digital phenotyping research. The proposal arises from the need to overcome technical barriers that limit the use of voice data in mental health and behavioral studies, such as the lack of accessible and integrated tools, the complexity of signal preprocessing, and the difficulty of extracting relevant acoustic measures. voice integrates music theory with advanced computational techniques, enabling the easy extraction, summarization, and diarization of voice data. Three main functions organize the package’s architecture: extract_features, which extracts a wide range of acoustic features (such as fundamental frequency, formants, and MFCCs); tag, which generates anonymized statistical summaries of each variable; and diarize, which automatically identifies voiced segments in an audio file. The package’s main contribution is to make audio analysis more accessible to researchers in fields such as psychiatry, psychology, linguistics, and bioacoustics, offering a reproducible, extensible, and easy-to-use solution. Furthermore, it introduces new metrics such as Formant Removal, which can improve the performance of predictive models by isolating the fundamental frequency of vocal resonances. The tool’s applicability is demonstrated through two empirical studies. The first formally presents the package and its computational resources. The second evaluates its performance in automatically predicting sex and emotional valence from voice, using public databases and four classes of models (Binary Logistic Regression, Random Forest, SVM, and BART). The results indicate that the models achieve accuracy statistically superior to the No Information Rate (NIR), with emphasis on the good performance of Random Forests and SVMs. Emotional valence classification, although more challenging, also proved feasible with appropriate hyperparameter adjustments. Available on CRAN and GitHub, voice is an open-source tool for voice analysis, with the potential to transform how we handle audio data in clinical and scientific contexts. The thesis proposes an interdisciplinary and scalable approach to advancing digital phenotyping in mental health. ...
Abstract in Portuguese (Brasil)
Esta tese apresenta o desenvolvimento e a validação do voice, um pacote de código aberto desenvolvido na linguagem R para facilitar a análise de áudio em pesquisas de fenotipagem digital. A proposta surge da necessidade de superar barreiras técnicas que limitam o uso de dados de voz em estudos de saúde mental e comportamentais, como a ausência de ferramentas acessíveis e integradas, a complexidade do pré-processamento de sinais e a dificuldade de extração de medidas acústicas relevantes. O voic ...
Esta tese apresenta o desenvolvimento e a validação do voice, um pacote de código aberto desenvolvido na linguagem R para facilitar a análise de áudio em pesquisas de fenotipagem digital. A proposta surge da necessidade de superar barreiras técnicas que limitam o uso de dados de voz em estudos de saúde mental e comportamentais, como a ausência de ferramentas acessíveis e integradas, a complexidade do pré-processamento de sinais e a dificuldade de extração de medidas acústicas relevantes. O voice integra teoria musical com técnicas computacionais avançadas, permitindo a extração, o resumo e a diarização de dados vocais com facilidade. Três funções principais organizam a arquitetura do pacote: extract_features, que extrai uma ampla gama de características acústicas (como frequência fundamental, formantes e MFCCs); tag, que gera resumos estatísticos de cada variável de forma anonimizada; e diarize, que identifica automaticamente os segmentos vozeados em um arquivo de áudio. A principal contribuição do pacote é tornar a análise de áudio mais acessível a pesquisadores de áreas como psiquiatria, psicologia, linguística e bioacústica, oferecendo uma solução reprodutível, extensível e de fácil uso. Além disso, são introduzidas métricas inéditas como a Remoção de Formantes, que podem melhorar o desempenho de modelos preditivos ao isolar a frequência fundamental das ressonâncias vocais. A aplicabilidade da ferramenta é demonstrada por meio de dois estudos empíricos. O primeiro apresenta formalmente o pacote e seus recursos computacionais. O segundo avalia seu desempenho na predição automática de sexo e valência emocional a partir da voz, utilizando bases de dados públicas e quatro classes de modelos (Regressão Logística Binária, Random Forest, SVM e BART). Os resultados indicam que os modelos alcançam acurácia estatisticamente superior à taxa de não-informação, com destaque para o bom desempenho de Random Forests e SVMs. A classificação da valência emocional, embora mais desafiadora, também se mostrou viável com ajustes apropriados de hiperparâmetros. Disponível na CRAN e no GitHub, o voice é uma ferramenta de código aberto para análise vocal, com potencial de transformar a forma como lidamos com dados de áudio em contextos clínicos e científicos. A tese propõe, portanto, uma abordagem interdisciplinar e escalável para o avanço da fenotipagem digital em saúde mental. ...
Institution
Universidade Federal do Rio Grande do Sul. Faculdade de Medicina. Programa de Pós-Graduação em Psiquiatria e Ciências do Comportamento.
Collections
-
Health Sciences (9565)Psychiatry (461)
This item is licensed under a Creative Commons License


