Separação de sinais de áudio através da densidade de potência espectral direcional

Luft, Joel Augusto

dc.contributor.advisor	Susin, Altamiro Amadeu	pt_BR
dc.contributor.author	Luft, Joel Augusto	pt_BR
dc.date.accessioned	2020-01-17T04:10:10Z	pt_BR
dc.date.issued	2019	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/204442	pt_BR
dc.description.abstract	A separação das fontes sonoras é uma das principais preocupações em muitas aplicações, como sistemas de comunicação, aparelhos auditivos, reconhecimento de fala, etc. Frequentemente, o número de fontes a serem separadas excede o número de microfones, tornando importante lidar com os chamados casos subdeterminados. Este trabalho propõe novos métodos para separar sinais de áudio com base na estimativa da Densidade Espectral de Potência (PSD), usando a diretividade de beamformers para estimar a PSD de cada fonte sonora. O primeiro método proposto usa a combinação de restrição não negativa com solução de mínimos quadrados para obter a densidade de potência espectral na direção de interesse. O segundo método tolera a correlação entre as fontes, diferentemente das abordagens anteriores na literatura, que tratam apenas da separação de sinais de fontes não correlacionadas. Além disso, é proposta uma terceira abordagem em que o número de fontes excede o número de microfones. Nos métodos propostos presume-se que as funções de transferência acústica (ATFs) entre fontes de som e microfones sejam conhecidas. Como as ATFs geralmente não estão disponíveis e são difíceis de obter em casos reais, as Funções de Transferência Relativa (RTFs), que podem ser obtidas diretamente dos sinais dos microfones, são usadas obtendo resultados semelhantes. Neste trabalho, também são propostos métodos para estimar as RTFs quando existem várias fontes. Um método utiliza detecção de picos em histogramas suavizados e ponderados pelas estimas de PSDs. Outro utiliza o algoritmo Fuzzy C-Means (wFCM) para enfatizar pistas confiáveis no processo de agrupamento, empregando pesos baseados na distribuição de probabilidade da fala, a qual é bem descrita pela Distribuição Laplaciana (LD). Os resultados da simulação mostram que os métodos propostos superam outras abordagens e também suportam correlação dos sinais podendo lidar com configurações subdeterminadas.	pt_BR
dc.description.abstract	Sound sources separation is a main concern for many applications such as communication systems, hearing aids, speech recognition, etc. Frequently, the number of sources to be separated exceeds the number of microphones, and it is important to deal with the so-called underdetermined cases. This work proposes new methods for separating audio signals based on the Power Spectral Density (PSD) estimation using the directivity of the beamformers to estimate the PSD of each sound source. The first proposed method uses the combination of non-negative constraint with least squares solution to obtain the spectral power density in the direction of interest. The second method tolerates correlation between the sources, differently from previous approaches in the literature that address only the separation of signals from uncorrelated sources. Additionally, a third approach where the number of sources exceeds the number of microphones is proposed. The Acoustic Transfer Functions (ATFs) between sound sources and microphones are assumed to be known in the proposed methods. Since ATFs are often unavailable and are hard to obtain in real cases, the Relative Transfer Functions (RTFs), which can be obtained directly from the microphone signals, are used with similar results. In this work, we also propose methods to estimate the RTFs when there are several sources. One uses peak detection in smoothed histograms weighted by the PSD estimates. Another uses a weighted Fuzzy C-Means (wFCM) algorithm to emphasize reliable clues in the clustering process employing weights based on the speech probability distribution, which is well described by Laplacian Distribution (LD). The simulation results show that the proposed methods outperform other approaches and, also, support signal correlation and can handle underdetermined configurations.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Densidade	pt_BR
dc.subject	Source separation	en
dc.subject	Análise espectral	pt_BR
dc.subject	Beamforming	en
dc.subject	Função de transferência	pt_BR
dc.subject	Power spectral density	en
dc.subject	Relative transfer function	en
dc.title	Separação de sinais de áudio através da densidade de potência espectral direcional	pt_BR
dc.type	Tese	pt_BR
dc.identifier.nrb	001110034	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Escola de Engenharia	pt_BR
dc.degree.program	Programa de Pós-Graduação em Engenharia Elétrica	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2019	pt_BR
dc.degree.level	doutorado	pt_BR

Ficheros en el ítem

Nombre:: 001110034.pdf
Tamaño:: 1.195Mb
Formato:: PDF
Descripción:: Texto completo

Ver

Este ítem está licenciado en la Creative Commons License

Ingeniería (7492)

Ingeniería Eléctrica (469)

Mostrar el registro sencillo del ítem