Super-resolucao de audio utilizando redes neurais artificiais

Smaniotto, Germano Caberlon

dc.contributor.advisor	Weber, Tiago Oliveira	pt_BR
dc.contributor.author	Smaniotto, Germano Caberlon	pt_BR
dc.date.accessioned	2023-10-28T03:32:49Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/266356	pt_BR
dc.description.abstract	A super-resolução de áudio é um problema da teoria de processamento de sinais cujo objetivo é aumentar o número de pontos no conjunto de amostras de um sinal de forma inteligente, resultando em uma aproximação de uma frequência de amostragem superior e uma melhor qualidade percebida. Recentemente, técnicas de redes neurais artificiais têm recebido muita atenção para a resolução de inúmeras diferentes categorias de problemas. O presente trabalho busca, portanto, estudar as metodologias de super-resolução de sinais de voz com foco no uso de redes neurais artificiais, que demonstram um grande potencial nesta área. Para isso, são investigadas duas diferentes arquiteturas de redes neurais (um autoencoder e uma rede convolucional baseada em autoencoders) para 3 diferentes taxas de ampliação de frequência de amostragem (2, 4 e 6), bem como diferentes técnicas de treinamento para avaliar o seu desempenho no problema proposto. Além disso, são realizadas comparações com abordagens tradicionais de processamento de sinais, utilizando as métricas de desempenho SNR (relação sinal-ruído), LSD (distância logarítmica do espectro) e o tempo de inferência. Por fim, é avaliada a possibilidade de se empregar uma rede neural de super-resolução para a conversão de sinais de áudio em tempo real. Foi concluído que, para todas as taxas r = 2 e r = 4 de ampliação de frequência de amostragem, a rede convolucional possui o melhor desempenho: SNR de 27,2 e 22,6, enquanto que para r = 6 a rede mais performática foi um autoencoder de pequeno porte e rápido tempo de inferência. A baseline considerada foi a interpolação spline, cuja maior vantagem é o tempo de inferência extremamente rápido, apesar de não resultar em boas métricas de desempenho quando comparada às redes neurais.	pt_BR
dc.description.abstract	Audio super-resolution is a problem of signal processing theory whose goal is to intelligently increase the number of points of a signal sample set, resulting in an approximation of a higher sampling frequency and improved perceived quality. Recently, artificial neural network techniques have been used to solve different kinds of problems. The present work aims to study existing techniques of voice signal super-resolution focusing on artificial neural networks, which demonstrate great potential in this area. To this end, two different neural network architectures (an autoencoder and a convolutional network based on autoencoders) are investigated for 3 different upsampling rates (2,4 and 6), as well as different training techniques to evaluate their performance on said problem. In addition, comparisons with traditional signal processing techniques are made, using SNR (signalto- noise ratio), LSD (log-spectral distance), and inference time as performance metrics. Finally, the possibility of using a super-resolution neural network for real-time audio signal conversion is assessed. It was concluded that, for all the amplification rates of r = 2 and r = 4, the convolutional network has the best performance: SNR of 27.2 and 22.6, while for r = 6 the most performant network was a small and fast-inference autoencoder. The considered baseline was the spline interpolation, whose greatest advantage is the extremely fast inference time, despite not resulting in good performance metrics when compared to neural networks.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Processamento de sinais de voz	pt_BR
dc.subject	Audio super-resolution	en
dc.subject	Redes neurais artificiais	pt_BR
dc.subject	Aartificial neural networks	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Machine learning	en
dc.subject	Signal processing	en
dc.subject	Bandwidth expansion	en
dc.title	Super-resolucao de audio utilizando redes neurais artificiais	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001186621	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Escola de Engenharia	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.graduation	Engenharia Mecânica	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001186621.pdf
Tamanho:: 3.094Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (40911)

TCC Engenharias (6193)

Mostrar registro simples