Estudo e otimização dos softwares de bioinformática do Hospital de Clínicas de Porto Alegre
Visualizar/abrir
Data
2021Autor
Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Study and optimization of the bioinformatics software used by Hospital de Clínicas de Porto Alegre
Resumo
Neste trabalho foi realizado um estudo e otimização dos problemas de desempenho presentes em alguns dos softwares de bioinformática utilizados pelo grupo de pesquisa em genética do Hospital de Clínicas de Porto Alegre (HCPA). O trabalho focou no software de análise filogenética codeml, do pacote PAML, amplamente utilizado na literatura, e no pacote SAMtools, usado para chamada de variantes, considerado estado da arte. O pipeline de chamada de variantes foi otimizado através do desenvolvimento d ...
Neste trabalho foi realizado um estudo e otimização dos problemas de desempenho presentes em alguns dos softwares de bioinformática utilizados pelo grupo de pesquisa em genética do Hospital de Clínicas de Porto Alegre (HCPA). O trabalho focou no software de análise filogenética codeml, do pacote PAML, amplamente utilizado na literatura, e no pacote SAMtools, usado para chamada de variantes, considerado estado da arte. O pipeline de chamada de variantes foi otimizado através do desenvolvimento de uma ferramenta que paraleliza jobs do SAMtools, reduzindo em até 88,79% o tempo de análise do grupo de pesquisa, e evitando um uso elevado de memória presente em trabalhos relacionados. Foi implementada também uma interface gráfica, visando facilitar o uso do ferramental por profissionais que porventura não estejam familiarizados com interfaces por linha de comando. Já para a análise filogenética, foi identificada uma ferramenta para execução paralela de jobs do codeml através de uma revisão bibliográfica e de análises de desempenho, reduzindo em até 68% o tempo de análise dos pesquisadores. Um perfil de execução do codeml foi traçado, mapeando seus gargalos de desempenho. Os algoritmos responsáveis por 97,28% do seu processamento foram descritos, e uma abordagem para sua paralelização foi explorada, resultando em uma caracterização do software potencialmente útil a trabalhos futuros. ...
Abstract
In this paper we studied and optimized the performance bottlenecks found in some of the bioinformatics software used by the genetics research group from Hospital de Clínicas de Porto Alegre (HCPA). The focus of our work was in the phylogenetic analysis software called codeml, from the PAML package, which is widely used in the literature, as well on the SAMtools package, used for variant calling and considered state of the art. We optimized the variant calling pipeline by developping a tool for ...
In this paper we studied and optimized the performance bottlenecks found in some of the bioinformatics software used by the genetics research group from Hospital de Clínicas de Porto Alegre (HCPA). The focus of our work was in the phylogenetic analysis software called codeml, from the PAML package, which is widely used in the literature, as well on the SAMtools package, used for variant calling and considered state of the art. We optimized the variant calling pipeline by developping a tool for the parallel execution of SAMtools jobs, reducing total execution time for the group by 88.79%, at the same time avoiding elevated memory usage present in related work. A graphical interface was also developed in order to facilitate its usage by professionals who may not be familiarized with command line interfaces. We also identified a tool that runs parallel codeml jobs through bibliography review and performance analysis. This reduced the researcher’s phylogenetic analysis time by 68%. An execution profile was traced for codeml, map ping its performance bottlenecks. We described the algorithms responsible for 97.28% of its processing while also exploring a parallel implementation for them, resulting in a characterization of this software, which may be useful for future work. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1024)
Este item está licenciado na Creative Commons License