Show simple item record

dc.contributor.advisorMatte, Ursula da Silveirapt_BR
dc.contributor.authorBorges, Pâmellapt_BR
dc.date.accessioned2022-10-27T04:49:51Zpt_BR
dc.date.issued2021pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/250399pt_BR
dc.description.abstractA análise de variantes representa um processo crítico no diagnóstico molecular e os programas in silico são especialmente usados quando nenhuma informação de literatura está disponível. Diferentes programas avaliam os possíveis efeitos gerados pela mutação, considerando critérios como conservação de aminoácidos e nucleotídeos, local e importância estrutural da alteração e fatores bioquímicos. Entretanto, esses critérios recebem pesos diferentes em cada programa e isso pode impactar diferentes grupos de proteínas de forma desigual. Portanto, saber qual programa é melhor para um gene específico representa uma maneira de aumentar a confiança na avaliação dos preditores. Porém, a obtenção desta informação implica em extensa revisão da literatura para avaliação dos programas. O processamento de linguagem natural, uma técnica de mineração de texto, pode ser empregado como forma de automatizar a busca na literatura de informações sobre as variantes e assim poder comparar os preditores com uma base maior de informações. Portanto, o objetivo deste trabalho é desenvolver uma ferramenta para comparar preditores in silico de acordo com o tipo de proteína. Uma revisão dos preditores mais e menos citados na literatura questiona os critérios de escolha das ferramentas para avaliar variantes missense e discorre sobre as características dos principais preditores. Para estabelecer o workflow para a ferramenta proposta e obter dados de validação, foi realizada a comparação de 34 ferramentas in silico utilizando dados curados manualmente para o gene IDUA. O desempenho dos preditores foi avaliado em dois grupos de variantes, um criado a partir de critérios mais rigorosos (108 variantes) e o outro a partir de critérios menos rigorosos (160 variantes). Os mesmos três preditores (BayesDel, PONP2 e ClinPred) apresentaram melhores desempenhos nos dois grupos e foram usados para avaliar 462 variantes de significado incerto. Finalmente, o pipeline de análise utilizado nesta comparação está sendo integrado com um algoritmo de mineração de texto, ainda em desenvolvimento, que realiza a extração automatizada das variantes relatadas na literatura com a sua interpretação clínica. Espera-se que a automatização de todo o processo possa ser usada para a escolha dos melhores preditores para cada situação específica.pt_BR
dc.description.abstractVariant analysis represents a critical process in molecular diagnosis and in silico programs are traditionally used when no literature information is available. Different programs evaluate the possible effects generated by the variant, considering criteria such as conservation of amino acids and nucleotides, location and structural importance of the alteration, and biochemical factors. However, these criteria are given different weights in each program and this can have an uneven impact on different groups of proteins. Therefore, knowing which program is best for a specific gene is a way to increase confidence in predictor evaluation. However, obtaining this information implies an extensive literature review to evaluate the programs. Natural language processing, a text mining technique, can be used as a way to automate the literature search for information about variants and thus allow the comparison of predictors with a larger informational base. Therefore, the aim of this work is to develop a tool to compare in silico predictors according to the protein type. A review of predictors’ most and least cited in the literature question the criteria for choosing tools to assess missense variants and discuss the characteristics of the main predictors. To establish the workflow and obtain validation data for the proposed tool, 34 programs were compared in silico using manually cured data for the IDUA gene. The predictors' performance was evaluated in two groups of variants, one created stricter criteria (108 variants) and the other less stringent criteria (160 variants). The same three predictors (BayesDel, PONP2, and ClinPred) had the best performance in both groups and were used to evaluate 462 variants of uncertain significance. Finally, the analysis pipeline used in this comparison is being integrated with a text mining algorithm, still under development, which performs the automated extraction of the variants reported in the literature with its clinical interpretation. It is expected that the automation of the entire process can be used to choose the best predictors for each specific situation.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectDiagnostico molecularpt_BR
dc.subjectSilico programsen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectSilico predictorsen
dc.titleComparação de ferramentas in silico para avaliação de patogenicidade de variantes missensept_BR
dc.typeDissertaçãopt_BR
dc.identifier.nrb001142456pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Biociênciaspt_BR
dc.degree.programPrograma de Pós-Graduação em Genética e Biologia Molecularpt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2021pt_BR
dc.degree.levelmestradopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record