Mostrar registro simples

dc.contributor.advisorDorn, Márciopt_BR
dc.contributor.authorSchoier, Andrey Felipept_BR
dc.date.accessioned2026-01-21T07:55:17Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/300482pt_BR
dc.description.abstractThe proliferation of transformer-based architectures in computational biology has catalyzed the development of foundation models pre-trained on genomic sequences, offering unprecedented capabilities in deciphering biological patterns. Concurrently, taxonomic identification through DNA fragment analysis remains a cornerstone of metagenomics, enabling the characterization of microbial communities across ecological, clinical, and industrial contexts. Yet fine-grained classification remains challenging, as sequence diversity, class imbalance, and the vast cardinality of taxonomic ranks limit the accuracy of existing methods. In this work, we leverage state-of-the-art DNA foundation models, fine-tuning eight backbones - including DNABERT-2, the Nucleotide Transformer family, and GENA-LM - on datasets derived from the kraken2 reference library spanning seven taxonomic ranks, from kingdom to species. Across 56 supervised runs we evaluate macroaveraged F1 scores, observing clear rank-dependent trends: at coarse levels (kingdom, phylum) even compact models achieve high performance, at intermediate levels (class, order) accuracy saturates regardless of scale, and at fine levels (family, genus, species) extreme class cardinality and limited per-class data drive accuracy to low plateaus. These results show that genomic foundation models cannot yet replace reference-based tools such as kraken2 for species-level assignment, but they provide complementary value through embeddings and attention patterns that support the discovery of new biologic patterns such as motif and conserved domain of evolutionary relevance. This dissertation establishes both the opportunities and limits of transformer-based models for taxonomic classification and frames their integration into metagenomic workflows as auxiliary tools for interpretability and evolutionary insight.en
dc.description.abstractA proliferação de arquiteturas baseadas em transformadores na biologia computacional tem catalisado o desenvolvimento de modelos de fundação pré-treinados em sequências genômicas, oferecendo capacidades inéditas para decifrar padrões biológicos. Paralelamente, a identificação taxonômica por meio da análise de fragmentos de DNA permanece um pilar da metagenômica, possibilitando a caracterização de comunidades microbianas em contextos ecológicos, clínicos e industriais. No entanto, a classificação em níveis mais finos continua sendo um desafio, pois a diversidade das sequências, o desbalanceamento das classes e a elevada cardinalidade dos níveis taxonômicos limitam a acurácia dos métodos existentes. Neste trabalho, exploramos modelos de fundação de DNA de última geração, ajustando oito arquiteturas - incluindo DNABERT-2, a família Nucleotide Transformer e GENA-LM - em conjuntos de dados derivados da biblioteca de referência do kraken2, abrangendo sete níveis taxonômicos, do reino à espécie. Ao longo de 56 execuções supervisionadas, avaliamos o desempenho por meio da métrica F1-macro, observando tendências claras dependentes do nível taxonômico: em níveis mais amplos (reino, filo), até mesmo modelos compactos atingem alta performance; em níveis intermediários (classe, ordem), a acurácia satura independentemente da escala; e em níveis mais finos (família, gênero, espécie), a elevada cardinalidade das classes e a limitação de exemplos por classe levam a desempenhos baixos. Esses resultados mostram que os modelos de fundação genômicos ainda não podem substituir ferramentas baseadas em referência, como o kraken2, na atribuição em nível de espécie, mas oferecem valor complementar por meio de embeddings e padrões de atenção que apoiam a descoberta de novos padrões biológicos, tais como motivos e domínios conservados com relavância evolutiva. Esta dissertação estabelece tanto as oportunidades quanto as limitações dos modelos baseados em transformadores para classificação taxonômica e propõe sua integração em fluxos de trabalho metagenômicos como ferramentas auxiliares de interpretabilidade e de investigação evolutiva.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectDNA foundation modelsen
dc.subjectBioinformáticapt_BR
dc.subjectAprendizado por transferênciapt_BR
dc.subjectTransformer modelsen
dc.subjectBiologia computacionalpt_BR
dc.subjectDNApt_BR
dc.subjectAprendizado profundopt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.titleTaxonomic inference with DNA foundation modelspt_BR
dc.title.alternativeInferência taxonômica com modelos de fundação de DNA en
dc.typeDissertaçãopt_BR
dc.identifier.nrb001299789pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.levelmestradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples