Taxonomic inference with DNA foundation models

Schoier, Andrey Felipe

dc.contributor.advisor	Dorn, Márcio	pt_BR
dc.contributor.author	Schoier, Andrey Felipe	pt_BR
dc.date.accessioned	2026-01-21T07:55:17Z	pt_BR
dc.date.issued	2025	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/300482	pt_BR
dc.description.abstract	The proliferation of transformer-based architectures in computational biology has catalyzed the development of foundation models pre-trained on genomic sequences, offering unprecedented capabilities in deciphering biological patterns. Concurrently, taxonomic identification through DNA fragment analysis remains a cornerstone of metagenomics, enabling the characterization of microbial communities across ecological, clinical, and industrial contexts. Yet fine-grained classification remains challenging, as sequence diversity, class imbalance, and the vast cardinality of taxonomic ranks limit the accuracy of existing methods. In this work, we leverage state-of-the-art DNA foundation models, fine-tuning eight backbones - including DNABERT-2, the Nucleotide Transformer family, and GENA-LM - on datasets derived from the kraken2 reference library spanning seven taxonomic ranks, from kingdom to species. Across 56 supervised runs we evaluate macroaveraged F1 scores, observing clear rank-dependent trends: at coarse levels (kingdom, phylum) even compact models achieve high performance, at intermediate levels (class, order) accuracy saturates regardless of scale, and at fine levels (family, genus, species) extreme class cardinality and limited per-class data drive accuracy to low plateaus. These results show that genomic foundation models cannot yet replace reference-based tools such as kraken2 for species-level assignment, but they provide complementary value through embeddings and attention patterns that support the discovery of new biologic patterns such as motif and conserved domain of evolutionary relevance. This dissertation establishes both the opportunities and limits of transformer-based models for taxonomic classification and frames their integration into metagenomic workflows as auxiliary tools for interpretability and evolutionary insight.	en
dc.description.abstract	A proliferação de arquiteturas baseadas em transformadores na biologia computacional tem catalisado o desenvolvimento de modelos de fundação pré-treinados em sequências genômicas, oferecendo capacidades inéditas para decifrar padrões biológicos. Paralelamente, a identificação taxonômica por meio da análise de fragmentos de DNA permanece um pilar da metagenômica, possibilitando a caracterização de comunidades microbianas em contextos ecológicos, clínicos e industriais. No entanto, a classificação em níveis mais finos continua sendo um desafio, pois a diversidade das sequências, o desbalanceamento das classes e a elevada cardinalidade dos níveis taxonômicos limitam a acurácia dos métodos existentes. Neste trabalho, exploramos modelos de fundação de DNA de última geração, ajustando oito arquiteturas - incluindo DNABERT-2, a família Nucleotide Transformer e GENA-LM - em conjuntos de dados derivados da biblioteca de referência do kraken2, abrangendo sete níveis taxonômicos, do reino à espécie. Ao longo de 56 execuções supervisionadas, avaliamos o desempenho por meio da métrica F1-macro, observando tendências claras dependentes do nível taxonômico: em níveis mais amplos (reino, filo), até mesmo modelos compactos atingem alta performance; em níveis intermediários (classe, ordem), a acurácia satura independentemente da escala; e em níveis mais finos (família, gênero, espécie), a elevada cardinalidade das classes e a limitação de exemplos por classe levam a desempenhos baixos. Esses resultados mostram que os modelos de fundação genômicos ainda não podem substituir ferramentas baseadas em referência, como o kraken2, na atribuição em nível de espécie, mas oferecem valor complementar por meio de embeddings e padrões de atenção que apoiam a descoberta de novos padrões biológicos, tais como motivos e domínios conservados com relavância evolutiva. Esta dissertação estabelece tanto as oportunidades quanto as limitações dos modelos baseados em transformadores para classificação taxonômica e propõe sua integração em fluxos de trabalho metagenômicos como ferramentas auxiliares de interpretabilidade e de investigação evolutiva.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	DNA foundation models	en
dc.subject	Bioinformática	pt_BR
dc.subject	Aprendizado por transferência	pt_BR
dc.subject	Transformer models	en
dc.subject	Biologia computacional	pt_BR
dc.subject	DNA	pt_BR
dc.subject	Aprendizado profundo	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.title	Taxonomic inference with DNA foundation models	pt_BR
dc.title.alternative	Inferência taxonômica com modelos de fundação de DNA	en
dc.type	Dissertação	pt_BR
dc.identifier.nrb	001299789	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2025	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 001299789.pdf
Tamanho:: 913.5Kb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5355)

Computação (1828)

Mostrar registro simples