Taxonomic inference with DNA foundation models
| dc.contributor.advisor | Dorn, Márcio | pt_BR |
| dc.contributor.author | Schoier, Andrey Felipe | pt_BR |
| dc.date.accessioned | 2026-01-21T07:55:17Z | pt_BR |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | http://hdl.handle.net/10183/300482 | pt_BR |
| dc.description.abstract | The proliferation of transformer-based architectures in computational biology has catalyzed the development of foundation models pre-trained on genomic sequences, offering unprecedented capabilities in deciphering biological patterns. Concurrently, taxonomic identification through DNA fragment analysis remains a cornerstone of metagenomics, enabling the characterization of microbial communities across ecological, clinical, and industrial contexts. Yet fine-grained classification remains challenging, as sequence diversity, class imbalance, and the vast cardinality of taxonomic ranks limit the accuracy of existing methods. In this work, we leverage state-of-the-art DNA foundation models, fine-tuning eight backbones - including DNABERT-2, the Nucleotide Transformer family, and GENA-LM - on datasets derived from the kraken2 reference library spanning seven taxonomic ranks, from kingdom to species. Across 56 supervised runs we evaluate macroaveraged F1 scores, observing clear rank-dependent trends: at coarse levels (kingdom, phylum) even compact models achieve high performance, at intermediate levels (class, order) accuracy saturates regardless of scale, and at fine levels (family, genus, species) extreme class cardinality and limited per-class data drive accuracy to low plateaus. These results show that genomic foundation models cannot yet replace reference-based tools such as kraken2 for species-level assignment, but they provide complementary value through embeddings and attention patterns that support the discovery of new biologic patterns such as motif and conserved domain of evolutionary relevance. This dissertation establishes both the opportunities and limits of transformer-based models for taxonomic classification and frames their integration into metagenomic workflows as auxiliary tools for interpretability and evolutionary insight. | en |
| dc.description.abstract | A proliferação de arquiteturas baseadas em transformadores na biologia computacional tem catalisado o desenvolvimento de modelos de fundação pré-treinados em sequências genômicas, oferecendo capacidades inéditas para decifrar padrões biológicos. Paralelamente, a identificação taxonômica por meio da análise de fragmentos de DNA permanece um pilar da metagenômica, possibilitando a caracterização de comunidades microbianas em contextos ecológicos, clínicos e industriais. No entanto, a classificação em níveis mais finos continua sendo um desafio, pois a diversidade das sequências, o desbalanceamento das classes e a elevada cardinalidade dos níveis taxonômicos limitam a acurácia dos métodos existentes. Neste trabalho, exploramos modelos de fundação de DNA de última geração, ajustando oito arquiteturas - incluindo DNABERT-2, a família Nucleotide Transformer e GENA-LM - em conjuntos de dados derivados da biblioteca de referência do kraken2, abrangendo sete níveis taxonômicos, do reino à espécie. Ao longo de 56 execuções supervisionadas, avaliamos o desempenho por meio da métrica F1-macro, observando tendências claras dependentes do nível taxonômico: em níveis mais amplos (reino, filo), até mesmo modelos compactos atingem alta performance; em níveis intermediários (classe, ordem), a acurácia satura independentemente da escala; e em níveis mais finos (família, gênero, espécie), a elevada cardinalidade das classes e a limitação de exemplos por classe levam a desempenhos baixos. Esses resultados mostram que os modelos de fundação genômicos ainda não podem substituir ferramentas baseadas em referência, como o kraken2, na atribuição em nível de espécie, mas oferecem valor complementar por meio de embeddings e padrões de atenção que apoiam a descoberta de novos padrões biológicos, tais como motivos e domínios conservados com relavância evolutiva. Esta dissertação estabelece tanto as oportunidades quanto as limitações dos modelos baseados em transformadores para classificação taxonômica e propõe sua integração em fluxos de trabalho metagenômicos como ferramentas auxiliares de interpretabilidade e de investigação evolutiva. | pt_BR |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language.iso | eng | pt_BR |
| dc.rights | Open Access | en |
| dc.subject | DNA foundation models | en |
| dc.subject | Bioinformática | pt_BR |
| dc.subject | Aprendizado por transferência | pt_BR |
| dc.subject | Transformer models | en |
| dc.subject | Biologia computacional | pt_BR |
| dc.subject | DNA | pt_BR |
| dc.subject | Aprendizado profundo | pt_BR |
| dc.subject | Processamento de linguagem natural | pt_BR |
| dc.title | Taxonomic inference with DNA foundation models | pt_BR |
| dc.title.alternative | Inferência taxonômica com modelos de fundação de DNA | en |
| dc.type | Dissertação | pt_BR |
| dc.identifier.nrb | 001299789 | pt_BR |
| dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
| dc.degree.department | Instituto de Informática | pt_BR |
| dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
| dc.degree.local | Porto Alegre, BR-RS | pt_BR |
| dc.degree.date | 2025 | pt_BR |
| dc.degree.level | mestrado | pt_BR |
Este item está licenciado na Creative Commons License
-
Ciências Exatas e da Terra (5355)Computação (1828)

