Development of a machine learning model for molecular signature identification and early diagnostic support of Autism Spectrum Disorder

Speggiorin, Laura Galant

Visualizar/abrir

Texto completo (inglês) (2.236Mb)

Data

2024

Nível acadêmico

Graduação

Tipo

Trabalho de conclusão de graduação

URI

http://hdl.handle.net/10183/279144

Outras opções

Mostrar todos os metadados

Estatísticas

Outro título

Desenvolvimento de modelo de aprendizado de máquina para identificação de assinatura molecular e auxílio ao diagnóstico precoce de Transtorno do Espectro Autista

Assunto

Aprendizado de máquina

Bioinformática

Informática médica

Transtorno do espectro autista

[en] Ensemble

[en] Gene expression

[en] Neurodevelopment

[en] Transcriptomics

Abstract

Autism Spectrum Disorder (ASD) is a spectrum of prevalent, highly heritable, and heterogeneous neurodevelopmental disorders that manifest through impairments in social communication and interaction, sensory sensitivities, repetitive behaviors, and varying degrees of intellectual disability. Because of the increase in the diagnosis of ASD in recent years and the fact that its molecular mechanisms are not completely understood, better diagnosis and better understanding of its origins is pivotal. It is known that the occurrence of the disorder is influenced by both genetic and environmental factors, making biological data that combine both genetic and environmental influences such as genomewide gene expression levels a good candidate for this study. Machine Learning can be used to learn complex underlying patterns in ASD through classification algorithms. Considering the difficulty and impacts in life when the diagnosis is delayed and the fact that ASD may be influenced by prenatal, perinatal, and very early postnatal environmental factors, this work proposes a support machine learning model to aid in the early diagnosis of ASD with gene expression information from samples of blood collected from the umbilical cord at the time of birth, taking advantage of both genetic information as well as a unique insight to the neonate’s environment in its most susceptible period. That is achieved through a two-step ML classifier, where the first part classifies instances in typical development (TD) or not, and the second part tries to separate those classified as not being TD in ASD or not. An ensemble approach was used in each part, combining several of the most known algorithms tuned for each individual problem alongside dimensionality reduction techniques. The classifiers had their hyperparameters tuned to each problem, and the models were validated inside a k-fold cross-validation before being tested on previously separated data. Several metrics were extracted to characterize the proposed model’s performance, and they indicated subtle but promising results that validate the idea behind this work, suggesting this model could be an important step into building a reliable and robust pre-diagnostic tool. ...

Resumo

O Transtorno do Espectro do Autismo (TEA) é um grupo bastante frequente de transtornos hereditários e heterogêneos do neurodesenvolvimento que se manifestam por meio de déficits na comunicação e interação social, sensibilidades sensoriais, comportamentos repetitivos e variados níveis de deficiência intelectual. Com o aumento recente dos diagnósticos de TEA e a falta de compreensão aprofundada sobre seus mecanismos, é crucial melhorar o diagnóstico e entender melhor suas origens. Sabe-se que o TEA é influenciado por fatores genéticos e ambientais, e dados biológicos que combinam influencias genéticas e ambientais como dados de expressão gênica são promissores para investigar essas influências. O aprendizado de máquina pode ser usado para aprender padrões sutis e complexos em TEA, por meio de algoritmos de classificação. Considerando a dificuldade e os impactos na vida quanto mais tardio o diagnóstico, e o fato de que o TEA pode ser influenciado por fatores ambientais pré-natais, perinatais e pós-natais, este estudo propõe um modelo de aprendizado de máquina para auxiliar no diagnóstico precoce do TEA utilizando informações de expressão genética obtidas de amostras de sangue do cordão umbilical no momento do nascimento, aproveitando tanto a informação genética quanto uma visão única do ambiente do bebê em seu período mais suscetível. O modelo é composto por duas etapas: a primeira classifica os indivíduos como desenvolvimento típico (DT) ou não, e a segunda distingue TEA dentre as amostras classificadas como nao sendo DT. Utilizou-se uma abordagem ensemble, com múltiplos algoritmos de classificação para cada etapa, combinada com técnicas de redução de dimensionalidade. Os classificadores tiveram seus parametros ajustados e validados através de validação cruzada k-fold antes de serem testados em dados independentes. Diversas métricas foram extraídas para caracterizar o desempenho do modelo proposto, e indicaram resultados sutis, mas promissores, validando a hipotese deste estudo sugerindo que o modelo pode ser um passo importante para o desenvolvimento de uma ferramenta diagnóstica mais confiável e robusta para o TEA. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (40353)

TCC Ciência da Computação (1128)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License