Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
View/ Open
Date
2022Author
Advisor
Academic level
Graduation
Title alternative
Previsão da cor dos olhos e da pele para a população brasileiros utilizando polimorfismos de nucleotídeo único
Subject
Abstract
When a crime is under investigation, especially when too many questions are unanswered, it is necessary to reduce the number of suspects to be able to solve the investigation. To reduce the number of suspects, any detail found at the crime scene is important, such as a strand of hair, DNA, or even a fingerprint. When the DNA found does not have the com plete information to be able to determine the identity of the suspect, some information can still be extracted from it, like the information of ...
When a crime is under investigation, especially when too many questions are unanswered, it is necessary to reduce the number of suspects to be able to solve the investigation. To reduce the number of suspects, any detail found at the crime scene is important, such as a strand of hair, DNA, or even a fingerprint. When the DNA found does not have the com plete information to be able to determine the identity of the suspect, some information can still be extracted from it, like the information of eye color or skin color. This work presents the application of Machine Learning algorithms, such as Random Forest, and Support Vector Machine to determine the pigmentation of the eye and skin using Single Nucleotide Polymorphisms (SNPs) from a DNA sample for forensics use. The follow ing chapters will present the necessary studies to investigate a solution for the proposed problem. Genetic and machine learning theoretical basis are presented, as well as related works, experiments, and results. Each dataset contains sixty-six SNPs and three classes: Blue, Intermediate, and Dark Brown are the classes related to eye color, and White, Inter mediate, and Brown are the classes related to skin color. 144 experiments were executed (72 for eye and 72 for skin classification), combining different approaches of feature se lection, class balanced, and classifiers to define the best solution. The data used for this study were collected from the Southern Brazilian population. The final results showed that 4 SNPs can be used to predict Blue and Dark Brown classes. For skin classification, 56 SNPs can be used when SMOTE is applied to balance the classes, but a further inves tigation is necessary to understand if the SMOTE is impacting the selection of the SNPs. Using 36 SNPs without class balance also achieved a close result. All the experiments had a bad performance for the Intermediate classes. For future work, a better investigation of intermediate colors is necessary. ...
Abstract in Portuguese (Brasil)
Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a inf ...
Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a informação da cor dos olhos ou da pele. Este trabalho apresenta a aplicação de algoritmos de Aprendizado de Máquina, como Random Forest e Support Vector Machine para determinar a pigmen tação do olho e da pele usando Polimorfismos de Nucleotídeo Único (SNPs) a partir de uma amostra de DNA para uso forense. Os capítulos seguintes apresentarão os estudos necessários para investigar uma solução para o problema proposto. São apresentadas as bases teóricas de genéticas e de aprendizado de máquina, bem como trabalhos relaciona dos, experimentos e resultados. Cada conjunto de dados contém sessenta e seis SNPs e três classes: Azul, Intermediário e Marrom Escuro são as classes relacionadas à cor dos olhos, e Branco, Intermediário e Marrom são as classes relacionadas à cor da pele. Foram executados 144 experimentos (72 para olho e 72 para classificação de pele), combinando diferentes abordagens de seleção de features, balanceamento de classe e classificadores para definir a melhor solução. Os dados utilizados para este estudo foram coletados da população do Sul do Brasil. Os resultados finais mostraram que 4 SNPs podem ser utili zados para prever as classes Azul e Marrom Escuro. Para classificação da pele, 56 SNPs podem ser utilizados quando SMOTE é aplicado para equilibrar as classes, mas é neces sária uma investigação mais aprofundada para entender se o SMOTE está impactando na seleção dos SNPs. O uso de 36 SNPs sem balanceamento de classe também obteve um resultado próximo. Todos os experimentos tiveram um desempenho ruim para as classes Intermediárias. Para trabalhos futuros, é necessária uma melhor investigação de cores intermediárias. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Collections
This item is licensed under a Creative Commons License