Mostrar registro simples

dc.contributor.advisorRecamonde-Mendoza, Marianapt_BR
dc.contributor.authorSpezia, Afonso Martinipt_BR
dc.date.accessioned2024-09-25T06:42:29Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/279115pt_BR
dc.description.abstractA Validação Cruzada desempenha um papel fundamental no Aprendizado de Máquina, permitindo uma avaliação robusta do desempenho dos modelos e evitando a superestima ção desse desempenho em dados de treinamento e validação. No entanto, uma de suas desvantagens é a possibilidade de criar subconjuntos de dados (folds) que não represen tam adequadamente a diversidade do conjunto original, o que pode levar a estimativas de desempenho enviesadas. O objetivo deste trabalho é aprofundar a pesquisa em estraté gias de validação cruzada baseadas em clusters, analisando o desempenho de diferentes algoritmos de agrupamento por meio de uma comparação experimental. Além disso, é proposta uma nova técnica de validação cruzada que combina Mini Batch K-Means com estratificação por classe. Experimentos foram conduzidos em 20 conjuntos de dados (balanceados e desbalanceados) utilizando quatro algoritmos de aprendizado supervisi onado, comparando as estratégias de validação cruzada em termos de viés, variância e custo computacional. A técnica que utiliza Mini Batch K-Means com estratificação por classe superou outras em termos de viés e variância em datasets balanceados, mas não reduziu significativamente o custo computacional. Em datasets desbalanceados, a valida ção cruzada estratificada tradicional foi consistentemente superior, apresentando menor viés, variância e custo computacional, tornando-se uma escolha segura para avaliação de desempenho em cenários com desbalanceamento de classes. Na comparação entre diferentes algoritmos de agrupamento, não houve um algoritmo que se destacou consis tentemente como superior. De forma geral, este trabalho contribui para o aprimoramento das estratégias de avaliação de modelos preditivos, oferecendo um melhor entendimento sobre o potencial das técnicas de divisão de dados baseadas em clusters e a eficácia de estratégias bem estabelecidas, como a validação cruzada estratificada. Além disso, aponta perspectivas para aumentar a robustez e a confiabilidade na avaliação de modelos de AM, especialmente em conjuntos de dados com características de agrupamento.pt_BR
dc.description.abstractCross-Validation plays a fundamental role in Machine Learning, allowing for a robust evaluation of model performance and preventing the overestimation of this performance in training and validation data. However, one of its drawbacks is the potential to create data subsets (folds) that do not adequately represent the diversity of the original dataset, which can lead to biased performance estimates. The objective of this work is to deepen the research on cluster-based cross-validation strategies by analyzing the performance of different clustering algorithms through an experimental comparison. Additionally, a new cross-validation technique that combines Mini Batch K-Means with class stratification is proposed. Experiments were conducted on 20 datasets (both balanced and imbalanced) using four supervised learning algorithms, comparing cross-validation strategies in terms of bias, variance, and computational cost. The technique that uses Mini Batch K-Means with class stratification outperformed others in terms of bias and variance in balanced datasets, but did not significantly reduce computational cost. In imbalanced datasets, traditional stratified cross-validation consistently performed better, showing lower bias, variance, and computational cost, making it a safe choice for performance evaluation in scenarios with class imbalance. In the comparison of different clustering algorithms, no single algorithm consistently stood out as superior. Overall, this work contributes to the enhancement of predictive model evaluation strategies, providing a better understanding of the potential of cluster-based data splitting techniques and the effectiveness of well established strategies like stratified cross-validation. Moreover, it highlights perspectives for increasing the robustness and reliability of model evaluations, especially in datasets with clustering characteristics.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectValidação cruzadapt_BR
dc.subjectClustering algorithmsen
dc.subjectModel evaluationen
dc.subjectAprendizado de máquinapt_BR
dc.subjectClusteringpt_BR
dc.subjectAlgoritmos de agrupamentopt_BR
dc.titleEstudo de estratégias de validação cruzada baseadas em clusterspt_BR
dc.title.alternativeStudy of cluster-based cross-validation strategies pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001210875pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Engenharia da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples