Estudo de estratégias de validação cruzada baseadas em clusters

A Validação Cruzada desempenha um papel fundamental no Aprendizado de Máquina, permitindo uma avaliação robusta do desempenho dos modelos e evitando a superestima ção desse desempenho em dados de treinamento e validação. No entanto, uma de suas desvantagens é a possibilidade de criar subconjuntos de dados (folds) que não represen tam adequadamente a diversidade do conjunto original, o que pode levar a estimativas de desempenho enviesadas. O objetivo deste trabalho é aprofundar a pesquisa em estraté gias de validação cruzada baseadas em clusters, analisando o desempenho de diferentes algoritmos de agrupamento por meio de uma comparação experimental. Além disso, é proposta uma nova técnica de validação cruzada que combina Mini Batch K-Means com estratificação por classe. Experimentos foram conduzidos em 20 conjuntos de dados (balanceados e desbalanceados) utilizando quatro algoritmos de aprendizado supervisi onado, comparando as estratégias de validação cruzada em termos de viés, variância e custo computacional. A técnica que utiliza Mini Batch K-Means com estratificação por classe superou outras em termos de viés e variância em datasets balanceados, mas não reduziu significativamente o custo computacional. Em datasets desbalanceados, a valida ção cruzada estratificada tradicional foi consistentemente superior, apresentando menor viés, variância e custo computacional, tornando-se uma escolha segura para avaliação de desempenho em cenários com desbalanceamento de classes. Na comparação entre diferentes algoritmos de agrupamento, não houve um algoritmo que se destacou consis tentemente como superior. De forma geral, este trabalho contribui para o aprimoramento das estratégias de avaliação de modelos preditivos, oferecendo um melhor entendimento sobre o potencial das técnicas de divisão de dados baseadas em clusters e a eficácia de estratégias bem estabelecidas, como a validação cruzada estratificada. Além disso, aponta perspectivas para aumentar a robustez e a confiabilidade na avaliação de modelos de AM, especialmente em conjuntos de dados com características de agrupamento. ...

Abstract

Cross-Validation plays a fundamental role in Machine Learning, allowing for a robust evaluation of model performance and preventing the overestimation of this performance in training and validation data. However, one of its drawbacks is the potential to create data subsets (folds) that do not adequately represent the diversity of the original dataset, which can lead to biased performance estimates. The objective of this work is to deepen the research on cluster-based cross-validation strategies by analyzing the performance of different clustering algorithms through an experimental comparison. Additionally, a new cross-validation technique that combines Mini Batch K-Means with class stratification is proposed. Experiments were conducted on 20 datasets (both balanced and imbalanced) using four supervised learning algorithms, comparing cross-validation strategies in terms of bias, variance, and computational cost. The technique that uses Mini Batch K-Means with class stratification outperformed others in terms of bias and variance in balanced datasets, but did not significantly reduce computational cost. In imbalanced datasets, traditional stratified cross-validation consistently performed better, showing lower bias, variance, and computational cost, making it a safe choice for performance evaluation in scenarios with class imbalance. In the comparison of different clustering algorithms, no single algorithm consistently stood out as superior. Overall, this work contributes to the enhancement of predictive model evaluation strategies, providing a better understanding of the potential of cluster-based data splitting techniques and the effectiveness of well established strategies like stratified cross-validation. Moreover, it highlights perspectives for increasing the robustness and reliability of model evaluations, especially in datasets with clustering characteristics. ...

Institución

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado.

Colecciones

Tesinas de Curso de Grado (37607)

Tesinas Ciencia de la Computación (1025)

Otras opciones

Mostrar todos los metadatos

Estatísticas

Este ítem está licenciado en la Creative Commons License