Assessing data leakage effects on the performance estimates of machine learning classifiers
Visualizar/abrir
Data
2023Orientador
Nível acadêmico
Graduação
Outro título
Avaliação dos efeitos do data leakage na estimativa de desempenho de classificadores baseados em aprendizado de máquina
Assunto
Abstract
Data Leakage (DL) in the context of Machine Learning (ML) refers to the inadvertent introduction of information from test data into the training process. This contamination can occur in various forms, including subtle ones such as during data pre-processing stages (e.g., normalization, handling missing values, and feature selection) and hyperparameter tuning. When DL takes place, it can result in an inflated estimation of model performance due to overfitting, which fails to translate into real- ...
Data Leakage (DL) in the context of Machine Learning (ML) refers to the inadvertent introduction of information from test data into the training process. This contamination can occur in various forms, including subtle ones such as during data pre-processing stages (e.g., normalization, handling missing values, and feature selection) and hyperparameter tuning. When DL takes place, it can result in an inflated estimation of model performance due to overfitting, which fails to translate into real-world predictions. In this study, we investigate the impact of DL on the performance assessment of classification models using a set of 30 carefully chosen data sets. These data sets were sourced from the Penn Machine Learning Benchmark repository, with an emphasis on varying their metadata (e.g., number of instances and number of features) but keeping a relative balance between classes. The assessment encompasses six distinct ML algorithms: K-Nearest Neighbors, Support Vector Machine, Decision Trees, Naïve Bayes, Random Forest, and Logistic Regression. Performance evaluation is carried out using variations of the k-fold cross-validation, and the balanced accuracy and F1 score metrics. The findings of this research reveal a consistent pattern of performance overestimation when DL is present. Notably, the effect of DL is particularly pronounced in the context of hyperparameter tuning and feature selection. Moreover, our analysis indicates a relatively higher susceptibility of the Support Vector Machine algorithm to DL, whereas the impact on Logistic Regression is comparatively less significant. Categorizing the data sets based on the impact of DL on their performance, we identified three groups: one group of 10 data sets experiences a substantial increase in performance estimates, another group of 9 shows a marginal increase, and the remaining 11 either maintain or exhibit decreased performance estimates in the presence of DL. In specific cases, we observed notable improvement in performance estimates, with average scores increasing up to 8 percentile points upon DL insertion, particularly for certain preparation tasks and data sets. Overall, our results suggest that the effects of DL should not be neglected since it tends to positively affect model performance, generating results that may be hard to replicate with real-world data. ...
Resumo
Data Leakage (DL) refere-se à introdução inadvertida de informações de dados de teste no processo de treinamento de modelos com aprendizado de máquina (AM) . Esse vazamento de dados pode ocorrer de formas sutis, como durante os estágios de pré-processamento de dados (e.g.,, normalização, tratamento de valores ausentes e seleção de atributos) e ajuste de hiperparâmetros, e pode resultar em uma estimativa inflacionada do desempenho do modelo devido ao overfitting, que não se traduz em previsões d ...
Data Leakage (DL) refere-se à introdução inadvertida de informações de dados de teste no processo de treinamento de modelos com aprendizado de máquina (AM) . Esse vazamento de dados pode ocorrer de formas sutis, como durante os estágios de pré-processamento de dados (e.g.,, normalização, tratamento de valores ausentes e seleção de atributos) e ajuste de hiperparâmetros, e pode resultar em uma estimativa inflacionada do desempenho do modelo devido ao overfitting, que não se traduz em previsões do mundo real. Neste estudo, investigamos o impacto do DL na avaliação de desempenho de classificadores usando 30 conjuntos de dados do repositório Penn Machine Learning Benchmark, escolhidos com ênfase na variação de seus metadados (e.g., número de instâncias e número de atributos) e no equilíbrio relativo entre as classes. A avaliação abrange seis algoritmos de AM: K-Nearest Neighbours, Support Vector Machine (SVM), Árvores de Decisão, Naïve Bayes, Florestas Aleatórias e Regressão Logística. O desempenho foi avaliado com variações da validação cruzada k-fold e com as métricas de acurácia balanceada e F1-score. Os resultados obtidos revelam um padrão consistente de superestimação de desempenho quando há vazamento de dados. Notavelmente, o efeito de DL é particularmente pronunciado no contexto do ajuste de hiperparâmetros e seleção de atributos. Observou-se uma susceptibilidade relativamente maior do algoritmo SVM ao DL, enquanto o impacto na regressão logística foi menos significativo. Com base no impacto do DL na estimativa de desempenho, identificamos três grupos dentre os conjuntos de dados: (i) 10 conjuntos de dados exibiram um aumento substancial nas estimativas de desempenho, (ii) 9 conjuntos de dados tiveram um aumento marginal, (iii) 11 conjuntos de dados mantiveram os reduziram a estimativa de desempenho na presença de DL. Para determinadas combinações de tarefas e conjuntos de dados, observamos uma melhoria notável nas estimativas de desempenho, com pontuações médias aumentando em até 8 pontos percentuais após a inserção de DL. No geral, os nossos resultados sugerem que os efeitos de DL não devem ser negligenciados, uma vez que tendem a afetar positivamente o desempenho dos modelos, gerando resultados que podem ser difíceis de replicar com dados do mundo real. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1043)
Este item está licenciado na Creative Commons License
![](/themes/Mirage2Novo//images/lume/cc.png)