Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
Visualizar/abrir
Data
2024Tipo
Outro título
Missing values imputation in time series using decision trees
Assunto
Resumo
O preenchimento de valores faltantes em séries temporais é um problema que tem recebido pouca atenção. Os estudos encontrados na literatura geralmente se concentram em modelos lineares da família ARIMA e não discutem a validade das metodologias propostas para casos com um grande volume de dados faltantes, nos quais métodos paramétricos tornam-se desafiadores devido ao problema adicional de identificar a ordem do modelo. Para abordar essas questões, este estudo propõe uma metodologia de reconstr ...
O preenchimento de valores faltantes em séries temporais é um problema que tem recebido pouca atenção. Os estudos encontrados na literatura geralmente se concentram em modelos lineares da família ARIMA e não discutem a validade das metodologias propostas para casos com um grande volume de dados faltantes, nos quais métodos paramétricos tornam-se desafiadores devido ao problema adicional de identificar a ordem do modelo. Para abordar essas questões, este estudo propõe uma metodologia de reconstrução de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem os valores conhecidos da série temporal atuam como a variável resposta, enquanto as defasagens correspondentes são usadas como preditores. A árvore selecionada pelo algoritmo de treinamento é então usada para prever os valores faltantes na resposta. Simulações de Monte Carlo são utilizadas para investigar a metodologia proposta, considerando processos da família ARMA e o passeio aleatório, variando o tamanho da série temporal, parâmetros dos modelos, proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos tradicionais de imputação. Os resultados demonstram o potencial do método proposto e são consistentes com o arcabouço teórico deste estudo. Para promover a metodologia proposta, foi desenvolvido um aplicativo em Shiny que está disponível publicamente. ...
Abstract
Filling in missing values in time series is a problem that has received little attention. The studies foundin the literature generally focus on linear models from the ARIMA family and do not discuss the validity of proposed methodologies for cases with a large volume of missing data, in which parametric methods become challenging due to the additional problem of identifying the order of the model. To address these issues, this study proposes a methodology for time series reconstruction using de ...
Filling in missing values in time series is a problem that has received little attention. The studies foundin the literature generally focus on linear models from the ARIMA family and do not discuss the validity of proposed methodologies for cases with a large volume of missing data, in which parametric methods become challenging due to the additional problem of identifying the order of the model. To address these issues, this study proposes a methodology for time series reconstruction using decision trees, a machine learning method that does not assume a parametric model for the data. In this approach, the known values of the time series act as the response variable, while corresponding lags are used as predictors. Thetree selected by the training algorithm is then used to predict the missing values in the response. Monte Carlo simulations are used to investigate the proposed methodology, considering processes from the ARMA family and the random walk, while varying the size of the time series, model parameters, proportionof missing values, and the predictors. To evaluate the quality of the reconstructions, the predictions of the decision trees are compared with those of some traditional imputation methods. The results demonstrate the potential of the proposed method and are consistent with the theoretical framework of this study. To promote the proposed methodology, a shiny application has been developed and made publicly available. ...
Contido em
Ciencia e natura. Santa Maria, RS. Vol. 46 (2024), e84257
Origem
Nacional
Coleções
-
Artigos de Periódicos (44386)Ciências Exatas e da Terra (6548)
Este item está licenciado na Creative Commons License


