Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão

Neimaier, Alisson Silva

dc.contributor.advisor	Prass, Taiane Schaedler	pt_BR
dc.contributor.author	Neimaier, Alisson Silva	pt_BR
dc.date.accessioned	2022-07-05T05:07:53Z	pt_BR
dc.date.issued	2022	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/241746	pt_BR
dc.description.abstract	Na literatura existem diversas técnicas para o tratamento de observações faltantes para dados que não são séries temporais. Já no contexto de séries temporais encontram-se alguns trabalhos focados em modelos lineares da família ARIMA. Entretanto, em geral, os artigos não discutem a validade das metodologias propostas para o caso de um grande volume de dados faltantes. Nesse contexto, a identificação da ordem do modelo apropriado para utilização de métodos paramétricos é outro ponto desafiador. Tendo em vista esses fatos, este trabalho aborda uma metodologia para recomposição de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal fazem o papel de variável resposta, enquanto que defasagens correspondentes a tais valores são utilizadas como preditoras, a árvore selecionada pelo algoritmo de treinamento é então utilizada para prever os valores faltantes na resposta. Para investigar a metodologia proposta, foram utilizadas simulações de Monte Carlo, considerando processos da família ARMA e o passeio aleatório, variando o tamanho das séries temporais, os parâmetros dos modelos, a proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos de inputação tradicionais. Os resultados encontrados evidenciam a potencial do método proposto e condizem com o referencial teórico deste estudo.	pt_BR
dc.description.abstract	There are plenty of techniques for the treatment of missing data outside of the time series framework and some in the context of linear time series from the ARIMA family. However, in general, these articles do not discuss the validity of the proposed methodologies in case of a large volume of missing data. In this context, identifying the appropriate model order for the parametric methods is another challenging point. With that in mind, this work proposes a methodology for recomposing time series using decision trees, a machine learning method that does not assume a parametric model for the data. In this approach, the known values of the time series are treated as the response variable, while the lags corresponding to those values are used as predictors. The tree selected by the training algorithm is then used to predict the missing values in the response. To analyze the proposed methodology, we use Monte Carlo simulations, considering processes from the ARMA family and the random walk processes varying the size of the time series, the model parameters, the proportion of missing values, and the number of predictors. To assess the quality of the recomposition, the decision trees’ predictions were compared with those of some traditional inputation methods. The results show the potential of the methodology and are in line with what was built in the theoretical framework of this study.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Time series	en
dc.subject	Séries temporais	pt_BR
dc.subject	Arvore de decisoes	pt_BR
dc.subject	Decision trees	en
dc.subject	Missing data	en
dc.title	Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001143634	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Matemática e Estatística	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2022	pt_BR
dc.degree.graduation	Estatística: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001143634.pdf
Tamanho:: 2.830Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (38354)

TCC Estatística (296)

Mostrar registro simples