Previsão de resultados no vôlei de praia utilizando modelagem estatística
View/ Open
Date
2024Author
Advisor
Academic level
Graduation
Subject
Abstract in Portuguese (Brasil)
Este trabalho visou à previsão de resultados em partidas de vôlei de praia. Foram utilizadas três metodologias: regressão logística, árvores de decisão e K-Nearest Neighbors (KNN). A base de dados utilizada contém dados de jogos masculinos e femininos, tanto do circuito norte-americano (AVP) quanto do circuito internacional (FIVB). Foram utilizadas variáveis referentes às estatísticas do jogo, informações de cada dupla, e a aspectos pessoais de cada jogador, como idade e altura. As variáveis re ...
Este trabalho visou à previsão de resultados em partidas de vôlei de praia. Foram utilizadas três metodologias: regressão logística, árvores de decisão e K-Nearest Neighbors (KNN). A base de dados utilizada contém dados de jogos masculinos e femininos, tanto do circuito norte-americano (AVP) quanto do circuito internacional (FIVB). Foram utilizadas variáveis referentes às estatísticas do jogo, informações de cada dupla, e a aspectos pessoais de cada jogador, como idade e altura. As variáveis referentes às estatísticas de cada jogo foram utilizadas no modelo por meio do cálculo de suas médias móveis simples das quatro partidas imediatamente anteriores à que está sendo prevista. Definiu-se que apenas os jogos da AVP seriam utilizados nas análises. A seleção de variáveis foi feita aplicando-se, para cada gênero, o método backward stepwise em duzentos conjuntos diferentes de dados de treino e teste, sendo que as variáveis que fossem eliminadas em mais de 50% destas repetições seriam removidas das análises. Os modelos com apenas as variáveis selecionadas se apresentaram vantajosos para ambos os gêneros devido à maior simplicidade de interpretação e precisão, medidas de ajuste e diagnóstico de resíduos semelhantes ao modelo completo. As médias de acurácia, sensibilidade e especificidade das previsões no modelo de regressão logística com variáveis selecionadas dos jogos masculinos foram de 0.721, 0.719 e 0.706, respectivamente. Para as partidas femininas, estes valores foram de 0.751, 0.742 e 0.755. O método KNN apresentou médias de acurácia, sensibilidade e especificidade de 0.705, 0.711 e 0.700 para os jogos masculinos e de 0.723, 0.701 e 0.745, respectivamente, para os femininos. Utilizando árvores de decisão, estes valores foram de 0.696, 0.697 e 0.695 para as partidas masculinas e de 0.731, 0.751 e 0.711 para as femininas. Ao avaliar os coeficientes da regressão logística para o último conjunto de dados de treino e de teste analisado, bem como a árvore de decisão gerada, ficou claro que as variáveis mais relevantes para a previsão dos resultados foram os rankings das duplas de referência e de oposição. Conclui-se que todos os métodos testados apresentam maior acurácia para as partidas femininas e que, com a metodologia utilizada, o modelo de regressão logística tende a apresentar desempenho preditivo levemente superior à dos outros métodos analisados. ...
Abstract
This work aimed to predict results in beach volleyball matches. Three methodologies were used: logistic regression, decision trees and K-Nearest Neighbors (KNN). The database used contains data from men’s and women’s games, both from the North American circuit (AVP) as well as from the international circuit (FIVB). Game statistics, information about each team and personal aspects of each player, such as age and height, were used as variables. Those regarding each game’s statistics were used in ...
This work aimed to predict results in beach volleyball matches. Three methodologies were used: logistic regression, decision trees and K-Nearest Neighbors (KNN). The database used contains data from men’s and women’s games, both from the North American circuit (AVP) as well as from the international circuit (FIVB). Game statistics, information about each team and personal aspects of each player, such as age and height, were used as variables. Those regarding each game’s statistics were used in the model by calculating their simple moving averages from the four matches preceding the one being predicted. It was decided that only AVP games would be used in the analyses. The variable selection was made by applying, for each gender, the backward stepwise method on two hundred different sets of training and testing data, and the variables that were eliminated in more than 50% of these repetitions would be removed from the analyses. Models with only selected variables proved to be advantageous for both genders due to greater simplicity of interpretation and precision, goodness of fit and residuals diagnostics similar to the complete model. The accuracy, sensitivity and specificity of predictions in the model with selected variables for the men’s games were 0.721, 0.719 and 0.706, respectively. For the women’s matches, these values were 0.751, 0.742 and 0.755, respectively. For both genders, such values were similar or slightly higher when compared to models with all variables, thus proving to be advantageous to use variable selection. The KNN method presented average accuracy, sensitivity and specificity of 0.705, 0.711 and 0.700 for men’s games and 0.723, 0.701 and 0.745, respectively, for women’s. Using decision trees, these values were 0.696, 0.697 and 0.695 for men’s matches and 0.731, 0.751 and 0.711 for women’s. When evaluating logistic regression coefficients for the last analyzed training and testing data set, as well as the decision tree generated, it became clear that the most relevant variables for predicting the results were the rankings of the reference and opposition teams. In conclusion, all tested methods showed greater accuracy for women’s matches, and the logistic regression model tends to present slightly better predictive performance than the other methods analyzed. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Matemática e Estatística. Curso de Estatística: Bacharelado.
Collections
This item is licensed under a Creative Commons License