What drives buyer and seller volume in exchange-traded stocks? A machine learning approach from high-granularity data
Visualizar/abrir
Data
2025Autor
Orientador
Nível acadêmico
Graduação
Assunto
Abstract
This paper develops and evaluates a machine learning framework to forecast one-minute-ahead intraday buyer and seller trading volumes using high-granularity, tick-by-tick data from the Brazilian stock exchange (B3). The study processes over five billion market messages from 74 stocks from the Ibovespa index over an 18-month period, reconstructing the limit order book (LOB) to classify directional trades and engineer a dataset of 18 microstructural and time-based features. Using a sliding-window ...
This paper develops and evaluates a machine learning framework to forecast one-minute-ahead intraday buyer and seller trading volumes using high-granularity, tick-by-tick data from the Brazilian stock exchange (B3). The study processes over five billion market messages from 74 stocks from the Ibovespa index over an 18-month period, reconstructing the limit order book (LOB) to classify directional trades and engineer a dataset of 18 microstructural and time-based features. Using a sliding-window validation for hyperparameter tuning and preliminary model evaluation, we compare the performance of Long Short-Term Memory (LSTM) networks, XGBoost, Random Forest (RF), and Partial Least Squares (PLS) regression against an autoregressive baseline, yielding two primary findings. First, strong autocorrelation is the dominant driver of predictability over a forecast horizon of one minute. All tested machine learning models provide a statistically significant improvement over the baseline predictions by leveraging secondary features like bid-ask spread and price momentum. Second, we identify a critical signal decay trade-off: aggregating data to one-minute intervals to reduce noise effectively eliminates the predictive power of established microstructural indicators (e.g., Volume Imbalance), which are shown to be highly transient. Feature interpretation using SHAP analysis confirms the models add value by learning complex, non-linear market dynamics, such as state-dependent mean-reversion and momentum. While the LSTM network provides the most accurate and robust forecasts, the XGBoost model emerges as a highly cost-effective alternative with nearly equivalent performance, and a compact feature set dominated by autoregressive and price-action signals still yields statistically significant improvement over the baseline predictions. The results clarify the temporal limits of microstructural signals and provide practical guidance for development of intraday trading tools that leverage high granularity data. ...
Resumo
Este artigo desenvolve e avalia uma estrutura de aprendizado de máquina (machine learning) para prever volumes de negociação intradiários de compra e venda em intervalos de um minuto, utilizando dados de alta granularidade da bolsa de valores brasileira (B3). O estudo conta com o processamento de mais de cinco bilhões de mensagens de mercado de 74 ações do índice Ibovespa ao longo de um período de 18 meses, reconstruindo o livro de ofertas (limit order book – LOB) para classificar a direção das ...
Este artigo desenvolve e avalia uma estrutura de aprendizado de máquina (machine learning) para prever volumes de negociação intradiários de compra e venda em intervalos de um minuto, utilizando dados de alta granularidade da bolsa de valores brasileira (B3). O estudo conta com o processamento de mais de cinco bilhões de mensagens de mercado de 74 ações do índice Ibovespa ao longo de um período de 18 meses, reconstruindo o livro de ofertas (limit order book – LOB) para classificar a direção das negociações e estruturar um conjunto de dados com 18 variáveis microestruturais e temporais. Utilizando uma validação por janela móvel (sliding window) para o ajuste de hiperparâmetros e avaliação preliminar, comparamos o desempenho de redes Long Short-Term Memory (LSTM), XGBoost, Random Forest (RF) e regressão de Mínimos Quadrados Parciais (Partial Least Squares – PLS) em relação a um modelo base autorregressivo, resultando em duas descobertas principais. Primeiro, a forte autocorrelação é o principal fator de previsibilidade em um horizonte de previsão de um minuto. Todos os modelos de aprendizado de máquina testados proporcionam uma melhoria estatisticamente significativa em relação às previsões do modelo base ao alavancar variáveis secundárias, como o spread de compra e venda e tendências de preço. Segundo, identificamos um trade-off crítico de decaimento de sinal: a agregação de dados em intervalos de um minuto para reduzir o ruído elimina efetivamente o poder preditivo de indicadores microestruturais estabelecidos (por exemplo, o Volume Imbalance), que se mostram altamente transitórios. A interpretação das variáveis por meio da análise SHAP confirma que os modelos agregam valor preditivo ao aprender dinâmicas de mercado complexas e não lineares, tais como reversão à média e tendências dependentes do estado do mercado. Embora a rede LSTM forneça as previsões mais precisas e robustas, o modelo XGBoost surge como uma alternativa de alto custo-benefício com desempenho quase equivalente, e um conjunto compacto de variáveis dominado por sinais autorregressivos e de ação de preço ainda produz uma melhoria estatisticamente significativa em relação às previsões do modelo base. Os resultados tornam claros os limites temporais dos sinais microestruturais e fornecem orientação prática para o desenvolvimento de ferramentas de negociação intradiária que utilizam dados de alta granularidade. ...
Instituição
Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Curso de Engenharia de Produção.
Coleções
-
TCC Engenharias (6197)
Este item está licenciado na Creative Commons License


