Uso de autoencoder para predição de propensão a empréstimo
Visualizar/abrir
Data
2024Orientador
Co-orientador
Nível acadêmico
Graduação
Assunto
Resumo
O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histó ...
O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histórico de ligações, primeiramente um autoencoder foi utilizado para redução de dimensionalidade dessa base, reduzindo o número de variáveis de 120 para 7. Esse procedimento também foi realizado empregando a técnica de Análise de Componentes Principais (PCA) para comparação. Com os dados obtidos nesta etapa e a adição de novas variáveis, como saldo a vencer e limite, um novo autoencoder com 21 variáveis de entrada foi empregado com o objetivo de predizer a propensão de clientes a realização do empréstimo, com todas as predições geradas em um modelo do tipo Light Gradient Boosting Machine (LGBM). O conjunto de dados utilizado é anonimizado e proveniente de uma base de dados histórica de uma instituição financeira, sendo altamente desbalanceado, com casos de empréstimos muito mais raros do que casos sem empréstimo (0,22%). . Devido à alta diferença entre as classes inerente ao problema, a principal métrica escolhida para avaliação dos modelos foi a área sob a curva de precisão-revocação (PR AUC), pois ela é menos propensa a superestimar o desempenho do modelo quando a classe negativa é predominante. Na etapa de redução de dimensionalidade os resultados obtidos foram muito satisfatórios, com melhor poder preditivo do autoencoder frente ao PCA nas variáveis geradas. Na etapa final de predição, novamente o autoencoder demonstrou superioridade em relação ao PCA, registrando um PR AUC de 0,0194 contra 0,0131. Nesta etapa, os resultados foram inferiores aos alcançados ao utilizar todas as 21 variáveis disponíveis (0,0282), sugerindo que mesmo assim houve alguma perda de informação. Apesar disso, a estratégia de modelo diário se mostrou mais eficiente que a estratégia mensal utilizada atualmente pela instituição em todas as abordagens, evidenciando a qualidade das informações e métodos utilizados. De forma geral, o autoencoder se mostrou uma ferramenta muito útil que pode ser utilizada para o pré-processamento dos dados e fornecimento de informações relevantes para a predição, principalmente em sistemas com alta dimensionalidade. ...
Abstract
This work consists of constructing autoencoder models for use in predicting daily propensity for personal loan uptake. The aim is to identify the most inclined customers to direct marketing efforts, such as phone calls and digital media advertisements. Performing this prediction on a daily basis is more suitable for the dynamics of a Call Center, for example, which makes thousands of calls daily. However, due to the high amount of data related to call history, initially, an autoencoder was used ...
This work consists of constructing autoencoder models for use in predicting daily propensity for personal loan uptake. The aim is to identify the most inclined customers to direct marketing efforts, such as phone calls and digital media advertisements. Performing this prediction on a daily basis is more suitable for the dynamics of a Call Center, for example, which makes thousands of calls daily. However, due to the high amount of data related to call history, initially, an autoencoder was used to reduce the dimensionality of this dataset, reducing the number of variables from 120 to 7. This procedure was also performed using Principal Component Analysis (PCA) for comparison. With the data obtained in this step and the addition of new variables, such as current balance and limit, a new autoencoder with 21 input variables was employed to predict the propensity of clients to take out loans, with all predictions generated in a Light Gradient Boosting Machine (LGBM) model. The dataset used is anonymized and comes from a historical database of a financial institution, being highly unbalanced, with loan cases much rarer than non-loan cases (0.22%). Due to the high difference between the classes inherent to the problem, the main metric chosen for evaluating the models was the area under the precision-recall curve (PR AUC), as it is less prone to overestimating the model's performance when the negative class is predominant. In the dimensionality reduction step, the results obtained were highly satisfactory, with better predictive power of the autoencoder compared to PCA on the generated variables. In the final prediction step, again the autoencoder demonstrated superiority over PCA, recording a PR AUC of 0.0194 against 0.0131. In this step, the results were lower than those achieved using all 21 available variables (0.0282), suggesting that there was still some loss of information. Nevertheless, the daily model strategy proved to be more efficient than the monthly strategy currently used by the institution in all approaches, highlighting the quality of the information and methods used. Overall, the autoencoder proved to be a very useful tool that can be used for data preprocessing and providing relevant information for prediction, especially in systems with high dimensionality. ...
Instituição
Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Curso de Engenharia Química.
Coleções
-
TCC Engenharias (5882)
Este item está licenciado na Creative Commons License