Estudo comparativo entre abordagens de aprendizado de máquina em modelos de credit scoring
Fecha
2018Autor
Nivel académico
Grado
Tipo
Materia
Resumo
Com o crescimento da demanda e popularização do mercado de crédito no Brasil, as empresas estão buscando maneiras de aprimorar a assertividade na hora de conceder crédito. Há técnicas quantitativas amplamente utilizadas para a construção de modelos de previsão de risco de crédito que, baseadas em informações cadastrais, predizem o comportamento padrão de risco. Porém, estudos recentes mostram que os métodos de Inteligência Artificial têm alcançado melhor desempenho que os métodos estatísticos t ...
Com o crescimento da demanda e popularização do mercado de crédito no Brasil, as empresas estão buscando maneiras de aprimorar a assertividade na hora de conceder crédito. Há técnicas quantitativas amplamente utilizadas para a construção de modelos de previsão de risco de crédito que, baseadas em informações cadastrais, predizem o comportamento padrão de risco. Porém, estudos recentes mostram que os métodos de Inteligência Artificial têm alcançado melhor desempenho que os métodos estatísticos tradicionais, sendo assim, este trabalho introduz técnicas de Aprendizado de Máquina ainda pouco estudadas em crédito (Árvore de Decisão, Random Forest, Bagging, Adaboost e Support Vector Machine), a fim de fornecer um modelo com melhor poder explicativo. Para fins de comparação, adotou-se a abordagem tradicional de Regressão Logística. Os modelos foram desenvolvidos em uma base de dados real com 9110 clientes, e foram avaliados em um conjunto de validação de 2279 clientes. Todos os modelos foram analisados com base em três indicadores: percentual de acerto, área abaixo da curva ROC e teste KS. O modelo que apresentou melhor desempenho nos três indicadores avaliados e em ambas amostras de estudo foi o Adaboost, sendo esta uma técnica a ser levada em consideração na hora da criação de um modelo de Credit Scoring. No entanto, a superioridade encontrada na técnica mencionada pode ser considerada pouco significativa, isso sugere que pode não valer a pena usá-la quando comparada com a técnica padrão de Regressão Logística, devido a sua dificuldade de interpretação e implementação. ...
Abstract
With the growing demand and popularization of the credit market in Brazil, companies are looking for ways to improve assertiveness when it comes to lending credit. There are quantitative techniques widely used for the construction of predictive models of credit risk that, based on cadastral information, predict the standard risk behavior. However, recent studies show that Artificial Intelligence methods have achieved better performance than traditional statistical methods, therefore this work i ...
With the growing demand and popularization of the credit market in Brazil, companies are looking for ways to improve assertiveness when it comes to lending credit. There are quantitative techniques widely used for the construction of predictive models of credit risk that, based on cadastral information, predict the standard risk behavior. However, recent studies show that Artificial Intelligence methods have achieved better performance than traditional statistical methods, therefore this work introduces Machine Learning techniques that are not yet studied in credit (Decision Tree, Random Forest, Bagging, Adaboost and Support Vector Machine), in order to provide a model with better explanatory power. For purposes of comparison, the traditional approach of Logistic Regression was adopted. The models were developed based on a database with 9110 clients, and they were evaluated in a validation set of 2279 clients. All models were analyzed based on three indicators: hit percentage, area below the ROC curve and KS test.The model that presented the best performance in the three indicators evaluated and in both samples of study was the Adaboost, which is a technique to be taken into account in the creation of a model of Credit Scoring. However, the superiority found in the technique mentioned before can not be considered significant. This suggests that it may not be worth using it when compared to the standard Logistic Regression technique, due to its difficulty of interpretation and implementation. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Matemática. Curso de Estatística: Bacharelado.
Colecciones
-
Tesinas de Curso de Grado (37361)Tesinas Estadística (295)
Este ítem está licenciado en la Creative Commons License