Comparação de estratégias para lidar com o desbalanceamento de classes : um estudo de caso com dados de mortalidade neonatal no Rio Grande do Sul
Visualizar/abrir
Data
2023Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Comparison of strategies to deal with class imbalance: a case study with neonatal mortality data in Rio Grande do Sul
Resumo
A Taxa de Mortalidade Infantil (TMI) é considerada um dos indicadores mais relevantes das condições de vida de uma população. No ano de 2020, a TMI foi de 8,62/1000 nasci dos vivos (NV) no estado do Rio Grande do Sul (RS), atingindo a meta anual firmada pelo estado de 9,75/1000. Em torno de 77,49% dos casos foram óbitos neonatais, isto é, antes de 28 dias de vida completos. Tendo em vista que saúde é um dos indicadores brasileiros para os objetivos de desenvolvimento sustentável e esse objetivo ...
A Taxa de Mortalidade Infantil (TMI) é considerada um dos indicadores mais relevantes das condições de vida de uma população. No ano de 2020, a TMI foi de 8,62/1000 nasci dos vivos (NV) no estado do Rio Grande do Sul (RS), atingindo a meta anual firmada pelo estado de 9,75/1000. Em torno de 77,49% dos casos foram óbitos neonatais, isto é, antes de 28 dias de vida completos. Tendo em vista que saúde é um dos indicadores brasileiros para os objetivos de desenvolvimento sustentável e esse objetivo inclui a meta de reduzir a Taxa de Mortalidade Neonatal (TMN), é importante identificar os fatores associados com a TMN no Brasil e suas regiões, e investigar a utilização dos mesmos para o treinamento de modelos preditivos para o risco de óbito neonatal aplicando, por exemplo, Aprendi zado de Máquina (AM). Visto que esta tarefa de classificação lida com uma distribuição de classes inerentemente desbalanceada, torna-se necessário investigar o impacto do des balanceamento de classes no desempenho de algoritmos e a efetividade de estratégias existentes para lidar com este desafio. Assim, este trabalho analisa estratégias computaci onais para lidar com o desbalanceamento de classes em AM em dados de óbito neonatal do RS. Foram avaliados quatro algoritmos de classificação baseados em árvores de decisão e seis métodos para lidar com o desbalanceamento de classes, incluindo métodos de amos tragem, métodos baseados em modificações de algoritmos ensemble e uma abordagem sensível ao custo. Ao final, os desempenhos dos modelos preditivos foram comparados e avaliados para uma base de dados construída a partir do pré-processamento e integração dos dados do Sistema de Informação sobre Nascidos Vivos (SINASC) e Sistema de Infor mação sobre Mortalidade (SIM) para o RS, apresentando 99.6% de instâncias na classe negativa. O classificador XGBoost combinado com o método SMOTE-ENN foi o que melhor lidou com o desbalanceamento de classes nesse domínio, alcançando 73% de acu rácia balanceada, 46% de sensibilidade e 46% de score F1. Também foi constatado que o método SMOTE-ENN melhorou o desempenho dos modelos que utilizaram algoritmos de boosting, onde a sensibilidade aumentou em 8% no modelo com AdaBoost e 9% no modelo com XGBoost. Por fim, a abordagem sensível ao custo melhorou o desempenho dos modelos com árvore de decisão e florestas aleatórias, aumentando a sensibilidade em 26% no modelo com árvore de decisão e 45% no modelo com florestas aleatórias. ...
Abstract
The Infant Mortality Rate (IMR) is considered one of the most relevant indicators of the living conditions of a population. In 2020, the IMR was 8.62/1000 live births in the state of Rio Grande do Sul (RS), reaching the annual target set by the state of 9.75/1000. Around 77.49% of cases were neonatal deaths, that is, before 28 full days of life. Con sidering that health is one of the Brazilian indicators for sustainable development goals and this goal includes the target of reducing the Neonata ...
The Infant Mortality Rate (IMR) is considered one of the most relevant indicators of the living conditions of a population. In 2020, the IMR was 8.62/1000 live births in the state of Rio Grande do Sul (RS), reaching the annual target set by the state of 9.75/1000. Around 77.49% of cases were neonatal deaths, that is, before 28 full days of life. Con sidering that health is one of the Brazilian indicators for sustainable development goals and this goal includes the target of reducing the Neonatal Mortality Rate (NMR), it is important to identify the factors associated with NMR in Brazil and its regions, and to investigate their use in training predictive models for the risk of neonatal death using, for example, Machine Learning (ML). Since this classification task deals with an inherently imbalanced class distribution, it is necessary to investigate the impact of class imbalance on algorithm performance and the effectiveness of existing strategies to deal with this challenge. Thus, this work analyzes computational strategies to deal with class imbalance in ML on neonatal death data in RS. Four classification algorithms based on decision trees and six methods for dealing with class imbalance were evaluated, including sampling methods, methods based on modifications of ensemble algorithms, and a cost-sensitive approach. Finally, the predictive model performances were compared and evaluated for a database constructed from the preprocessing and integration of data from the Live Birth Information System (SINASC) and Mortality Information System (SIM) for RS, present ing 99.6% of instances in the negative class. The XGBoost classifier combined with the SMOTE-ENN method was the one that best dealt with class imbalance in this domain, achieving 73% balanced accuracy, 46% sensitivity, and 46% F1 score. It was also found that the SMOTE-ENN method improved the performance of models that used boosting algorithms, where sensitivity increased by 8% in the AdaBoost model and 9% in the XG Boost model. Finally, the cost-sensitive approach improved the performance of models with decision trees and random forests, increasing sensitivity by 26% in the decision tree model and 45% in the random forests model. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1025)
Este item está licenciado na Creative Commons License