Elaboração de uma estratégia de deduplicação de dados utilizando técnicas de blocagem em um cadastro hospitalar de pacientes
dc.contributor.advisor | Heuser, Carlos Alberto | pt_BR |
dc.contributor.author | Bohm, Luiz Fernando | pt_BR |
dc.date.accessioned | 2010-10-14T04:19:21Z | pt_BR |
dc.date.issued | 2010 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/26350 | pt_BR |
dc.description.abstract | O presente trabalho consiste na elaboração de uma estratégia de deduplicação de dados utilizando técnicas de blocagem e algoritmos fonéticos em um cadastro hospitalar de pacientes. A chave de blocagem que apresenta a maior qualidade é a chave que utiliza os algoritmos fonéticos Soundex em conjunto com o BuscaBR, aplicados ao nome da mãe do paciente. Todos os passos realizados na preparação da base de dados de testes, no préprocessamento dos dados, na deduplicação dos registros da base de dados completa e todas as métricas utilizadas na análise da qualidade dos resultados estão detalhados. Como resultado deste trabalho é apresentada a estratégia de deduplicação que maximiza a quantidade de registros duplicados encontrados em uma base de dados de testes previamente avaliada, assim como o conjunto de registros possivelmente duplicados que foram encontrados na base de dados completa. Também são analisadas propostas adicionais para melhorar o desempenho e a qualidade do processo de blocagem e deduplicação. | pt_BR |
dc.description.abstract | This work consists in elaborating a record linkage strategy using blocking techniques and phonetic algorithms on a hospital patient’s database. The blocking key with the highest quality was the key using the phonetic algorithms Soundex combined with the BuscaBR, applied on the patient mother’s name. All the steps taken in preparing the test database, pre-processing of data, in the record linkage of the complete database and all the metrics used in analyzing the quality of the results are detailed. As a result of this work is presented the record linkage strategy that maximizes the amount of duplicate records found in the test database previously evaluated, as well as possibly duplicate set of records that were found in the complete database. Besides, additional proposals are analyzed to improve the performance and quality of the blocking and record linkage process. | en |
dc.format.mimetype | application/pdf | |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Informática médica | pt_BR |
dc.subject | Record linkage | en |
dc.subject | Banco : Dados | pt_BR |
dc.subject | Blocking | en |
dc.subject | Soundex | en |
dc.subject | BuscaBR | en |
dc.title | Elaboração de uma estratégia de deduplicação de dados utilizando técnicas de blocagem em um cadastro hospitalar de pacientes | pt_BR |
dc.title.alternative | Elaborating a record linkage strategy using blocking techniques on a hospital patients database | en |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.identifier.nrb | 000757805 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2010 | pt_BR |
dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Ciência da Computação (1021)