ICNDE : um novo método para identificação e correção de ruído para extração de dados

Hertzog, Inatan Lopes

dc.contributor.advisor	Galante, Renata de Matos	pt_BR
dc.contributor.author	Hertzog, Inatan Lopes	pt_BR
dc.date.accessioned	2017-01-19T02:30:39Z	pt_BR
dc.date.issued	2016	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/151069	pt_BR
dc.description.abstract	Através da web são encontradas muitas entidades que são descritas em páginas. A fim de obter os valores de tais entidades é necessária a utilização de um extrator de dados da web. Extratores de dados são utilizados por empresas dirigidas a dados para fazer consulta direta em motores de busca. Cada extrator de dados emprega sua própria abordagem. No entanto, os métodos de extração existentes são propensos a falhas na extração de valores. Este trabalho tem como objetivo primário propor um método que identifica e corrige ruído para extração de dados e como objetivos secundários, avaliar os casos de falha de extratores de dados de abordagens diferentes, esta avalição foi utilizada como subsídio para propor o método. Para essa avaliação dos casos de falha, foi utilizada uma base de dados real de diferentes domínios de aplicação que possuem um conjunto de diferentes sites que acumulam um total de 125k páginas. O avaliador também foi desenvolvido neste trabalho. A avaliação permitiu a identificação dos tipos mais comuns de ruídos que ocorrem nos valores extraídos pelos métodos. Em resposta a isso, o método ICNDE (Identification and Correction of Noise in Data Extraction - Identificação e Correção do Ruído para Extração de Dados) foi proposto como uma ferramenta que não apenas identifica o ruído nos dados extraídos, mas que também o corrige. O ICNDE usa um extrator de dados para obter regras que extraem valores de atributos em páginas web e realiza um pós-processamento para eliminar prefixos, sufixos e outros tipos de valores considerados ruídos. O pós-processamento utiliza procedimentos de anotação e tokenização para identificar os ruídos presentes nos valores extraídos, gerando uma saída composta dos valores extraídos sem ruídos. A eficácia, o percentual de erros e o desempenho do pós-processamento do ICNDE também foram avaliados. Para realizar esse experimento, foram utilizados métodos como baselines com duas abordagens diferentes, um baseado em XPath e outro baseado em árvore. O experimento mostrou que a etapa de pós-processamento aumentou a eficácia tanto no método baseado em XPath (ganho de F1 de 13%) quanto no método baseado em árvore (ganho de F1 de 11%), além disso, o percentual de erro diminui nos dois métodos.	pt_BR
dc.description.abstract	Through the web are found many entities that are described by pages. In order to obtain the values of such entities, the use of a web data extrator is a necessity. Data extractors are used by data-driven companies to do direct search queries on search engines. Each data extractor employs its own approach. However, the existing extraction methods are prone to failures in extracting values. The main objective of this work is to propose a method that identifies and corrects noise for data extraction and as secondary objectives to evaluate the cases of data extraction failures of different approaches, this evaluation was used as a subsidy to propose the method. For this assessment of failure cases, we used a real database of different application domains that have a set of different sites that accumulate a total of 125k pages. The evaluator was also developed in this work. The evaluation allowed the identification of the most common types of noise that occur in the values extracted by the methods. In response to this, the ICNDE (Data Identification and Correction of Noise to Data Extraction) method was proposed as a tool that not only identifies the noise in the extracted data, but also the Correct ICNDE uses a data extractor to obtain rules that extract attribute values from web pages and performs post-processing to eliminate prefixes, suffixes, and other types of values considered as noise. Post-processing uses annotation and tokenization procedures to identify the noises present in the extracted values, generating a composite output of the noise-free values. The efficacy, percentage of errors and post-processing performance of the ICNDE were also evaluated. To perform this experiment we used methods from two different approaches, one based on XPath and another based on tree. The experiment showed that the postprocessing step increased the efficacy of both the XPath-based method (13% F1 gain) and the tree-based method (F1 gain of 11%), and the error percentage decreased Two methods.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Data extraction	en
dc.subject	Banco : Dados	pt_BR
dc.subject	Entity page	en
dc.subject	Tokenization	en
dc.subject	Annotation	en
dc.subject	Noise	en
dc.title	ICNDE : um novo método para identificação e correção de ruído para extração de dados	pt_BR
dc.title.alternative	ICNDE : a new method to identification and correction of noise to data extraction	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Manica, Edimar	pt_BR
dc.identifier.nrb	001009770	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2016	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001009770.pdf
Tamanho:: 1.895Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36671)

TCC Ciência da Computação (1000)

Mostrar registro simples