Mostrar registro simples

dc.contributor.advisorGalante, Renata de Matospt_BR
dc.contributor.authorHertzog, Inatan Lopespt_BR
dc.date.accessioned2017-01-19T02:30:39Zpt_BR
dc.date.issued2016pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/151069pt_BR
dc.description.abstractAtravés da web são encontradas muitas entidades que são descritas em páginas. A fim de obter os valores de tais entidades é necessária a utilização de um extrator de dados da web. Extratores de dados são utilizados por empresas dirigidas a dados para fazer consulta direta em motores de busca. Cada extrator de dados emprega sua própria abordagem. No entanto, os métodos de extração existentes são propensos a falhas na extração de valores. Este trabalho tem como objetivo primário propor um método que identifica e corrige ruído para extração de dados e como objetivos secundários, avaliar os casos de falha de extratores de dados de abordagens diferentes, esta avalição foi utilizada como subsídio para propor o método. Para essa avaliação dos casos de falha, foi utilizada uma base de dados real de diferentes domínios de aplicação que possuem um conjunto de diferentes sites que acumulam um total de 125k páginas. O avaliador também foi desenvolvido neste trabalho. A avaliação permitiu a identificação dos tipos mais comuns de ruídos que ocorrem nos valores extraídos pelos métodos. Em resposta a isso, o método ICNDE (Identification and Correction of Noise in Data Extraction - Identificação e Correção do Ruído para Extração de Dados) foi proposto como uma ferramenta que não apenas identifica o ruído nos dados extraídos, mas que também o corrige. O ICNDE usa um extrator de dados para obter regras que extraem valores de atributos em páginas web e realiza um pós-processamento para eliminar prefixos, sufixos e outros tipos de valores considerados ruídos. O pós-processamento utiliza procedimentos de anotação e tokenização para identificar os ruídos presentes nos valores extraídos, gerando uma saída composta dos valores extraídos sem ruídos. A eficácia, o percentual de erros e o desempenho do pós-processamento do ICNDE também foram avaliados. Para realizar esse experimento, foram utilizados métodos como baselines com duas abordagens diferentes, um baseado em XPath e outro baseado em árvore. O experimento mostrou que a etapa de pós-processamento aumentou a eficácia tanto no método baseado em XPath (ganho de F1 de 13%) quanto no método baseado em árvore (ganho de F1 de 11%), além disso, o percentual de erro diminui nos dois métodos.pt_BR
dc.description.abstractThrough the web are found many entities that are described by pages. In order to obtain the values of such entities, the use of a web data extrator is a necessity. Data extractors are used by data-driven companies to do direct search queries on search engines. Each data extractor employs its own approach. However, the existing extraction methods are prone to failures in extracting values. The main objective of this work is to propose a method that identifies and corrects noise for data extraction and as secondary objectives to evaluate the cases of data extraction failures of different approaches, this evaluation was used as a subsidy to propose the method. For this assessment of failure cases, we used a real database of different application domains that have a set of different sites that accumulate a total of 125k pages. The evaluator was also developed in this work. The evaluation allowed the identification of the most common types of noise that occur in the values extracted by the methods. In response to this, the ICNDE (Data Identification and Correction of Noise to Data Extraction) method was proposed as a tool that not only identifies the noise in the extracted data, but also the Correct ICNDE uses a data extractor to obtain rules that extract attribute values from web pages and performs post-processing to eliminate prefixes, suffixes, and other types of values considered as noise. Post-processing uses annotation and tokenization procedures to identify the noises present in the extracted values, generating a composite output of the noise-free values. The efficacy, percentage of errors and post-processing performance of the ICNDE were also evaluated. To perform this experiment we used methods from two different approaches, one based on XPath and another based on tree. The experiment showed that the postprocessing step increased the efficacy of both the XPath-based method (13% F1 gain) and the tree-based method (F1 gain of 11%), and the error percentage decreased Two methods.en
dc.format.mimetypeapplication/pdf
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectData extractionen
dc.subjectBanco : Dadospt_BR
dc.subjectEntity pageen
dc.subjectTokenizationen
dc.subjectAnnotationen
dc.subjectNoiseen
dc.titleICNDE : um novo método para identificação e correção de ruído para extração de dadospt_BR
dc.title.alternativeICNDE : a new method to identification and correction of noise to data extractionen
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coManica, Edimarpt_BR
dc.identifier.nrb001009770pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2016pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples