Comparação entre métodos de extração de dados baseados na redundância de conteúdo

Serafini, Rafael de Oliveira

dc.contributor.advisor	Galante, Renata de Matos	pt_BR
dc.contributor.author	Serafini, Rafael de Oliveira	pt_BR
dc.date.accessioned	2015-08-29T02:40:14Z	pt_BR
dc.date.issued	2015	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/126075	pt_BR
dc.description.abstract	Instâncias de entidades do mundo real podem ser representadas em páginas da Web, chamadas de páginas-instância. A extração de dados em páginas-instância da Web visa extrair conhecimento útil para diversas aplicações, tais como, Google Calendar, Reverb e Scrapy. Sites com páginasinstância do mesmo domínio possuem redundância de conteúdo, ou seja, publicam instâncias ou atributos em comum. O objetivo deste trabalho é comparar três métodos de extração de dados baseados na redundância de conteúdo da Web. Duas bases de dados reais são usadas para testar os métodos, sendo uma delas criada neste trabalho. Os resultados de um dos métodos foram obtidos do artigo que o descreve. Os resultados dos outros métodos foram obtidos neste trabalho. Para isso foi obtida a implementação e adaptada para as bases de dados. Os resultados são comparados em termos de qualidade e eficiência. É demonstrado, através da comparação, que a estrutura das bases de dados afeta a qualidade da extração dos métodos de acordo com suas características. A notação usada para representar a posição de um atributo em uma página e o uso de redundância em nível de instância são exemplos dessas características. Os resultados podem ser usados para auxiliar a escolha de um método de extração, de acordo com a base de dados, e guiar a criação de novos métodos de extração.	pt_BR
dc.description.abstract	Instances of real world entities can be represented by Web pages, called instance-pages. The data extraction from instance-pages aims to extract knowledge through information useful for a number of applications, such as Google Calendar, Reverb and Scrapy. Websites with instance-pages from the same domain have content redundancy, that is, they publish instances or attributes in common. This work goal is to compare three data extraction methods based on Web content redundancy. Two real databases are used to evaluate the methods, being one of them created in this work. The results of one method were obtained from the paper that describes it. The results of the other methods were generated in this work. For that, the implementation was obtained and adapted to the databases. The results are compared in terms of quality and efficiency. It is demonstrated, through the comparison, that the structure of the databases affects the quality of the methods extraction according to its characteristics. The results can be used to help choosing an extraction method, according to the database, and guide the criation of new extraction methods.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Banco : Dados	pt_BR
dc.subject	Data extraction	en
dc.subject	Content redundancy	en
dc.subject	Extracao : Dados	pt_BR
dc.subject	Instance-pages	en
dc.title	Comparação entre métodos de extração de dados baseados na redundância de conteúdo	pt_BR
dc.title.alternative	Comparison between data extraction methods based on content redundancy	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Manica, Edimar	pt_BR
dc.identifier.nrb	000972348	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2015	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Files in this item

Name:: 000972348.pdf
Size:: 1.741Mb
Format:: PDF
Description:: Texto completo

View/Open

This item is licensed under a Creative Commons License

Final Papers - Undergraduate Courses (37361)

Computer Science - Undergraduate degree (1024)

Show simple item record