Geração de regras de extração de dados em páginas HTML

Caldas, Paracelso de Oliveira

dc.contributor.advisor	Heuser, Carlos Alberto	pt_BR
dc.contributor.author	Caldas, Paracelso de Oliveira	pt_BR
dc.date.accessioned	2007-06-06T17:33:24Z	pt_BR
dc.date.issued	2003	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/4163	pt_BR
dc.description.abstract	Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual.	pt_BR
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Armazenamento : Dados	pt_BR
dc.subject	Recuperacao : Informacao	pt_BR
dc.subject	Dados semi-estruturados	pt_BR
dc.subject	HTML (Linguagem de marcação)	pt_BR
dc.subject	Extracao : Dados	pt_BR
dc.title	Geração de regras de extração de dados em páginas HTML	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.nrb	000397526	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2003	pt_BR
dc.degree.level	mestrado	pt_BR

Files in this item

Name:: 000397526.pdf
Size:: 1.992Mb
Format:: PDF
Description:: Texto completo

View/Open

This item is licensed under a Creative Commons License

Exact and Earth Sciences (5129)

Computation (1764)

Show simple item record