Um framework para agrupamento de dados

Ribacki, Guilherme Haag

dc.contributor.advisor	Wives, Leandro Krug	pt_BR
dc.contributor.author	Ribacki, Guilherme Haag	pt_BR
dc.date.accessioned	2013-02-05T01:38:56Z	pt_BR
dc.date.issued	2013	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/66090	pt_BR
dc.description.abstract	Com a evolução tecnológica, cada vez mais se tem acesso a grandes volumes de dados através da Internet. Para que se possa usufruir desses dados, algumas técnicas são aplicadas para extrair informações relevantes em uma determinada busca, sendo uma dessas técnicas o agrupamento de dados. O agrupamento de dados (data clustering) é utilizado para criar partições de objetos semelhantes entre si, independente dos tipos desses objetos, para facilitar a recuperação de informação. Este trabalho propõe uma arquitetura de framework que, através do uso de padrões de projeto (design patterns) e outras práticas da Engenharia de Software, permite que se implementem diferentes técnicas de agrupamento para tipos de dados variados de forma a maximizar o reuso de código. Uma instância desse framework é proposta para o agrupamento de textos de forma a demonstrar o uso do framework e comparar a eficácia de alguns algoritmos. Uma comparação é feita entre os algoritmos implementados com o framework e alguns resultados usando a ferramenta Eurekha. Os agrupamentos resultantes são avaliados através de métricas como Medida-F (F-Measure) e Silhueta (Silhouette). Duas coleções de documentos são usadas nos testes – uma pequena (12 documentos) e uma grande (722 documentos). Os algoritmos Cliques, Stars, Full-stars e Best-star foram usados com a coleção pequena, e o último deles se mostrou o mais eficiente. A coleção grande foi testada com esse mesmo algoritmo, porém os resultados, avaliados com a técnica Silhueta, não obtiveram resultados tão bons.	pt_BR
dc.description.abstract	With the technological evolution, more and more there is access to large data volume through the internet. To be able to use this data, some techniques are used to extract relevant information from a search, one of these techniques being the data clustering. Data clustering is used to create partitions of similar objects, independently of their type, to make it easier to retrieve information. This work propose a framework architecture that, through the use of design patterns and other Software Engineering practices, allows different clustering techniques to be implemented for varying data types, in a way to maximize code reuse. An instance of this framework is proposed for text clustering in a way to show the framework’s use and to compare the effectiveness of some algorithms. A comparison is made between the implemented algorithms in the framework and some results of the Eurekha tool. The resulting clusters are evaluated through metrics like F-measure and Silhouette. Two collections are used in the tests – a small one (12 documents) and a large one (722 documents). The Cliques, Stars, Fullstars and Best-star algorithms were used with the small one, and the last had the best results. The big collection was tested with this algorithm, but the results, evaluated with the Silhouette technique, didn’t reach as good results.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Data clustering	en
dc.subject	Sistemas : Informação	pt_BR
dc.subject	Banco : Dados	pt_BR
dc.subject	Cluster analysis	en
dc.subject	Algorithms	en
dc.subject	Framework	en
dc.subject	Design patterns	en
dc.title	Um framework para agrupamento de dados	pt_BR
dc.title.alternative	A framework for data clustering	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	000870880	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2013	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 000870880.pdf
Tamanho:: 462.7Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36113)

TCC Ciência da Computação (991)

Mostrar registro simples