Mostrar registro simples

dc.contributor.advisorWives, Leandro Krugpt_BR
dc.contributor.authorRibacki, Guilherme Haagpt_BR
dc.date.accessioned2013-02-05T01:38:56Zpt_BR
dc.date.issued2013pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/66090pt_BR
dc.description.abstractCom a evolução tecnológica, cada vez mais se tem acesso a grandes volumes de dados através da Internet. Para que se possa usufruir desses dados, algumas técnicas são aplicadas para extrair informações relevantes em uma determinada busca, sendo uma dessas técnicas o agrupamento de dados. O agrupamento de dados (data clustering) é utilizado para criar partições de objetos semelhantes entre si, independente dos tipos desses objetos, para facilitar a recuperação de informação. Este trabalho propõe uma arquitetura de framework que, através do uso de padrões de projeto (design patterns) e outras práticas da Engenharia de Software, permite que se implementem diferentes técnicas de agrupamento para tipos de dados variados de forma a maximizar o reuso de código. Uma instância desse framework é proposta para o agrupamento de textos de forma a demonstrar o uso do framework e comparar a eficácia de alguns algoritmos. Uma comparação é feita entre os algoritmos implementados com o framework e alguns resultados usando a ferramenta Eurekha. Os agrupamentos resultantes são avaliados através de métricas como Medida-F (F-Measure) e Silhueta (Silhouette). Duas coleções de documentos são usadas nos testes – uma pequena (12 documentos) e uma grande (722 documentos). Os algoritmos Cliques, Stars, Full-stars e Best-star foram usados com a coleção pequena, e o último deles se mostrou o mais eficiente. A coleção grande foi testada com esse mesmo algoritmo, porém os resultados, avaliados com a técnica Silhueta, não obtiveram resultados tão bons.pt_BR
dc.description.abstractWith the technological evolution, more and more there is access to large data volume through the internet. To be able to use this data, some techniques are used to extract relevant information from a search, one of these techniques being the data clustering. Data clustering is used to create partitions of similar objects, independently of their type, to make it easier to retrieve information. This work propose a framework architecture that, through the use of design patterns and other Software Engineering practices, allows different clustering techniques to be implemented for varying data types, in a way to maximize code reuse. An instance of this framework is proposed for text clustering in a way to show the framework’s use and to compare the effectiveness of some algorithms. A comparison is made between the implemented algorithms in the framework and some results of the Eurekha tool. The resulting clusters are evaluated through metrics like F-measure and Silhouette. Two collections are used in the tests – a small one (12 documents) and a large one (722 documents). The Cliques, Stars, Fullstars and Best-star algorithms were used with the small one, and the last had the best results. The big collection was tested with this algorithm, but the results, evaluated with the Silhouette technique, didn’t reach as good results.en
dc.format.mimetypeapplication/pdf
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectData clusteringen
dc.subjectSistemas : Informaçãopt_BR
dc.subjectBanco : Dadospt_BR
dc.subjectCluster analysisen
dc.subjectAlgorithmsen
dc.subjectFrameworken
dc.subjectDesign patternsen
dc.titleUm framework para agrupamento de dadospt_BR
dc.title.alternativeA framework for data clustering en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb000870880pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2013pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples