Mostrar registro simples

dc.contributor.advisorGalante, Renata de Matospt_BR
dc.contributor.authorGodoy, Matheus Cardosopt_BR
dc.date.accessioned2024-09-26T06:37:19Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/279179pt_BR
dc.description.abstractA ascensão do ChatGPT e outros Large Language Models - LLMs demonstra o avanço dos algoritmos de inteligência artificial, redes neurais e do aprendizado de máquina em geral. Os sistemas de busca de arquivos comuns muitas vezes só realizam pesquisas pelo nome dos arquivos, busca por palavras-chave ou trechos de conteúdo. Pelo uso de redes neurais simples é possível obter os chamados embeddings para palavras ou textos que codificam características significado e relações de linguagem. Neste trabalho é proposto um motor de busca semântica para a busca e recuperação de arquivos de texto localmente, que utilizando embeddings, realiza consultas por significado e tópico desses arquivos. Por meio do uso de redes neurais como Word2Vec e Doc2Vec são gerados embeddings para os documentos e para a consulta escrita pelo usuário permitindo a comparação entre eles. São utilizados o algoritmo de agrupamento HDBSCAN e a técnica de redução de dimensionalidade UMAP para reduzir a quantidade de dimensões dos embeddings. São testados diferentes combinações de valores para os hiperparâmetros, variando epochs, tamanho do vetor, tamanho da janela, etc. Após encontrar as melhores configurações para os modelos são realizadas comparações entre o Word2Vec e Doc2Vec. Por fim, o motor de busca é testado por meio da realização de consultas e comparação de resultados, onde o Word2Vec teve desempenho mais consistente e o Doc2Vec apresentou melhores resultados somente em alguns testes.pt_BR
dc.description.abstractThe rise of ChatGPT and other Large Language Models - LLMs demonstrates the advancement of natural language processing, neural networks and machine learning in general. Common file search systems often only perform searches by file name, keywords or content snippets. By using simple neural networks it is possible to obtain so-called embeddings for words or texts that encode characteristics of meaning and language relationships. In this work, a semantic search engine is proposed for searching and retrieving text files locally, which, using embeddings, performs queries by meaning and topic of these files. Through the use of neural networks such as Word2Vec and Doc2Vec, embeddings are generated for documents and for the query written by the user, allowing comparison between them. The HDBSCAN clustering algorithm and the UMAP dimensionality reduction technique are used to cluster and reduce the number of dimensions of embeddings. Different combinations of values for the hyperparameters are tested, varying epochs, vector size, window size, etc. After finding the best configurations for the models, comparisons are made between Word2Vec and Doc2Vec. Finally, the search engine is tested by performing queries and comparing results, where Word2Vec performed more consistently and Doc2Vec presented better results only in some tests.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectBusca semânticapt_BR
dc.subjectSearch engineen
dc.subjectNeural networken
dc.subjectRecuperação de informaçãopt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectEmbeddingsen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectDimension reductionen
dc.subjectClusteringen
dc.titleAplicabilidade de busca semântica para recuperação e ranqueamento de arquivospt_BR
dc.title.alternativeAplicability of semantic search for file ranking and recovery en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001211306pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples