Aplicabilidade de busca semântica para recuperação e ranqueamento de arquivos

A ascensão do ChatGPT e outros Large Language Models - LLMs demonstra o avanço dos algoritmos de inteligência artificial, redes neurais e do aprendizado de máquina em geral. Os sistemas de busca de arquivos comuns muitas vezes só realizam pesquisas pelo nome dos arquivos, busca por palavras-chave ou trechos de conteúdo. Pelo uso de redes neurais simples é possível obter os chamados embeddings para palavras ou textos que codificam características significado e relações de linguagem. Neste trabalho é proposto um motor de busca semântica para a busca e recuperação de arquivos de texto localmente, que utilizando embeddings, realiza consultas por significado e tópico desses arquivos. Por meio do uso de redes neurais como Word2Vec e Doc2Vec são gerados embeddings para os documentos e para a consulta escrita pelo usuário permitindo a comparação entre eles. São utilizados o algoritmo de agrupamento HDBSCAN e a técnica de redução de dimensionalidade UMAP para reduzir a quantidade de dimensões dos embeddings. São testados diferentes combinações de valores para os hiperparâmetros, variando epochs, tamanho do vetor, tamanho da janela, etc. Após encontrar as melhores configurações para os modelos são realizadas comparações entre o Word2Vec e Doc2Vec. Por fim, o motor de busca é testado por meio da realização de consultas e comparação de resultados, onde o Word2Vec teve desempenho mais consistente e o Doc2Vec apresentou melhores resultados somente em alguns testes. ...

Abstract

The rise of ChatGPT and other Large Language Models - LLMs demonstrates the advancement of natural language processing, neural networks and machine learning in general. Common file search systems often only perform searches by file name, keywords or content snippets. By using simple neural networks it is possible to obtain so-called embeddings for words or texts that encode characteristics of meaning and language relationships. In this work, a semantic search engine is proposed for searching and retrieving text files locally, which, using embeddings, performs queries by meaning and topic of these files. Through the use of neural networks such as Word2Vec and Doc2Vec, embeddings are generated for documents and for the query written by the user, allowing comparison between them. The HDBSCAN clustering algorithm and the UMAP dimensionality reduction technique are used to cluster and reduce the number of dimensions of embeddings. Different combinations of values for the hyperparameters are tested, varying epochs, vector size, window size, etc. After finding the best configurations for the models, comparisons are made between Word2Vec and Doc2Vec. Finally, the search engine is tested by performing queries and comparing results, where Word2Vec performed more consistently and Doc2Vec presented better results only in some tests. ...

Institución

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Colecciones

Tesinas de Curso de Grado (37607)

Tesinas Ciencia de la Computación (1025)

Otras opciones

Mostrar todos los metadatos

Estatísticas

Este ítem está licenciado en la Creative Commons License