Show simple item record

dc.contributor.advisorBalreira, Dennis Giovanipt_BR
dc.contributor.authorPinto, Gabriel Vogelpt_BR
dc.date.accessioned2025-08-09T08:03:13Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/294936pt_BR
dc.description.abstractSentence embeddings are a core part of many modern Natural Language Processing ap plications, such as search engines. Their multilingual variants, which are able to produce vector representations for many languages, exhibit significantly lower performance in underrepresented languages compared to English. Also, the dimensionality of the pro duced embeddings and the model’s size might be prohibitive in terms of memory and cost. In this work, we develop two sentence embedding models using the Sentence-BERT (SBERT) framework for the Portuguese language, employing the Matryoshka Represen tation Learning (MRL) loss function. The goal is to enhance vector representations for the Portuguese language while maintaining a reduced dimensionality with no computa tional overhead. We assess the performance of the proposed models against their variants trained without the MRL approach and against other open-source Portuguese and multi lingual models. Through this evaluation method, we found that MRL-based models (i) perform better at lower dimensionality than their non-MRL counterparts by 0.01-0.02 points in the Semantic Textual Similarity (STS) benchmark using the Pearson Correlation metric; (ii) have better performance in the STS benchmark than the multilingual models, with at least 0.06 points; and (iii) present competitive performance against state-of-the art Portuguese embedding models, while being trained on much less data. Additionally, we also evaluate the proposed model’s performance when being used with float32 and bfloat16 representations, with little to no performance variation while occupying 50% less memory.en
dc.description.abstractEmbeddings de sentenças são uma parte central de muitas aplicações modernas de Processamento de Linguagem Natural, como motores de busca. Suas variantes multilíngues, que são capazes de produzir representações vetoriais para diversos idiomas, apresentam desempenho significativamente inferior em línguas sub-representadas em comparação com o inglês. Além disso, a dimensionalidade dos embeddings gerados e o tamanho do modelo podem ser proibitivos em termos de memória e custo. Neste trabalho, desenvolvemos dois modelos de embeddings de sentenças para a língua portuguesa utilizando o framework Sentence-BERT (SBERT), empregando a função de perda Matryoshka Representation Learning (MRL). O objetivo é aprimorar as representações vetoriais para o português, mantendo uma dimensionalidade reduzida sem aumento de custo computacional. Avalia mos o desempenho dos modelos propostos em comparação com suas variantes treinadas sem o uso do MRLecomoutros modelos abertos em português e multilíngues. Por meio deste método de avaliação, verificamos que os modelos baseados em MRL (i) apresentam melhor desempenho em baixa dimensionalidade do que seus equivalentes sem MRL, com uma diferença de 0.01 a 0.02 pontos no benchmark de Similaridade Textual Semântica (STS) utilizando a métrica de Correlação de Pearson; (ii) têm desempenho superior no benchmark STS em relação aos modelos multilíngues, com uma diferença de pelo menos 0.06 pontos; e (iii) apresentam desempenho competitivo em relação a modelos de em beddings em português considerados estado da arte, apesar de terem sido treinados com uma quantidade significativamente menor de dados. Além disso, também avaliamos o desempenho dos modelos propostos quando utilizados com representações em float32 e bfloat16, com pouca ou nenhuma variação no desempenho, ao mesmo tempo ocupando 50% menos memória.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectInteligência artificialpt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectRepresentação semânticapt_BR
dc.subjectModelos de Linguagempt_BR
dc.titlePortuguese sentence embedding models using matryoshka representation learningpt_BR
dc.title.alternativeModelos de embeddings de sentenças usando matryoshka representation learning pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001290953pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record