Mostrar el registro sencillo del ítem

dc.contributor.advisorBalreira, Dennis Giovanipt_BR
dc.contributor.authorAguiar, Matheus Stein dept_BR
dc.date.accessioned2025-02-25T06:21:06Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/287604pt_BR
dc.description.abstractLarge Language models that use Bidirectional Encoder Representations from Transformers (BERT) have shown impressive performance in various Natural Language Processing (NLP) tasks. However, the legal domain presents unique challenges for NLP because of its specialized language, which includes technical vocabulary, a formal writing style, and differentiated semantics. Therefore, pre-trained language models in a generic corpus may not be suitable for carrying out tasks specific to the legal domain. They may not have the necessary knowledge to understand the nuances of legal language, which would lead to inaccuracies and inconsistencies. This paper compares various models to identify the most effective ones for the legal domain in Portuguese in a supervised classification task. We applied the pre-trained language models to a previously annotated dataset, scrapped from Tribunal de Justiça de São Paulo (TJSP). The dataset is made up of ementas and their classes, which we want the model to predict, and has been treated to exclude duplicates and null values and remove unwanted passages from the ementas. After fine-tuning, we evaluate the performance using quantitative metrics such as different versions of the F1-score and a qualitative analysis of errors to identify possible limitations and improvements. The results show that the Legal Portuguese RoBERTa model was the best for the corpus used, reaching an macro F1-score of 0.7412.en
dc.description.abstractOs modelos de linguagem de grande dimensão que utilizam Representações de Codificadores Bidireccionais a partir de Transformadores (BERT) têm demonstrado um desempenho impressionante em várias tarefas de Processamento de Linguagem Natural (PLN). No entanto, o domínio jurídico apresenta desafios únicos para a PNL devido à sua linguagem especializada, que inclui vocabulário técnico, um estilo de escrita formal e uma semântica diferenciada. Por conseguinte, os modelos linguísticos pré-treinados num corpus gené- rico podem não ser adequados para a realização de tarefas específicas do domínio jurídico. Podem não ter os conhecimentos necessários para compreender as nuances da linguagem jurídica, o que conduziria a imprecisões e inconsistências. Este artigo compara vários modelos para identificar os mais eficazes para o domínio jurídico em português numa tarefa de classificação supervisionada. Aplicamos os modelos linguísticos pré-treinados a um conjunto de dados previamente anotados, retirados do Tribunal de Justiça de São Paulo (TJSP). O conjunto de dados é composto de ementas e suas respectivas classes, que queremos que o modelo preveja, e foi tratado para excluir duplicatas, valores nulos e remover passagens indesejadas das ementas. Após o ajuste fino, avaliamos o desempenho utilizando métricas quantitativas, como diferentes versões da pontuação F1, e uma aná- lise qualitativa dos erros para identificar possíveis limitações e melhorias. Os resultados mostram que o modelo Legal Portuguese RoBERTa foi o melhor para o corpus utilizado, atingindo um macro-escore F1 de 0,7412.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectLarge language modelsen
dc.subjectModelos de Linguagempt_BR
dc.subjectJuridical documents classificationen
dc.subjectLinguagem jurídicapt_BR
dc.subjectBERT models comparisonen
dc.titleComparative analysis of the performance of large language models in the classification of legal textspt_BR
dc.title.alternativeAnálise comparativa da performance de modelos de linguagem de larga escala na classificação de textos legais pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coNunes, Rafael Olequespt_BR
dc.identifier.nrb001241283pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Ficheros en el ítem

Thumbnail
   

Este ítem está licenciado en la Creative Commons License

Mostrar el registro sencillo del ítem