Comparative analysis of the performance of large language models in the classification of legal texts
Visualizar/abrir
Data
2025Autor
Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Análise comparativa da performance de modelos de linguagem de larga escala na classificação de textos legais
Assunto
Abstract
Large Language models that use Bidirectional Encoder Representations from Transformers (BERT) have shown impressive performance in various Natural Language Processing (NLP) tasks. However, the legal domain presents unique challenges for NLP because of its specialized language, which includes technical vocabulary, a formal writing style, and differentiated semantics. Therefore, pre-trained language models in a generic corpus may not be suitable for carrying out tasks specific to the legal domain ...
Large Language models that use Bidirectional Encoder Representations from Transformers (BERT) have shown impressive performance in various Natural Language Processing (NLP) tasks. However, the legal domain presents unique challenges for NLP because of its specialized language, which includes technical vocabulary, a formal writing style, and differentiated semantics. Therefore, pre-trained language models in a generic corpus may not be suitable for carrying out tasks specific to the legal domain. They may not have the necessary knowledge to understand the nuances of legal language, which would lead to inaccuracies and inconsistencies. This paper compares various models to identify the most effective ones for the legal domain in Portuguese in a supervised classification task. We applied the pre-trained language models to a previously annotated dataset, scrapped from Tribunal de Justiça de São Paulo (TJSP). The dataset is made up of ementas and their classes, which we want the model to predict, and has been treated to exclude duplicates and null values and remove unwanted passages from the ementas. After fine-tuning, we evaluate the performance using quantitative metrics such as different versions of the F1-score and a qualitative analysis of errors to identify possible limitations and improvements. The results show that the Legal Portuguese RoBERTa model was the best for the corpus used, reaching an macro F1-score of 0.7412. ...
Resumo
Os modelos de linguagem de grande dimensão que utilizam Representações de Codificadores Bidireccionais a partir de Transformadores (BERT) têm demonstrado um desempenho impressionante em várias tarefas de Processamento de Linguagem Natural (PLN). No entanto, o domínio jurídico apresenta desafios únicos para a PNL devido à sua linguagem especializada, que inclui vocabulário técnico, um estilo de escrita formal e uma semântica diferenciada. Por conseguinte, os modelos linguísticos pré-treinados nu ...
Os modelos de linguagem de grande dimensão que utilizam Representações de Codificadores Bidireccionais a partir de Transformadores (BERT) têm demonstrado um desempenho impressionante em várias tarefas de Processamento de Linguagem Natural (PLN). No entanto, o domínio jurídico apresenta desafios únicos para a PNL devido à sua linguagem especializada, que inclui vocabulário técnico, um estilo de escrita formal e uma semântica diferenciada. Por conseguinte, os modelos linguísticos pré-treinados num corpus gené- rico podem não ser adequados para a realização de tarefas específicas do domínio jurídico. Podem não ter os conhecimentos necessários para compreender as nuances da linguagem jurídica, o que conduziria a imprecisões e inconsistências. Este artigo compara vários modelos para identificar os mais eficazes para o domínio jurídico em português numa tarefa de classificação supervisionada. Aplicamos os modelos linguísticos pré-treinados a um conjunto de dados previamente anotados, retirados do Tribunal de Justiça de São Paulo (TJSP). O conjunto de dados é composto de ementas e suas respectivas classes, que queremos que o modelo preveja, e foi tratado para excluir duplicatas, valores nulos e remover passagens indesejadas das ementas. Após o ajuste fino, avaliamos o desempenho utilizando métricas quantitativas, como diferentes versões da pontuação F1, e uma aná- lise qualitativa dos erros para identificar possíveis limitações e melhorias. Os resultados mostram que o modelo Legal Portuguese RoBERTa foi o melhor para o corpus utilizado, atingindo um macro-escore F1 de 0,7412. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1074)
Este item está licenciado na Creative Commons License
