Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa

Dias, Filipe Faria

dc.contributor.advisor	Moreira, Viviane Pereira	pt_BR
dc.contributor.author	Dias, Filipe Faria	pt_BR
dc.date.accessioned	2024-02-16T05:00:46Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/272013	pt_BR
dc.description.abstract	Nos últimos anos, houve um aumento significativo de publicações de relatórios de ensaios clínicos com mais de 10.000 relatórios somente para câncer de mama. Consequentemente, tornou-se inviável para os profissionais de saúde ficarem atualizados sobre toda a literatura, com o fim de fornecer o melhor tratamento possível de acordo com os sintomas dos pacientes, dada a elevada quantidade de informações disponíveis a todo momento. Seguindo nesse contexto, o workshop SemEval de 2023 propôs um desafio que envolve desenvolver um sistema que faz a recuperação de um conjunto de evidências que suportam uma consulta em relatórios de ensaios clínicos. Muitos times participaram desse desafio utilizando diversas técnicas diferentes. Observou-se que as técnicas que utilizaram modelos generativos obtiveram os melhores resultados com relação à métrica F1, contudo, os modelos discriminativos que implementaram um modelo com base no DeBERTa-large também obtiveram resultados competitivos. O objetivo do trabalho foi desenvolver um modelo que faz a recuperação de evidências nesses relatórios clínicos utilizando o modelo Biomed RoBERTa. Nossa abordagem envolveu realizar uma serie de treinamentos variando a métrica a de otimização (acurácia, reovcação e F1) e os hiperparâmetros (taxa de aprendizado e tamanho máximo da sequência de entrada). Nossos melhores resultados foram obtidos com o treinamento baseado na métrica de revocação, que foram superiores ao resultado que obtivemos no workshop, com o valor de F1 de 0,733.	pt_BR
dc.description.abstract	In recent years, there has been a significant increase in the publication of clinical trial reports, with over 10,000 reports for breast cancer alone. Consequently, it has become unfeasible for healthcare professionals to stay updated on the entire literature in order to provide the best possible treatment based on patients’ symptoms, given the vast amount of constantly available information. In this context, the SemEval 2023 workshop pro posed a challenge involving the development of a system that retrieves a set of evidence supporting a query in clinical trial reports. Many teams participated in this challenge us ing various techniques. It was observed that techniques using generative models achieved the best results in terms of the F1 metric; however, discriminative models implementing a DeBERTa-large-based model also achieved competitive results. The objective of this work was to develop a model for evidence retrieval in these clinical reports using the Biomed RoBERTa model. Our approach involved a series of training iterations, varying the optimization metric (accuracy, recall, and F1) and hyperparameters (learning rate and maximum input sequence length). Our best results were obtained with training based on the recall metric, which outperformed our workshop result with an F1 score of 0.733.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Evidence retrieval	en
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Hiperparameter settings	en
dc.subject	Aprendizado profundo	pt_BR
dc.title	Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa	pt_BR
dc.title.alternative	Evidence retrieval in clinical trial reports using the biomedical RoBERTa model	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Dias, Abel Corrêa	pt_BR
dc.identifier.nrb	001195954	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Ficheros en el ítem

Nombre:: 001195954.pdf
Tamaño:: 759.2Kb
Formato:: PDF
Descripción:: Texto completo

Ver

Este ítem está licenciado en la Creative Commons License

Tesinas de Curso de Grado (37361)

Tesinas Ciencia de la Computación (1024)

Mostrar el registro sencillo del ítem