Cross language plagiarism detection with contextualized word embeddings

Vaz, Delton de Andrade

dc.contributor.advisor	Moreira, Viviane Pereira	pt_BR
dc.contributor.author	Vaz, Delton de Andrade	pt_BR
dc.date.accessioned	2021-08-26T04:07:29Z	pt_BR
dc.date.issued	2021	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/226141	pt_BR
dc.description.abstract	Plagiarism is the use of someone else’s work without the proper acknowledgment and citation, being one of the most significant publishing issues in academia and science. A study conducted by CopyLeaks in 2020 showed that plagiarism increased by 10% after the transition to online classes during the COVID-19 pandemic. In some cases, authors may translate texts from another language and include them in their work. This more “sophisticated” behavior is known as cross-language plagiarism. In this work, we investigate methods that are used for cross-language plagiarism detection. Although some of the approaches developed until now use word embeddings as part of their pipelines, few explore contextualized word embeddings. Contextualized embeddings can help address fundamental characteristics of language such as polysemy and synonymy by taking into account the context in which a particular word occurs. Pre-trained multilingual models have shown outstanding performance in downstream natural language understanding tasks, such as sentence similarity and next sentence prediction. Motivated by these promising results in tasks related to plagiarism detection, we present a new proposal for cross-language plagiarism detection using pre-trained multilingual models with contextualized embeddings. Experiments performed on different datasets, such as PAN-PC-12, show that the proposed cross-language plagiarism detection using contextualized embeddings outperforms state-of-the-art models by 9% and 11% regarding plagdet results obtained for the English-Spanish and English-German language pairs.	en
dc.description.abstract	Plágio é o uso do trabalho de outra pessoa sem o devido reconhecimento e citação, sendo um dos maiores problemas editoriais da academia e da ciência. Um estudo realizado em 2020 pela CopyLeaks mostrou que o plágio aumentou em 10% após a transição para aulas online durante a pandemia da COVID-19. Em alguns casos, os autores podem traduzir textos de outro idioma e incluir em seus próprios trabalhos. Este comportamento mais “sofisticado” é conhecido como plágio multilíngue. Neste trabalho, investigamos métodos que são usados para a detecção do plágio multilíngue. Embora algumas das abordagens desenvolvidas até agora utilizem word embeddings como parte de seu pipeline, poucas delas exploram contexualized word embeddings. Contexualized word embeddings consideram características fundamentais da linguagem, como a polissemia, levando em conta o contexto no qual uma palavra em particular ocorre. Modelos multilíngues pré-treinados têm demonstrado grande desempenho em tarefas multilíngues, tais como similaridade de sentenças e predição de próxima sentença. Assim, com resultados promissores para tarefas relacionadas à detecção de plágio, apresentamos uma nova proposta para a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais. Experimentos realizados em diferentes conjuntos de dados, como o PAN-PC-12, mostram que a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais supera supera em 9% e 11% os modelos de última geração em relação aos resultados de plagdet obtidos para os pares de idiomas inglês-espanhol e inglês-alemão.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Cross language plagiarism detection	en
dc.subject	Plágio	pt_BR
dc.subject	BERT	en
dc.subject	Recuperação de informação : multilíngue	pt_BR
dc.subject	Cross language information retrieval	en
dc.subject	Word embeddings	en
dc.title	Cross language plagiarism detection with contextualized word embeddings	pt_BR
dc.title.alternative	Detecção de plágio multilíngue usando word embeddings contextualizadas	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001128573	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2021	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Files in this item

Name:: 001128573.pdf
Size:: 1.208Mb
Format:: PDF
Description:: Texto completo (inglês)

View/Open

This item is licensed under a Creative Commons License

Final Papers - Undergraduate Courses (37364)

Computer Science - Undergraduate degree (1024)

Show simple item record