Machine Translation for the biomedical domain, corpora acquisition and translation experiments

Soares, Felipe

dc.contributor.advisor	Becker, Karin	pt_BR
dc.contributor.author	Soares, Felipe	pt_BR
dc.date.accessioned	2019-09-20T03:48:49Z	pt_BR
dc.date.issued	2019	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/199624	pt_BR
dc.description.abstract	Availability of biomedical documents in more than one language (e.g. not just in English) can broader the access to information and help patients and practitioners to keep up to date with the recent advances in biomedicine. In this work, we are interested in using machine translation to translate Spanish and Portuguese biomedical scientific texts to English, and vice-versa. We also present the development of three parallel corpora for scientific texts in the biomedical domain in English, Portuguese and Spanish. Our developed corpora are larger than the already available ones for this domain and languages. Regarding translation experiments, to create our training data, we concatenated several parallel corpora, both from in-domain and out-of-domain sources, as well as terminological resources from UMLS.We validated our approaches by participating in the biomedical translation track of the shared task at WMT conference. Our systems are based on statistical machine translation and neural machine translation, using the Moses and OpenNMT toolkits, respectively. We carried out experiments in four translation directions for the English/Spanish and English/Portuguese language pairs. Our systems achieved the best BLEU scores according to the official shared task evaluation.	en
dc.description.abstract	A disponibilidade de documentos biomédicos em mais de um idioma (por exemplo, não apenas em inglês) pode ampliar o acesso à informação e ajudar os pacientes e profissionais a se manterem atualizados sobre os recentes avanços na biomedicina. Neste trabalho, estamos interessados em usar a tradução automática para traduzir textos científicos biomédicos em espanhol e português para o inglês, e vice-versa. Também apresentamos o desenvolvimento de três corpora paralelos para textos científicos no domínio biomédico em inglês, português e espanhol. Nossos corpora desenvolvidos são maiores que os já disponíveis para este domínio e idiomas. Com relação aos experimentos de tradução, para criar nossos dados de treinamento, concatenamos vários corpora paralelos, tanto de fontes de domínio, quanto fora do domínio, bem como recursos terminológicos do UMLS. Nós validamos nossas abordagens participando da shared task de tradução biomédica da conferênciaWMT. Nossos sistemas são baseados em tradução automática estatística e tradução automática neural, e foram desenvolvidos usando os toolkits Moses e OpenNMT, respectivamente. Participamos de quatro direções de tradução para os pares de idiomas inglês/espanhol e inglês/português. Nossos sistemas alcançaram as melhores pontuações BLEU de acordo com a avaliação oficial da shared task.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Informatica : Medicina	pt_BR
dc.subject	Scientific texts	en
dc.subject	Aprendizado : máquina	pt_BR
dc.subject	Biomedical domain	en
dc.subject	Corpora acquisition	en
dc.title	Machine Translation for the biomedical domain, corpora acquisition and translation experiments	pt_BR
dc.title.alternative	Tradução automática para o domínio biomédico: aquisição de corpora e experimentos de tradução	en
dc.type	Dissertação	pt_BR
dc.identifier.nrb	001101262	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2019	pt_BR
dc.degree.level	mestrado	pt_BR

Files in this item

Name:: 001101262.pdf
Size:: 751.3Kb
Format:: PDF
Description:: Texto completo (inglês)

View/Open

This item is licensed under a Creative Commons License

Exact and Earth Sciences (5129)

Computation (1764)

Show simple item record