Show simple item record

dc.contributor.advisorBecker, Karinpt_BR
dc.contributor.authorSoares, Felipept_BR
dc.date.accessioned2019-09-20T03:48:49Zpt_BR
dc.date.issued2019pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/199624pt_BR
dc.description.abstractAvailability of biomedical documents in more than one language (e.g. not just in English) can broader the access to information and help patients and practitioners to keep up to date with the recent advances in biomedicine. In this work, we are interested in using machine translation to translate Spanish and Portuguese biomedical scientific texts to English, and vice-versa. We also present the development of three parallel corpora for scientific texts in the biomedical domain in English, Portuguese and Spanish. Our developed corpora are larger than the already available ones for this domain and languages. Regarding translation experiments, to create our training data, we concatenated several parallel corpora, both from in-domain and out-of-domain sources, as well as terminological resources from UMLS.We validated our approaches by participating in the biomedical translation track of the shared task at WMT conference. Our systems are based on statistical machine translation and neural machine translation, using the Moses and OpenNMT toolkits, respectively. We carried out experiments in four translation directions for the English/Spanish and English/Portuguese language pairs. Our systems achieved the best BLEU scores according to the official shared task evaluation.en
dc.description.abstractA disponibilidade de documentos biomédicos em mais de um idioma (por exemplo, não apenas em inglês) pode ampliar o acesso à informação e ajudar os pacientes e profissionais a se manterem atualizados sobre os recentes avanços na biomedicina. Neste trabalho, estamos interessados em usar a tradução automática para traduzir textos científicos biomédicos em espanhol e português para o inglês, e vice-versa. Também apresentamos o desenvolvimento de três corpora paralelos para textos científicos no domínio biomédico em inglês, português e espanhol. Nossos corpora desenvolvidos são maiores que os já disponíveis para este domínio e idiomas. Com relação aos experimentos de tradução, para criar nossos dados de treinamento, concatenamos vários corpora paralelos, tanto de fontes de domínio, quanto fora do domínio, bem como recursos terminológicos do UMLS. Nós validamos nossas abordagens participando da shared task de tradução biomédica da conferênciaWMT. Nossos sistemas são baseados em tradução automática estatística e tradução automática neural, e foram desenvolvidos usando os toolkits Moses e OpenNMT, respectivamente. Participamos de quatro direções de tradução para os pares de idiomas inglês/espanhol e inglês/português. Nossos sistemas alcançaram as melhores pontuações BLEU de acordo com a avaliação oficial da shared task.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectInformatica : Medicinapt_BR
dc.subjectScientific textsen
dc.subjectAprendizado : máquinapt_BR
dc.subjectBiomedical domainen
dc.subjectCorpora acquisitionen
dc.titleMachine Translation for the biomedical domain, corpora acquisition and translation experimentspt_BR
dc.title.alternativeTradução automática para o domínio biomédico: aquisição de corpora e experimentos de tradução en
dc.typeDissertaçãopt_BR
dc.identifier.nrb001101262pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2019pt_BR
dc.degree.levelmestradopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record