Machine Translation for the biomedical domain, corpora acquisition and translation experiments
Visualizar/abrir
Data
2019Autor
Orientador
Nível acadêmico
Mestrado
Tipo
Outro título
Tradução automática para o domínio biomédico: aquisição de corpora e experimentos de tradução
Assunto
Abstract
Availability of biomedical documents in more than one language (e.g. not just in English) can broader the access to information and help patients and practitioners to keep up to date with the recent advances in biomedicine. In this work, we are interested in using machine translation to translate Spanish and Portuguese biomedical scientific texts to English, and vice-versa. We also present the development of three parallel corpora for scientific texts in the biomedical domain in English, Portug ...
Availability of biomedical documents in more than one language (e.g. not just in English) can broader the access to information and help patients and practitioners to keep up to date with the recent advances in biomedicine. In this work, we are interested in using machine translation to translate Spanish and Portuguese biomedical scientific texts to English, and vice-versa. We also present the development of three parallel corpora for scientific texts in the biomedical domain in English, Portuguese and Spanish. Our developed corpora are larger than the already available ones for this domain and languages. Regarding translation experiments, to create our training data, we concatenated several parallel corpora, both from in-domain and out-of-domain sources, as well as terminological resources from UMLS.We validated our approaches by participating in the biomedical translation track of the shared task at WMT conference. Our systems are based on statistical machine translation and neural machine translation, using the Moses and OpenNMT toolkits, respectively. We carried out experiments in four translation directions for the English/Spanish and English/Portuguese language pairs. Our systems achieved the best BLEU scores according to the official shared task evaluation. ...
Resumo
A disponibilidade de documentos biomédicos em mais de um idioma (por exemplo, não apenas em inglês) pode ampliar o acesso à informação e ajudar os pacientes e profissionais a se manterem atualizados sobre os recentes avanços na biomedicina. Neste trabalho, estamos interessados em usar a tradução automática para traduzir textos científicos biomédicos em espanhol e português para o inglês, e vice-versa. Também apresentamos o desenvolvimento de três corpora paralelos para textos científicos no dom ...
A disponibilidade de documentos biomédicos em mais de um idioma (por exemplo, não apenas em inglês) pode ampliar o acesso à informação e ajudar os pacientes e profissionais a se manterem atualizados sobre os recentes avanços na biomedicina. Neste trabalho, estamos interessados em usar a tradução automática para traduzir textos científicos biomédicos em espanhol e português para o inglês, e vice-versa. Também apresentamos o desenvolvimento de três corpora paralelos para textos científicos no domínio biomédico em inglês, português e espanhol. Nossos corpora desenvolvidos são maiores que os já disponíveis para este domínio e idiomas. Com relação aos experimentos de tradução, para criar nossos dados de treinamento, concatenamos vários corpora paralelos, tanto de fontes de domínio, quanto fora do domínio, bem como recursos terminológicos do UMLS. Nós validamos nossas abordagens participando da shared task de tradução biomédica da conferênciaWMT. Nossos sistemas são baseados em tradução automática estatística e tradução automática neural, e foram desenvolvidos usando os toolkits Moses e OpenNMT, respectivamente. Participamos de quatro direções de tradução para os pares de idiomas inglês/espanhol e inglês/português. Nossos sistemas alcançaram as melhores pontuações BLEU de acordo com a avaliação oficial da shared task. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Coleções
-
Ciências Exatas e da Terra (5129)Computação (1764)
Este item está licenciado na Creative Commons License