In-transit molecular dynamics analytics with apache flink
Fecha
2018Autor
Co-director
Nivel académico
Grado
Tipo
Otro título
Análise de dinâmica molecular com apache flink
Materia
Abstract
During its execution, Molecular Dynamic (MD) simulations output molecular trajectories that are analyzed by scientists to allow them to acquire a better understanding of the evolution of the system. Although parallel MD normally generate huge trajectories, scientists continue using sequential algorithms for their analysis, which quickly becomes impractical time-wise. Scientists keep on using this approach due to the complexity of implementing and deploying parallel workflows using standard high ...
During its execution, Molecular Dynamic (MD) simulations output molecular trajectories that are analyzed by scientists to allow them to acquire a better understanding of the evolution of the system. Although parallel MD normally generate huge trajectories, scientists continue using sequential algorithms for their analysis, which quickly becomes impractical time-wise. Scientists keep on using this approach due to the complexity of implementing and deploying parallel workflows using standard high-performance computing (HPC) tools; tasks such as load balancing and data partitioning can be troublesome for scientists. Therefore, in this work, an on-line parallel analytics framework is proposed to process and store in-transit the MD trajectories, relying on Apache Flink, a scalable stream processing engine from the Big Data domain. Flink enables to implement analyses using a simple window-based map/reduce model, while Flink’s runtime takes care of the deployment, load balancing and data distribution. A complete in transit analytics workflow was built, connecting an MD simulation to Apache Flink and to a distributed database, Apache HBase, to persistently store all the desired data. To demonstrate the expressivity of this programming model and its suitability for this domain of application, two common analytics in the MD field were implemented. The performance of this framework was assessed, concluding that it can handle simulations of sizes used in the literature while proving to be an effective and versatile tool for scientists to easily incorporate on-line parallel analytics in their current workflows. ...
Resumo
Simulações de dinâmica molecular (DM) geram trajetórias moleculares, que precisam ser analisadas por cientistas para que eles possam adquirir um melhor entendimento da evolução do sistema. Apesar de simulações paralelas de DM normalmente gerarem trajetórias enormes, os cientistas continuam utilizando algoritmos sequenciais em suas análises, o que se torna rapidamente impraticável em termos de tempo. Eles usam esta abordagem por causa da complexidade associada à implementação e à implantação (de ...
Simulações de dinâmica molecular (DM) geram trajetórias moleculares, que precisam ser analisadas por cientistas para que eles possam adquirir um melhor entendimento da evolução do sistema. Apesar de simulações paralelas de DM normalmente gerarem trajetórias enormes, os cientistas continuam utilizando algoritmos sequenciais em suas análises, o que se torna rapidamente impraticável em termos de tempo. Eles usam esta abordagem por causa da complexidade associada à implementação e à implantação (deployment) de análises paralelas que utilizam abordagens clássicas da computação de alto desempenho; questões como o balanço de carga e a distribuição de dados pode ser bastante complicado para eles. Portanto, neste trabalho, um framework de 5 análise paralela de Dinâmica Molecular (DM) é proposto para processar e armazenar os dados gerados por uma simulação de DM utilizando nodos dedicados do mesmo cluster que executa a simulação. Este framework faz uso do Apache Flink, uma ferramenta escalável de processamento de Stream proveniente do mundo do Big Data, como elemento principal de processamento. O Flink permite ao usuário implementar análises utilizando um modelo de Map/Reduce baseado em janelas, enquanto seu runtime é encarregado da implantação, balanço de carga e distribuição dos dados. Construiu-se um sistema completo de análise in-transit conectando uma simulação de DM ao Apache Flink e a uma base de dados distribuída, Apache HBase, para o armazenamento dos dados desejados. Para demostrar a expressividade deste modelo de programação, foram implementadas 2 análises comuns nesta área. O desempenho do sistema foi avaliado, concluindo que ele é capaz de lidar com os tamanhos de simulações que são usados na literatura ao mesmo tempo que se mostra uma ferramenta versátil para os cientistas incorporarem análises paralelas aos seus estudos. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Engenharia de Computação.
Colecciones
-
Tesinas de Curso de Grado (37607)Tesinas Ingenierías (5882)
Este ítem está licenciado en la Creative Commons License