Leveraging object stores for particle physics analysis with RNTuple
View/ Open
Date
2023Author
Advisor
Co-advisor
Academic level
Graduation
Title alternative
Utilizando object stores para análise em física de partículas com RNTuple
Subject
Abstract
The advent of the HL-LHC is projected to increase the volume of data generated by LHC experiments for Particle Physics, or High Energy Physics (HEP), by at least an order of magnitude, overwhelming current storage and analysis tools in the field such as CERN’S ROOT. RNTuple is ROOT’s new I/O subsystem engineered to leverage modern storage technologies. Object stores are an emerging asset in scalable data storage, with widespread use in cloud and HPC applications. We propose to integrate perform ...
The advent of the HL-LHC is projected to increase the volume of data generated by LHC experiments for Particle Physics, or High Energy Physics (HEP), by at least an order of magnitude, overwhelming current storage and analysis tools in the field such as CERN’S ROOT. RNTuple is ROOT’s new I/O subsystem engineered to leverage modern storage technologies. Object stores are an emerging asset in scalable data storage, with widespread use in cloud and HPC applications. We propose to integrate performant object store backends into RNTuple through two systems with distinct use cases – DAOS and S3 –, in order to exploit, respectively, exascale supercomputing facilities for analyses and a vast storage topology for disseminating data globally and granularly; in each case, the backend should cater to concerns in scalability, efficiency and latency. We introduced to an experimental RNTuple–DAOS backend a set of features designed to capitalize on bulk transfer, target co-locality and our domain knowledge of HEP analysis patterns, with the goal of optimizing throughput for data ingestion and retrieval. Informed by preliminary results regarding data volume, we further propose a zero–copy concatenation method based on scatter–gather I/O that improves transfer speed. A similar approach guided our proof–of–concept RNTuple–S3 backend, adapted to consider latency limitations. We evaluated the two contributions for single–node analyses on performant clusters over InfiniBand RDMA and Ethernet, respectively. RNTuple–DAOS demonstrated high throughput of over 10 GB/s (write) and 4.5 GB/s (read), corroborating our approach. The concatenation mechanism reached double the original write speed and attained the same read speed as the targeted throughput, partially emancipating transfer rates from the layout of the dataset. Furthermore, we validated RNTuple– S3 as a backend for the cloud and developed next strategies for better performance. Equipped with a production–grade DAOS backend for exascale supercomputers and an S3 backend to access a global storage infrastructure, RNTuple is positioning itself as the data format for the next era of HEP research at the HL–LHC and beyond. ...
Abstract in Portuguese (Brasil)
A chegada do HL-LHC deve aumentar o volume de dados gerados por experimentos do LHC para Física de Partículas, ou Física de Alta Energia (HEP), em pelo menos uma ordem de magnitude, sobrecarregando atuais ferramentas de armazenamento e análise da área, como ROOT. RNTuple é o novo subsistema de E/S do ROOT, projetado para usufruir de tecnologias modernas de armazenamento. Object stores são um recurso para armazenamento escalável de dados usado para nuvem e computação de alto desempenho (HPC). Pr ...
A chegada do HL-LHC deve aumentar o volume de dados gerados por experimentos do LHC para Física de Partículas, ou Física de Alta Energia (HEP), em pelo menos uma ordem de magnitude, sobrecarregando atuais ferramentas de armazenamento e análise da área, como ROOT. RNTuple é o novo subsistema de E/S do ROOT, projetado para usufruir de tecnologias modernas de armazenamento. Object stores são um recurso para armazenamento escalável de dados usado para nuvem e computação de alto desempenho (HPC). Propomos integrar ao RNTuple backends à object stores por meio de dois sistemas de usos distintos – DAOS e S3 –, a fim de explorar, respectivamente, centros de supercomputação exaescala para análise e uma vasta topologia para disseminação global e granular de dados; ambos devem atentar para escalabilidade, eficiência e latência. Introduzimos ao backend RNTuple-DAOS experimental melhorias que capitalizam transferência em massa, co-localidade e nosso conhecimento de padrões de análise para otimizar a vazão na ingestão e releitura de dados. Informados por resultados preliminares, propomos um método de concatenação sem cópia baseado em E/S scatter–gather. Uma abordagem semelhante orientou nosso backend prova de conceito, RNTuple–S3, com adaptações para considerar limitações de latência. Avaliamos as duas contribuições em análises nodo–único e em clusters de alto desempenho conectados por InfiniBand e Ethernet, respectivamente. RNTuple–DAOS apresentou alta vazão, com picos acima de 10 GB/s (escrita) e 4,5 GB/s (leitura), o que corrobora nossa abordagem. A concatenação atingiu o dobro da velocidade de escrita original e a mesma velocidade de leitura que a vazão–alvo, parcialmente emancipando o desempenho do layout de dados. Além disso, validamos o RNTuple–S3 como backend para a nuvem e desenvolvemos estratégias para atingir alto desempenho. Equipado com um backend DAOS maduro para supercomputadores exaescala e um backend S3 para acessar uma infraestrutura de armazenamento global, RNTuple se posiciona como o formato de dados para a próxima era de pesquisa em HEP, no HL–LHC e além. ...
Institution
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Collections
This item is licensed under a Creative Commons License