Show simple item record

dc.contributor.advisorGeyer, Claudio Fernando Resinpt_BR
dc.contributor.authorMiotto, Giovanna Lazzaript_BR
dc.date.accessioned2023-11-25T03:27:29Zpt_BR
dc.date.issued2023pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/267664pt_BR
dc.description.abstractThe advent of the HL-LHC is projected to increase the volume of data generated by LHC experiments for Particle Physics, or High Energy Physics (HEP), by at least an order of magnitude, overwhelming current storage and analysis tools in the field such as CERN’S ROOT. RNTuple is ROOT’s new I/O subsystem engineered to leverage modern storage technologies. Object stores are an emerging asset in scalable data storage, with widespread use in cloud and HPC applications. We propose to integrate performant object store backends into RNTuple through two systems with distinct use cases – DAOS and S3 –, in order to exploit, respectively, exascale supercomputing facilities for analyses and a vast storage topology for disseminating data globally and granularly; in each case, the backend should cater to concerns in scalability, efficiency and latency. We introduced to an experimental RNTuple–DAOS backend a set of features designed to capitalize on bulk transfer, target co-locality and our domain knowledge of HEP analysis patterns, with the goal of optimizing throughput for data ingestion and retrieval. Informed by preliminary results regarding data volume, we further propose a zero–copy concatenation method based on scatter–gather I/O that improves transfer speed. A similar approach guided our proof–of–concept RNTuple–S3 backend, adapted to consider latency limitations. We evaluated the two contributions for single–node analyses on performant clusters over InfiniBand RDMA and Ethernet, respectively. RNTuple–DAOS demonstrated high throughput of over 10 GB/s (write) and 4.5 GB/s (read), corroborating our approach. The concatenation mechanism reached double the original write speed and attained the same read speed as the targeted throughput, partially emancipating transfer rates from the layout of the dataset. Furthermore, we validated RNTuple– S3 as a backend for the cloud and developed next strategies for better performance. Equipped with a production–grade DAOS backend for exascale supercomputers and an S3 backend to access a global storage infrastructure, RNTuple is positioning itself as the data format for the next era of HEP research at the HL–LHC and beyond.en
dc.description.abstractA chegada do HL-LHC deve aumentar o volume de dados gerados por experimentos do LHC para Física de Partículas, ou Física de Alta Energia (HEP), em pelo menos uma ordem de magnitude, sobrecarregando atuais ferramentas de armazenamento e análise da área, como ROOT. RNTuple é o novo subsistema de E/S do ROOT, projetado para usufruir de tecnologias modernas de armazenamento. Object stores são um recurso para armazenamento escalável de dados usado para nuvem e computação de alto desempenho (HPC). Propomos integrar ao RNTuple backends à object stores por meio de dois sistemas de usos distintos – DAOS e S3 –, a fim de explorar, respectivamente, centros de supercomputação exaescala para análise e uma vasta topologia para disseminação global e granular de dados; ambos devem atentar para escalabilidade, eficiência e latência. Introduzimos ao backend RNTuple-DAOS experimental melhorias que capitalizam transferência em massa, co-localidade e nosso conhecimento de padrões de análise para otimizar a vazão na ingestão e releitura de dados. Informados por resultados preliminares, propomos um método de concatenação sem cópia baseado em E/S scatter–gather. Uma abordagem semelhante orientou nosso backend prova de conceito, RNTuple–S3, com adaptações para considerar limitações de latência. Avaliamos as duas contribuições em análises nodo–único e em clusters de alto desempenho conectados por InfiniBand e Ethernet, respectivamente. RNTuple–DAOS apresentou alta vazão, com picos acima de 10 GB/s (escrita) e 4,5 GB/s (leitura), o que corrobora nossa abordagem. A concatenação atingiu o dobro da velocidade de escrita original e a mesma velocidade de leitura que a vazão–alvo, parcialmente emancipando o desempenho do layout de dados. Além disso, validamos o RNTuple–S3 como backend para a nuvem e desenvolvemos estratégias para atingir alto desempenho. Equipado com um backend DAOS maduro para supercomputadores exaescala e um backend S3 para acessar uma infraestrutura de armazenamento global, RNTuple se posiciona como o formato de dados para a próxima era de pesquisa em HEP, no HL–LHC e além.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectSistemas distribuídospt_BR
dc.subjectParticle physicsen
dc.subjectROOTen
dc.subjectRedes : Computadorespt_BR
dc.subjectArmazenamento de dadospt_BR
dc.subjectDAOSen
dc.subjectComputação de alto desempenhopt_BR
dc.subjectS3en
dc.titleLeveraging object stores for particle physics analysis with RNTuplept_BR
dc.title.alternativeUtilizando object stores para análise em física de partículas com RNTuple pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coLópez–Gómez, Javierpt_BR
dc.identifier.nrb001187696pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2023pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record