Arquitetura em nuvem escalonável para coleta e processamento de dados
View/ Open
Date
2022Author
Advisor
Academic level
Graduation
Subject
Abstract in Portuguese (Brasil)
Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no ...
Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no Airflow) de extração, ingestão, transformação e agregação de dados de estações meteorológicas disponibilizadas pelo Instituto Nacional de Meteorologia e de estações de irrigação automática desenvolvidas em um trabalho de conclusão de curso anterior a este. No desenvolvimento, todos os processos foram orquestrados de maneira que os dados fossem centralizados em um banco relacional analítico para consumo imediato e especializado. O acesso às estações disponíveis contou com o uso dos protocolos HTTP e MQTT, que permitiu a obtenção de dados em diferentes frequências de execução para estações localizadas em diferentes cidades e estados do país. Visando ao enfoque dos benefícios da engenharia de dados para projetos e demandas que necessitam de informações de diferentes sistemas, avaliou-se a configuração dos controladores projetados para as estações de irrigação mediante verificação do comportamento daquelas frente aos dados meteorológicos mais próximos disponíveis. Por fim, a arquitetura em análise se mostrou bastante eficaz no escalonamento de unidades de processamento para a execução das diversas tarefas necessárias utilizando serviços de conteinerização de código (como o Amazon Fargate) e armazenamento distribuído em nuvem (como o Amazon S3) sem prejudicar ou alterar os dados trabalhados ao longo dos processos utilizados. ...
Abstract
This work aimed to propose a cloud architecture capable of processing data from different systems in an autonomous, efficient and scalable way, thus allowing the addition of new units of those systems without interfering with the architecture and its components. By making use of different services of AmazonWeb Services and the orchestrator of scheduled tasks, Apache Airflow, it was possible to automate the parallelism of the execution of different processes, developed in Python, of extraction, ...
This work aimed to propose a cloud architecture capable of processing data from different systems in an autonomous, efficient and scalable way, thus allowing the addition of new units of those systems without interfering with the architecture and its components. By making use of different services of AmazonWeb Services and the orchestrator of scheduled tasks, Apache Airflow, it was possible to automate the parallelism of the execution of different processes, developed in Python, of extraction, ingestion, transformation and aggregation of data from meteorological stations publicly available by the National Institute of Meteorology API and automatic irrigation stations developed in an undergraduate thesis prior to this one. All processes were orchestrated so that the data was centralized in an analytical relational database for on-demand and specialized consumption. The access to the available stations used the HTTP and MQTT protocols, allowing data to be extracted at different frequencies of execution for stations located in different cities and states of the country. Still, seeking to bring light to the benefits of data engineering in projects and demands with different systems, it was possible to evaluate the configuration of the controllers designed for the irrigation stations by verifying their behavior against the closest available meteorological data. Finally, the proposed architecture proved to be effective in scaling processing units to perform the various necessary tasks using code containerization services, such as Amazon Fargate, and distributed cloud storage such as Amazon S3, while keeping the data integrity through all the necessary processes. ...
Institution
Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Curso de Engenharia de Controle e Automação.
Collections
This item is licensed under a Creative Commons License