Real-time exploration and analysis of big data
dc.contributor.advisor | Comba, Joao Luiz Dihl | pt_BR |
dc.contributor.author | Pahins, Cícero Augusto de Lara | pt_BR |
dc.date.accessioned | 2019-07-26T02:31:28Z | pt_BR |
dc.date.issued | 2018 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/197422 | pt_BR |
dc.description.abstract | This thesis consists of developing methods to enable the real-time exploration and anal- ysis of big data. The solutions must be both memory and run-time efficient, as well as take into consideration the (i) scale of data, (ii) different forms of data, (iii) analysis of streaming data and (iv) uncertainty of data. Relational databases, or statistical pack- ages, have difficulty to handle large multidimensional datasets. Naive solutions can take prohibitively large amounts of memory or time to answer as the number of dimensions increases. The interactive visualization of large datasets follows two main strategies: sampling and pre-computation. One limitation of the sampling strategy is the non-trivial extraction of random samples of large datasets, and naïve sampling strategies can generate biased results. This research mainly focuses on pre-computation strategies, which relies on the idea of computing aggregations over several dimensions. The core bottleneck of this strategy is the large memory footprint that is common to data structures used to ac- celerate data queries, e.g., data cube methods. Nevertheless, the real-time exploration and analysis of big data are one of the primary desires of visualization practitioners and data scientists. This thesis discusses the problem and presents the author’s contributions. | en |
dc.description.abstract | Esta tese consiste em desenvolver métodos para permitir a exploração e análise em tempo real de big data. As soluções devem ser eficientes em termos de memória e de tempo de execução, bem como levar em consideração a (i) escala de dados, (ii) diferentes formas de dados, (iii) análise de dados de streaming e (iv) incerteza de dados. Bancos de da- dos relacionais, ou pacotes estatísticos, têm dificuldade em lidar com grandes conjuntos de dados multidimensionais. As soluções ingênuas podem consumir quantidades proi- bitivamente grandes de memória ou tempo para responder à medida que o número de dimensões aumenta. A visualização interativa de grandes conjuntos de dados segue duas estratégias principais: amostragem e pré-computação. Uma limitação da estratégia de amostragem é a extração não trivial de amostras aleatórias de grandes conjuntos de da- dos, e estratégias de amostragem ingênuas podem gerar resultados tendenciosos. Esta pesquisa foca principalmente em estratégias de pré-computação, as quais se baseiam na idéia de pré-computar agregações. O principal gargalo dessa estratégia é a grande quanti- dade de memória comum às estruturas de dados usadas para acelerar consultas de dados, por exemplo, métodos de cubo de dados. Mesmo assim, a exploração e a análise em tempo real de big data são um dos principais desejos. de praticantes de visualização e cientistas de dados. Esta tese discute o problema e apresenta as contribuições do autor. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Open Access | en |
dc.subject | Computação gráfica | pt_BR |
dc.subject | Data structures | en |
dc.subject | Processamento de imagens | pt_BR |
dc.subject | real-time | en |
dc.subject | spatiotemporal | en |
dc.title | Real-time exploration and analysis of big data | pt_BR |
dc.title.alternative | Exploração e análise de big data em tempo real | pt |
dc.type | Tese | pt_BR |
dc.identifier.nrb | 001098252 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2018 | pt_BR |
dc.degree.level | doutorado | pt_BR |
Este item está licenciado na Creative Commons License
-
Ciências Exatas e da Terra (5129)Computação (1764)