Change data capture solutions for apache cassandra.
Fecha
2014Autor
Co-director
Nivel académico
Grado
Tipo
Otro título
Soluções de change data capture para apache Cassandra
Materia
Abstract
Apache Cassandra is a powerful NoSQL database. Its implementation provides a high performance database, also aiming high scalability. In the same manner, the Hadoop MapReduce framework provides a highly scalable API for parallel and distributed computation. All in a transparent way to the programmer. Change Data Capture (CDC) solutions are capable of speeding up services that track modifications in a source database, passing the changes to a target database. In this context, we discuss in this ...
Apache Cassandra is a powerful NoSQL database. Its implementation provides a high performance database, also aiming high scalability. In the same manner, the Hadoop MapReduce framework provides a highly scalable API for parallel and distributed computation. All in a transparent way to the programmer. Change Data Capture (CDC) solutions are capable of speeding up services that track modifications in a source database, passing the changes to a target database. In this context, we discuss in this thesis several techniques for extracting data that has changed in a source database; later on, making the changes available for use at a target database. The techniques use MapReduce to implement their logics and also to interact with the source database Apache Cassandra. The same API stores the results in Hadoop Distributed File System (HDFS). All technologies are for distributed and/or parallel environments, e.g., clusters. The proposed techniques are designed to work in this scenario, with the best possible performance. ...
Resumo
O Apache Cassandra é um banco de dados NoSQL poderoso. Sua implementação provê um banco de dados de alta performance, visando também alta escalabilidade. Da mesma forma, o framework Hadoop MapReduce fornece uma API altamente escalável para computação paralela e distribuída. Tudo de uma forma transparente para o programador. Soluções de Change Data Capture (CDC) são capazes de acelerar serviços que monitoram modificações em um banco de dados fonte, passando as mudanças para um banco de dados des ...
O Apache Cassandra é um banco de dados NoSQL poderoso. Sua implementação provê um banco de dados de alta performance, visando também alta escalabilidade. Da mesma forma, o framework Hadoop MapReduce fornece uma API altamente escalável para computação paralela e distribuída. Tudo de uma forma transparente para o programador. Soluções de Change Data Capture (CDC) são capazes de acelerar serviços que monitoram modificações em um banco de dados fonte, passando as mudanças para um banco de dados destino. Neste contexto, nesta tese discutimos diferentes técnicas para extrair dados que foram alterados em um banco de dados fonte, posteriormente disponibilizando as mudanças para uso em um banco de dados destino. As técnicas usam MapReduce para implementar suas lógicas e interagir com o banco de dados fonte Apache Cassandra. A mesma API armazena os resultados no Sistema de Arquivos Distribuídos do Hadoop (HDFS). Todas tecnologias são para ambientes distribuídos e/ou paralelos, e.g., clusters. As técnicas propostas são projetadas para atuar neste cenário, com a melhor performance possível. ...
Institución
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Colecciones
-
Tesinas de Curso de Grado (37546)
Este ítem está licenciado en la Creative Commons License