Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados

Buligon, Clairton

dc.contributor.advisor	Jansch-Porto, Ingrid Eleonora Schreiber	pt_BR
dc.contributor.author	Buligon, Clairton	pt_BR
dc.date.accessioned	2007-06-06T17:41:48Z	pt_BR
dc.date.issued	2005	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/5018	pt_BR
dc.description.abstract	A recuperação por retorno baseada em checkpointing é largamente usada como técnica de tolerância a falhas. O modelo complexo de sistemas distribuídos tem motivado o desenvolvimento de diversos algoritmos na tentativa de encontrar soluções mais simples e eficientes. Os processos que formam o sistema distribuído podem coordenar suas operações para garantir que o conjunto de checkpoints locais componha um estado global consistente (linha de recuperação). A partir desse estado, no caso de ocorrência de falhas, o sistema pode ser recuperado e a computação retomada a partir de um momento anterior ao da manifestação da falha, evitando o retrocesso para o estado inicial da computação e prevenindo a ocorrência de prejuízos com a perda de todo processamento até então realizado. No Grupo de Tolerância a Falhas da UFRGS foi proposto recentemente um algoritmo que é voltado para aplicações que executam em sistemas distribuídos assíncronos que se comunicam exclusivamente pela troca de mensagens. Ele opera com salvamento coordenado de checkpoints (não bloqueando as aplicações) e prevê o tratamento de mensagens órfãs e perdidas. Os mecanismos do algoritmo sugerem que nenhuma alteração deveria ser realizada no código das aplicações, criando a possibilidade de implementação transparente sob o ponto de vista dos usuários e dos programadores das aplicações. Como o algoritmo não requer o bloqueio das aplicações, a sobrecarga imposta pelos mecanismos à execução livre de falhas é pequena. Além disso, o processo de recuperação tende a ser efetuado rapidamente, uma vez que é garantida a existência de uma linha de recuperação consistente, facilmente identificada Este trabalho apresenta as decisões de projeto, a implementação, os resultados e a avaliação de desempenho desse algoritmo. A avaliação das alternativas de implementação resultou na decisão de uma implementação então realizada diretamente sobre o sistema operacional Linux, sem recorrer a protocolos auxiliares para garantir a execução dos serviços e sem a necessidade de adaptações no código das aplicações nem no código do sistema operacional. Adicionalmente, os resultados comprovaram a expectativa inicial de que o algoritmo causaria pouca sobrecarga no sistema (menos de 2%), embora ele ainda apresente alta dependência do tamanho dos checkpoints salvos.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Sistemas distribuídos	pt_BR
dc.subject	Algoritmos computacionais	pt_BR
dc.subject	Recuperacao : Processos	pt_BR
dc.subject	Tolerancia : Falhas	pt_BR
dc.title	Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co	Cechin, Sergio Luis	pt_BR
dc.identifier.nrb	000507940	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2005.	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 000507940.pdf
Tamanho:: 711.9Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5373)

Computação (1833)

Mostrar registro simples