Mostrar el registro sencillo del ítem
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados
dc.contributor.advisor | Jansch-Porto, Ingrid Eleonora Schreiber | pt_BR |
dc.contributor.author | Buligon, Clairton | pt_BR |
dc.date.accessioned | 2007-06-06T17:41:48Z | pt_BR |
dc.date.issued | 2005 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/5018 | pt_BR |
dc.description.abstract | A recuperação por retorno baseada em checkpointing é largamente usada como técnica de tolerância a falhas. O modelo complexo de sistemas distribuídos tem motivado o desenvolvimento de diversos algoritmos na tentativa de encontrar soluções mais simples e eficientes. Os processos que formam o sistema distribuído podem coordenar suas operações para garantir que o conjunto de checkpoints locais componha um estado global consistente (linha de recuperação). A partir desse estado, no caso de ocorrência de falhas, o sistema pode ser recuperado e a computação retomada a partir de um momento anterior ao da manifestação da falha, evitando o retrocesso para o estado inicial da computação e prevenindo a ocorrência de prejuízos com a perda de todo processamento até então realizado. No Grupo de Tolerância a Falhas da UFRGS foi proposto recentemente um algoritmo que é voltado para aplicações que executam em sistemas distribuídos assíncronos que se comunicam exclusivamente pela troca de mensagens. Ele opera com salvamento coordenado de checkpoints (não bloqueando as aplicações) e prevê o tratamento de mensagens órfãs e perdidas. Os mecanismos do algoritmo sugerem que nenhuma alteração deveria ser realizada no código das aplicações, criando a possibilidade de implementação transparente sob o ponto de vista dos usuários e dos programadores das aplicações. Como o algoritmo não requer o bloqueio das aplicações, a sobrecarga imposta pelos mecanismos à execução livre de falhas é pequena. Além disso, o processo de recuperação tende a ser efetuado rapidamente, uma vez que é garantida a existência de uma linha de recuperação consistente, facilmente identificada Este trabalho apresenta as decisões de projeto, a implementação, os resultados e a avaliação de desempenho desse algoritmo. A avaliação das alternativas de implementação resultou na decisão de uma implementação então realizada diretamente sobre o sistema operacional Linux, sem recorrer a protocolos auxiliares para garantir a execução dos serviços e sem a necessidade de adaptações no código das aplicações nem no código do sistema operacional. Adicionalmente, os resultados comprovaram a expectativa inicial de que o algoritmo causaria pouca sobrecarga no sistema (menos de 2%), embora ele ainda apresente alta dependência do tamanho dos checkpoints salvos. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Sistemas distribuídos | pt_BR |
dc.subject | Algoritmos computacionais | pt_BR |
dc.subject | Recuperacao : Processos | pt_BR |
dc.subject | Tolerancia : Falhas | pt_BR |
dc.title | Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados | pt_BR |
dc.type | Dissertação | pt_BR |
dc.contributor.advisor-co | Cechin, Sergio Luis | pt_BR |
dc.identifier.nrb | 000507940 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2005. | pt_BR |
dc.degree.level | mestrado | pt_BR |
Ficheros en el ítem
Este ítem está licenciado en la Creative Commons License
-
Ciencias Exactas y Naturales (5148)Computación (1769)