Please use this identifier to cite or link to this item:
http://repositoriosenaiba.fieb.org.br/handle/fieb/749
Title: | Um ambiente computacional tolerante a falhas para aplicações paralelas |
Other Titles: | A fault-tolerant computing environment for parallel applications |
Authors: | Pinheiro, Oberdan Rocha |
metadata.dc.contributor.advisor: | Souza, Josemar Rodrigues de |
metadata.dc.contributor.referees: | Duarte, Ângelo Amâncio Barreto, Marcos Ennes Pereira, Hernane Borges de Barros |
Keywords: | Falha - Tolerância;Checkpoint - Protocolo;MPI |
Issue Date: | 2013 |
Publisher: | Faculdade de Tecnologia SENAI CIMATEC |
Citation: | PINHEIRO, Oberdan Rocha. Um ambiente computacional tolerante a falhas para aplicações paralelas. Orientador: Josemar Rodrigues de Souza. 2013. 80 f. Dissertação (Mestrado em Modelagem Computacional e Tecnologia Industrial) – Faculdade de Tecnologia SENAI CIMATEC, Salvador, 2013. |
Abstract: | O desempenho computacional disponibilizado pelos sistemas paralelos resulta da capacidade de dividir o trabalho em partes menores e encaminhar cada uma delas para ser processada paralelamente em diferentes nós de um sistema distribuído. A falha em uma das partes paralelizadas pode levar a computação a um estado de operação inadequado, comprometendo o resultado final da computação paralela distribuída. Um sistema distribuído está sujeito a falhas nos seus componentes de comunicação, seus processadores, em suas aplicações entre outros componentes que formam o sistema. Desta maneira, as aplicações paralelas, ao utilizarem os recursos disponibilizados pelos sistemas distribuídos, têm suas partes executadas em paralelo, em diferentes nós desse sistema. Em razão de cada um desses recursos ser um possível ponto de falha, as aplicações paralelas acabam se tornando mais susceptíveis à ocorrência de falhas. Quando as aplicações paralelas são interrompidas durante a ocorrência de falhas, todo o processamento realizado e o tempo gasto para tal são desperdiçados, pois as aplicações devem ser reinicializadas. Dessa forma, o desenvolvimento de técnicas de tolerância a falhas torna-se fundamental, para garantir o término das aplicações paralelas. Este trabalho apresenta um ambiente computacional tolerante a falhas para aplicações paralelas que utilizam o padrão Open MPI, para minimizar o desperdício de tempo e processamento já realizados pelos processos da aplicação paralela, até o momento do surgimento da falha. O ambiente utiliza mecanismo de checkpoint/restart do padrão Open MPI para armazenar e recuperar os estados dos processos paralelos e a técnica de heartbeat para verificar a continuidade de execução destes mesmos processos. ABSTRACT: The computational performance provided by parallel systems results from the ability to divide the work into smaller parts and route each of them to be processed in parallel on different nodes of a distributed system. Failure in one of the parallelized parts can lead the computation to an improper operating state, compromising the bottom line of distributed parallel computing. A distributed system is subject to failures in its communication components, its processors, in its applications and other components that make up the system. In this way, the Parallel applications, when using the resources made available by distributed systems, have their parts executed in parallel, in different nodes of that system. Because each of these resources is a possible point of failure, parallel applications end up becoming more susceptible to failure. When parallel applications are interrupted during failures, all the processing performed and the time spent doing so is wasted, as the applications must be restarted. Thus, the development of fault tolerance techniques becomes essential to ensure the termination of parallel applications. This work presents a fault-tolerant computing environment for parallel applications that use the Open MPI standard, to minimize the waste of time and processing already performed by the processes of the parallel application, until the moment of failure. The environment uses the Open MPI standard checkpoint/restart mechanism to store and retrieve the states of parallel processes and the heartbeat technique to verify the continuity of execution of these same processes. |
URI: | http://repositoriosenaiba.fieb.org.br/handle/fieb/749 |
Appears in Collections: | Dissertações de Mestrado (PPG MCTI) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Dissertacao Oberdan Rocha Pinheiro.pdf | 1.29 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.