La
tolerancia a fallos es un aspecto crítico para aplicaciones a gran escala, ya
que aquellas simulaciones que pueden tardar del orden de varios días o semanas
para ofrecer resultados deben tener la posibilidad de manejar cierto tipo de
fallos del sistema o de alguna tarea de la aplicación.
Sin
la capacidad de detectar fallos y recuperarse de estos, dichas simulaciones
pueden no llegar a completarse. Es más, algunos tipos de aplicaciones requieren
ser ejecutadas en un entorno tolerante a fallos debido al nivel de seguridad
requeridos.
De
cualquier forma, en ciertos casos debería haber algún modo de detectar y
responder automáticamente a ciertos fallos del sistema o al menos ofrecer cierta
información al usuario en el caso de producirse un fallo.
En
PVM hay un mecanismo de notificación de fallos, de forma que una tarea puede
manejar notificaciones sobre ciertas tareas de las que espera recibir un
mensaje. Por ejemplo, si una tarea muere, otra que estuviese esperando un
mensaje de la primera recibirá una notificación en lugar del mensaje que esperaba.
De esta forma, la notificación le da la oportunidad de responder al fallo sin
tener que fallar forzosamente.
:v
ResponderEliminar:v
ResponderEliminar