<br><br><div class="gmail_quote">On Thu, Oct 22, 2009 at 5:56 PM, Rahul Nabar <span dir="ltr"><<a href="mailto:rpnabar@gmail.com">rpnabar@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

I wanted to get some opinions about if watchdog timers are a good idea<br>
or not. I came across watchdogs again when reading through my IPMI<br>
manual. In principle it sounds neat: If the system hangs then get it<br>
to reboot after, say, 5 minutes automatically. But, in practice, maybe<br>
it is a terrible idea.<br></blockquote><div><br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
Of course, one might say, a well configured HPC compute-node<br>
shouldn't be getting to a hung point anyways; but in-practice I see a<br>
few nodes every month that can be resurrected by a simple reboot.<br>
Admittedly these nodes are quite senile.<br>
<br></blockquote><div>Some BIOS's have a setting for this, times to reboot before quitting.<br> <br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">


The danger, seems to me: What if a node kept crashing (due to say,  a<br>
bad HDD or something). Then a watchdog would merely keep rebooting<br>
this node a hundred times. Not such a good thing.<br>
<br>
Have you guys used watchdog timers? Maybe there is a way to build a<br>
circuit-breaker around the principle so that if a node reboots<br>
automatically more than 3 times then watchdog gives up?<br>
</blockquote><div><br>You could also do something at the system level to prevent it. If the system<br>boots and the previous_uptime is less that one hour shut down the system.<br>The WD timer will not wake it up.<br></div>

<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"> <br>
If one had to do the watchdogging should one do the resets locally<br>
using the IPMI local interface (hogs cpu cycles) or a central<br>
Nagios-like system that could issue such a command. Many scenarios<br>
seem possible. The prospect of a automated system doing a reboot at<br>
3am seems more tempting than me having to do this manually.<br>
<font color="#888888"><br></font></blockquote><div>Also almost all systems that can do this also send out a page and an email<br>on the event, so someone will know about it.<br><br>Ed<br><br> </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

<font color="#888888">
--<br>
Rahul<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
</font></blockquote></div><br>