<div dir="ltr">John's post is really funny! But I would only endorse Gavin's recommendation for it solves the problem statistically (and correctly).<div><br></div><div>Justin</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Oct 26, 2016 at 12:07 AM, Christopher Samuel <span dir="ltr"><<a href="mailto:samuel@unimelb.edu.au" target="_blank">samuel@unimelb.edu.au</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On 26/10/16 14:45, John Hanks wrote:<br>
<br>
> I'd suggest making NFS mounts hard, so processes can recover from an NFS<br>
> server reboot.<br>
<br>
</span>...plus set the NFS fsid for each export server side so they come back<br>
reproducibly each time...<br>
<br>
PS: I endorse what John said (now I've finished laughing), I'd suggest<br>
making sure you've at least got ECC memory though and RAID as those are<br>
the two parts that can go bad.  When we had clusters with disks in<br>
compute nodes those were the most frequent failures, now we run diskless<br>
nodes it's memory DIMMs. :-)<br>
<br>
All the best,<br>
Chris<br>
<span class="HOEnZb"><font color="#888888">--<br>
 Christopher Samuel        Senior Systems Administrator<br>
 VLSCI - Victorian Life Sciences Computation Initiative<br>
 Email: <a href="mailto:samuel@unimelb.edu.au">samuel@unimelb.edu.au</a> Phone: <a href="tel:%2B61%20%280%293%20903%2055545" value="+61390355545">+61 (0)3 903 55545</a><br>
 <a href="http://www.vlsci.org.au/" rel="noreferrer" target="_blank">http://www.vlsci.org.au/</a>      <a href="http://twitter.com/vlsci" rel="noreferrer" target="_blank">http://twitter.com/vlsci</a><br>
</font></span><div class="HOEnZb"><div class="h5">______________________________<wbr>_________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">http://www.beowulf.org/<wbr>mailman/listinfo/beowulf</a><br>
</div></div></blockquote></div><br></div>