<div dir="ltr">On 28 June 2013 20:29, Greg Lindahl <span dir="ltr"><<a href="mailto:lindahl@pbm.com" target="_blank">lindahl@pbm.com</a>></span> wrote:<br><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div class="im">On Fri, Jun 28, 2013 at 09:45:50AM +0100, Jonathan Barber wrote:<br>
<br>
> The problem with SSH based approaches is when you have failed nodes -<br>
> normally they cause the entire command to hang until the attempted<br>
> connection times out.<br>
<br>
</div>Normally what people do is ping the node before trying ssh on it. And<br>
have reasonable timeouts around both the ssh connect and the command<br>
execution. There's no fundamental reason why this is any different<br>
from messaging or subscription-plus-messaging.<br></blockquote><div><br></div><div style>Pinging the host prior to connecting only determines that the IP stack is working, not that the OS is capable of handling an ssh connection. Of course, you could do a TCP SYN ping to determine that the sshd demon is up, but this can still return a false positive result if the NFS mount the host is based upon is hosed. At which point your ssh host liveness check is going to start hanging which could cause your host liveness list to be out-of-date and now we're back to where we started. This is not only a ssh problem - I've had the same issue with func [1] which is SSL-based but also a push architecture.<br>
</div><div style><br></div><div style>WRT to timeouts, the problem is determining whether a timeout means that the host is blocking with no possibility of responding (e.g. the NFS mount problem) or that the host is busy and had half completed the command before it was terminated by the timeout.</div>
<div style><br></div><div style>For me, this results in the practical difference that the pub-sub model means that the agent has the ability to subscribe to the messages and is therefore alive - and that therefore the list of live hosts is always current.</div>
<div style><br></div><div style>Of course, if it works for you, that's fine by me! If it ain't broke don't fix it, etc., etc.</div><div style><br></div><div style>Cheers<br></div><div style><br></div><div style>
p.s. If I sound bitter about NFS - especially on linux in the past, it's because I am :)<br></div><div style><br></div><div style>[1] <a href="https://fedorahosted.org/func/">https://fedorahosted.org/func/</a></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

<span class=""><font color="#888888"><br>
-- greg<br>
</font></span><div class=""><div class="h5"><br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>Jonathan Barber <<a href="mailto:jonathan.barber@gmail.com">jonathan.barber@gmail.com</a>>
</div></div>