cant that be used in conjunction wiht other packages taht will power down a node which fails?<br><br>
<div class="gmail_quote">On Fri, Jul 4, 2008 at 10:39 AM, Kenneth Duncan Strouts <<a href="mailto:K.D.Strouts@sms.ed.ac.uk">K.D.Strouts@sms.ed.ac.uk</a>> wrote:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">Hi Jon, 
<div class="Ih2E3d"><br><br><br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">Quoting Tony Travis <<a href="mailto:ajt@rri.sari.ac.uk" target="_blank">ajt@rri.sari.ac.uk</a>>:<br>
Although Kerrighed looks very promising, it is also quite fragile in our hands. If one node crashes, you lose the entire cluster. That said, the Kerrighed project is extremely well supported and I believe it will be a good alternative in the near future.<br>
</blockquote><br><br></div>We found that with Kerrighed, one node crashing sees the whole cluster go down.  The following is output to kern.log before the cluster dies.<br><br>Jul  2 13:57:03 nodeC@kghed kernel: TIPC: Resetting link<br>
<1.1.2:eth1-1.1.3:eth1>, peer not responding<br>Jul  2 13:57:03 nodeC@kghed kernel: TIPC: Lost link<br><1.1.2:eth1-1.1.3:eth1> on network plane B<br>Jul  2 13:57:03 nodeC@kghed kernel: TIPC: Lost contact with <1.1.3><br>
<br>From the Kerrighed mailing list (Louis Rilling);<br><br>"Indeed, Kerrighed does not tolerate node failures yet. We have no precise date<br>for this, and giving a date right now would be meaningless. The first step for<br>
us is to support dynamic cluster resizing (IOW live node additions and removals), and we've just started working on it. We will work on node failures in a second step."<br><br>It seems they are working on this, and on a new framework for configurable process scheduling.  Probably Kerrighed will provide a good alternative in future.<br>
<br>Kenneth<br><font color="#888888"><br><br><br>-- <br>The University of Edinburgh is a charitable body, registered in<br>Scotland, with registration number SC005336.</font> 
<div>
<div></div>
<div class="Wj3C7c"><br><br><br><br><br>_______________________________________________<br>Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a><br>To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Jonathan Aquilina