<div dir="ltr"><div><div><div><div><div>Olli-Pekka,<br><br></div>Very nice - I'm glad you put a list down. Many of the things that I do are based on experience.<br><br></div>A long time ago, in one of my previous jobs, we used to run NAS Parallel Benchmark (NPB) on single nodes to get a baseline of performance. We would look for outliers and triage and debug them based on these results. We're not running the test for performance but to make sure the cluster was a homogeneous as possible. Have you done this before?<br><br></div>I've also seen people run HPL on single nodes and look for outliers. After triaging these, HPL is run on smaller groups of nodes within a single switch, look for outliers and triage them. This continues up to the entire system. The point is not to get a great HPL number to submit to the Top500 but rather to find potential network issues, particularly network links.<br><br></div>Thanks for the good work! <br><br></div>Jeff<br><br></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 22, 2016 at 11:32 AM, Olli-Pekka Lehto <span dir="ltr"><<a href="mailto:olli-pekka.lehto@csc.fi" target="_blank">olli-pekka.lehto@csc.fi</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div style="font-family:arial,helvetica,sans-serif;font-size:12pt;color:#000000"><div>Hi,</div><div><br></div><div>I finally got around to writing down my cluster-consistency checklist that I've been planning for a long time: </div><div><br></div><div><a href="https://github.com/oplehto/cluster-checks/" target="_blank">https://github.com/oplehto/cluster-checks/</a> <div><br></div></div><div>The goal is to try to make the baseline installation of a cluster as consistent as possible and make vendors work for their money. :) Of course hopefully publishing this will help vendors capture some of the issues that slip through the cracks even before clusters are handed over. It's also a good idea to run these types of checks during the lifetime of the system as there's always some consistency creep as hardware gets replaced. </div><div><br></div><div>If someone is interested in contributing, pull requests or comments on the list are welcome. I'm sure that there's something missing as well. Right now it's just a text-file but making some nicer scripts and postprocessing for the output might happen as well at some point. All the examples are very HP oriented as well at this point.</div><div><br></div><div>Best regards,</div><div>Olli-Pekka</div><span class="HOEnZb"><font color="#888888"><div>-- <br>Olli-Pekka Lehto<br>Development Manager<br>Computing Platforms<br>CSC - IT Center for Science Ltd.<br>E-Mail: <a href="mailto:olli-pekka.lehto@csc.fi" target="_blank">olli-pekka.lehto@csc.fi</a><br>Tel: <a href="tel:%2B358%2050%20381%208604" value="+358503818604" target="_blank">+358 50 381 8604</a><br>skype: oplehto // twitter: ople</div></font></span></div></div><br>_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
<br></blockquote></div><br></div>