<div dir="ltr">I am with Joe regarding looking at the interrupts.<div><br></div><div>However, could this be a difference with the power management with the Redhat kernel?</div><div>ie. when running on 8 cores you are tripping over some thermal threshold and causing a throttle back to a lower C-state?</div>

<div><br></div><div>Can you give the kernel versions for both setups?</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 24 April 2014 16:56, Joe Landman <span dir="ltr"><<a href="mailto:landman@scalableinformatics.com" target="_blank">landman@scalableinformatics.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">On 04/24/2014 11:31 AM, Brian Dobbins wrote:<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">
<br>
Hi everyone,<br>
<br>
   We're having a problem with one of our clusters after it was upgraded<br>
to RH6.2 (from CentOS5.5) - the performance of our Infiniband network<br>
degrades randomly and severely when using all 8 cores in our nodes for<br>
MPI,... but not when using only 7 cores per node.<br>
<br>
   For example, I have a hacked-together script (below) that does a<br>
sequence of 20 sets of fifty MPI_Allreduce tests via the Intel MPI<br>
benchmarks, and then calculates statistics on the average times per<br>
individual set.  For our 'good' (CentOS 5.5) nodes, we see consistent<br>
results:<br>
<br>
% perftest hosts_c20_8c.txt<br>
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.<br>
   176.0   177.3   182.6   182.8   186.1   196.9<br>
% perftest hosts_c20_8c.txt<br>
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.<br>
   176.3   180.4   184.8   187.0   189.1   213.5<br>
<br>
   ... But for our tests on the RH6.2 install, we see enormous variance:<br>
<br>
% perftest hosts_c18_8c.txt<br>
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.<br>
   176.8   185.9   217.0   347.6   387.7  1242.0<br>
% perftest hosts_c18_8c.txt<br>
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.<br>
   178.2   204.5   390.5   329.6   409.4   493.1<br>
<br></div>
   Note that the minimums are similar -- not /every/ run experiences<div class=""><br>
this jitter - and in the case of the first run of the script, even the<br>
median value is pretty decent, so seemingly only a few of the tests were<br>
high.  But the maximum is enormous.  Each of these tests are run one<br>
right after the other, and strangely it seems to always differ between<br></div>
/instances/ of the IMB code, not in individual loops -eg, one of the<div class=""><br>
fifty runs inside an individual call.  Those all seem consistent, so<br>
that's either luck, or some issue on mapping the IB device, or some<br>
interrupt issue in the kernel, etc.<br>
</div></blockquote>
<br>
Median changes by more than factor of 2. And the distribution tail is *huge*.<br>
<br>
FWIW: 6.2 was a terrible release.  If you have to use pure RHEL, get to 6.5+.  And there are many tunables you need to look at.<br>
<br>
Bigger view ... have you isolated a CPU for IB handling, so at 7 cores, your machine is full (1 for IB and 7 for apps), but at 8 cores you are contending for resources (8 for apps + 1 for IB)?<br>
<br>
Are you running the app with taskset (explicitly or implicitly)?<span class="HOEnZb"><font color="#888888"><br>
<br>
<br>
<br>
<br>
-- <br>
Joseph Landman, Ph.D<br>
Founder and CEO<br>
Scalable Informatics, Inc.<br>
email: <a href="mailto:landman@scalableinformatics.com" target="_blank">landman@scalableinformatics.<u></u>com</a><br>
web  : <a href="http://scalableinformatics.com" target="_blank">http://scalableinformatics.com</a><br>
twtr : @scalableinfo<br>
phone: <a href="tel:%2B1%20734%20786%208423%20x121" value="+17347868423" target="_blank">+1 734 786 8423 x121</a><br>
cell : <a href="tel:%2B1%20734%20612%204615" value="+17346124615" target="_blank">+1 734 612 4615</a><br>
______________________________<u></u>_________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank">http://www.beowulf.org/<u></u>mailman/listinfo/beowulf</a><br>
</font></span></blockquote></div><br></div>