<div dir="ltr"><div>Hmmm...  I will also chip in with my favourite tip</div><div>Look at the sysctl for min_free_kbytes    It is often set very low.</div><div>Increase this substantially. It will do no harm to your system (unless you set it ti an absurd value!)</div><div><br></div><div>You should be looking at the vm dirty ratios etc. also</div></div><div class="gmail_extra"><br><div class="gmail_quote">On 15 February 2018 at 00:44, Kilian Cavalotti <span dir="ltr"><<a href="mailto:kilian.cavalotti.work@gmail.com" target="_blank">kilian.cavalotti.work@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span>On Wed, Feb 14, 2018 at 2:26 PM, David Mathog <<a href="mailto:mathog@caltech.edu">mathog@caltech.edu</a>> wrote:<br>
> Checked the hugepage settings and found a difference there.  The two systems<br>
> that don't do this have  /sys/kernel/mm/redhat_<wbr>transparent_hugepage/defrag<br>
><br>
> always madvise [never]<br>
><br>
> whereas the system with the issue has:<br>
><br>
> [always] madvise never<br>
<br>
</span>THP defragmentation is definitely something that has bitten us in the<br>
past, when under memory pressure, and we now default to [madvise]<br>
pretty much everywhere (we're too timid to disable it entirely).<br>
<br>
A good way to see if that's really the issue is to "echo never ><br>
/sys/kernel/mm/redhat_<wbr>transparent_hugepage/defrag" while the problem<br>
is happening, while simultaneously monitoring the processes with htop,<br>
for instance.<br>
It's usually pretty instant:  if the issue is really with THP defrag,<br>
then CPU usage for your stalling process should drop pretty much<br>
immediately and things go back to normal.<br>
<br>
Cheers,<br>
--<br>
Kilian<br>
<div class="HOEnZb"><div class="h5">______________________________<wbr>_________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank" rel="noreferrer">http://www.beowulf.org/<wbr>mailman/listinfo/beowulf</a><br>
</div></div></blockquote></div><br></div>