<div dir="ltr">I would agree that the bandwidth points at 1 GigE in this case.<div><br></div><div>For IB/OPA cards running slower than expected, I would recommend ensuring that they are using the correct amount of PCIe lanes.</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Aug 17, 2017 at 12:35 PM, Joe Landman <span dir="ltr"><<a href="mailto:joe.landman@gmail.com" target="_blank">joe.landman@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class=""><br>
<br>
On 08/17/2017 12:00 PM, Faraz Hussain wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I noticed an mpi job was taking 5X longer to run whenever it got the compute node lusytp104 . So I ran qperf and found the bandwidth between it and any other nodes was ~100MB/sec. This is much lower than ~1GB/sec between all the other nodes. Any tips on how to debug further? I haven't tried rebooting since it is currently running a single-node job.<br>
<br>
[hussaif1@lusytp114 ~]$ qperf lusytp104 tcp_lat tcp_bw<br>
tcp_lat:<br>
    latency  =  17.4 us<br>
tcp_bw:<br>
    bw  =  118 MB/sec<br>
[hussaif1@lusytp114 ~]$ qperf lusytp113 tcp_lat tcp_bw<br>
tcp_lat:<br>
    latency  =  20.4 us<br>
tcp_bw:<br>
    bw  =  1.07 GB/sec<br>
<br>
This is separate issue from my previous post about a slow compute node. I am still investigating that per the helpful replies. Will post an update about that once I find the root cause!<br>
</blockquote>
<br></span>
Sounds very much like it is running over gigabit ethernet vs Infiniband.  Check to make sure it is using the right network ...<span class="im HOEnZb"><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
______________________________<wbr>_________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">http://www.beowulf.org/mailman<wbr>/listinfo/beowulf</a><br>
</blockquote>
<br></span><span class="HOEnZb"><font color="#888888">
-- <br>
Joe Landman<br>
e: <a href="mailto:joe.landman@gmail.com" target="_blank">joe.landman@gmail.com</a><br>
t: @hpcjoe<br>
w: <a href="https://scalability.org" rel="noreferrer" target="_blank">https://scalability.org</a><br>
g: <a href="https://github.com/joelandman" rel="noreferrer" target="_blank">https://github.com/joelandman</a><br>
l: <a href="https://www.linkedin.com/in/joelandman" rel="noreferrer" target="_blank">https://www.linkedin.com/in/jo<wbr>elandman</a></font></span><div class="HOEnZb"><div class="h5"><br>
<br>
______________________________<wbr>_________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">http://www.beowulf.org/mailman<wbr>/listinfo/beowulf</a><br>
</div></div></blockquote></div><br></div>