<div dir="ltr">As you might guess, we were very happy with how our codes run on the Phi and the time/effort required to port.  It is very very simple to use and the performance is excellent :)  With no tuning (just recompile) we saw a single phi go at about 1.7x faster than our current AMD 64 cores nodes.<br>

</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Sun, Jan 13, 2013 at 10:21 AM, Bill Broadley <span dir="ltr"><<a href="mailto:bill@cse.ucdavis.edu" target="_blank">bill@cse.ucdavis.edu</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On 01/12/2013 04:25 PM, Stu Midgley wrote:<br>
> Until the Phi's came along, we were purchasing 1RU, 4 sockets nodes<br>
> with 6276's and 256GB ram.  On all our codes, we found the throughput<br>
> to be greater than any equivalent density Sandy bridge systems<br>
> (usually 2 x dual socket in 1RU) at about 10-15% less energy and<br>
> about 1/3 the price for the actual CPU (save a couple thousand $$ per<br>
> 1RU).<br>
<br>
</div>For many workloads we found similar.  The last few generations of AMD<br>
CPUs have had 4 memory channels per socket.  At first I was puzzled that<br>
even fairly memory intensive codes scaled well.<br>
<br>
Even following a random pointer chain performance almost doubled when I<br>
tested with 2 threads per memory channel instead of 1.<br>
<br>
Then I realized the L3 latency is almost half of the latency to main<br>
memory.  So you get significant throughput advantages by having a queue<br>
of L3 cache misses waiting for the instant any of the memory channels<br>
free up.<br>
<br>
In fact even with 2 jobs per memory channel sometimes the memory channel<br>
goes idle.  Even 4 jobs jobs per memory channel sees some increases.<br>
The good news is that most codes aren't as memory bandwidth/latency<br>
intensive as the related micro benchmarks (and therefore scale better).<br>
<br>
I think the more cores per memory channel is a key part of AMDs improved<br>
throughput per socket when compared to Intel.  Not always true of<br>
course, again it's highly application dependent.<br>
<div class="im"><br>
> Of course, we are now purchasing Phi's.  First 2 racks meant to turn<br>
> up this week.<br>
<br>
</div>Interesting, please report back on anything of interest that you find.<br>
</blockquote></div><br><br clear="all"><br>-- <br>Dr Stuart Midgley<br><a href="mailto:sdm900@sdm900.com" target="_blank">sdm900@sdm900.com</a>
</div>