<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
Guy Coates wrote:
<blockquote
 cite="midPine.OSF.4.44.0503102153090.3531537-100000@ecs2f.internal.sanger.ac.uk"
 type="cite">
  <pre wrap="">On Thu, 10 Mar 2005, Paul Johnson wrote:

  </pre>
  <blockquote type="cite">
    <pre wrap="">All:

I have a 4 node cluster(dont snicker :) )
    </pre>
  </blockquote>
  <pre wrap=""><!---->
Everyone starts off small.

and Im trying to do some
  </pre>
  <blockquote type="cite">
    <pre wrap="">benchmarking with HPL.  I want to test 2 of the nodes with 1Gb of
ram each.  I calculated the maximum problem size that can fit in 2Gb
and still allow for memory for the operating system.  That came out to
be around 14500x14500.  When I run that size of a test it always fails.
The largest problem that I can test and not have it fail on me is
12500x12500.
What is the reason behind this?  Im confused on what is going on here.
Thanks for any help.
    </pre>
  </blockquote>
  <pre wrap=""><!---->

Do you know what actually caused the failure?

If your problem size was too big, and you are really out of memory, you
should see some messages in the system log saying the out-of-memory-killer
was activated and HPL was zapped.

If you know your machines was not actually out of memory, then you have
broken hardware on one of your nodes. Run memtest+ or memtest on your
nodes (Possibly the world's most useful pieces of diagnostic software).

<a class="moz-txt-link-freetext" href="http://www.memtest86.com">http://www.memtest86.com</a>
<a class="moz-txt-link-freetext" href="http://www.memtest.org">http://www.memtest.org</a>


If you haven't seen it, IBM have a redpaper on tuning HPL, which gives
some good starting parameters, problem-sizing tips and an overview of
different BLAS libraries you can compile against to get that extra few
Gflops of performance.

Cheers,

Guy

  </pre>
</blockquote>
I should have been more clearer in my description.  It doesn't fail at
the command prompt when I run it.  It fails when it checks the solution
to linear equations.  The residual is too high and fails.  This is part
of the data from my HPL.out file:<br>
<br>
============================================================================<br>
T/V                N    NB     P     Q               Time            
Gflops<br>
----------------------------------------------------------------------------<br>
WC12R2L4       14500    64     1     2             388.43         
5.233e+00<br>
----------------------------------------------------------------------------<br>
||Ax-b||_oo / ( eps * ||A||_1  * N        ) =   284363.4669186 ......
FAILED<br>
||Ax-b||_oo / ( eps * ||A||_1  * ||x||_1  ) =   210262.3627204 ......
FAILED<br>
||Ax-b||_oo / ( eps * ||A||_oo * ||x||_oo ) =    41377.6398965 ......
FAILED<br>
||Ax-b||_oo  . . . . . . . . . . . . . . . . . =           0.001692<br>
||A||_oo . . . . . . . . . . . . . . . . . . . =        3708.772315<br>
||A||_1  . . . . . . . . . . . . . . . . . . . =        3695.221759<br>
||x||_oo . . . . . . . . . . . . . . . . . . . =           6.847285<br>
||x||_1  . . . . . . . . . . . . . . . . . . . =       19610.120504<br>
============================================================================<br>
<br>
Sorry for the confusion,<br>
Paul
<pre class="moz-signature" cols="72">-- 
Paul Johnson
Graduate Student - Mechanical Engineering
University of Florida - Gainesville, Fl
<a class="moz-txt-link-freetext" href="http://plaza.ufl.edu/redboots">http://plaza.ufl.edu/redboots</a>

Reclaim Your Inbox!
<a class="moz-txt-link-freetext" href="http://www.mozilla.org/products/thunderbird">http://www.mozilla.org/products/thunderbird</a>
</pre>
</body>
</html>