<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; ">
<div>It's a "hard problem"… The natural tendency is to solve the easy problems first, and only when backed into the corner, do you take on the hard problems.  Or.. Someone comes out of the background with a really novel approach.  I'm sure folks thought about
 error correcting codes in an empirical way (e.g. Parity bits) but Hamming put it all together in a nice consistent theoretical framework.  Or Shannon, for that matter.</div>
<div><br>
</div>
<div><br>
</div>
<span id="OLK_SRC_BODY_SECTION">
<div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt">
<span style="font-weight:bold">From: </span>Deepak Singh <<a href="mailto:mndoci@gmail.com">mndoci@gmail.com</a>><br>
<span style="font-weight:bold">Date: </span>Friday, November 23, 2012 11:45 AM<br>
<span style="font-weight:bold">To: </span>Jim Lux <<a href="mailto:james.p.lux@jpl.nasa.gov">james.p.lux@jpl.nasa.gov</a>><br>
<span style="font-weight:bold">Cc: </span>Luc Vereecken <<a href="mailto:kineticluc@gmail.com">kineticluc@gmail.com</a>>, "<a href="mailto:beowulf@beowulf.org">beowulf@beowulf.org</a>" <<a href="mailto:beowulf@beowulf.org">beowulf@beowulf.org</a>>, "<a href="mailto:shi@temple.edu">shi@temple.edu</a>"
 <<a href="mailto:shi@temple.edu">shi@temple.edu</a>><br>
<span style="font-weight:bold">Subject: </span>Re: [Beowulf] Supercomputers face growing resilience problems<br>
</div>
<div><br>
</div>
<div>
<div>
<div class="gmail_extra">And this is the bit that concerns me the most.  At scale you should only be making two assumptions: (1) everything breaks all the time (2) you will have network partitions.  Checkpoint/restart is a lazy option that has no place in modern
 software. Yet there doesn't seem to be a priority to go beyond checkpoint restart and rethinking software architecture. I would argue that's as much or more important than figuring out manycore.</div>
<div class="gmail_extra"><br>
</div>
<div class="gmail_extra">
<div class="gmail_quote">On Fri, Nov 23, 2012 at 6:44 AM, Lux, Jim (337C) <span dir="ltr">
<<a href="mailto:james.p.lux@jpl.nasa.gov" target="_blank">james.p.lux@jpl.nasa.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div id=":3wu">a lot of HPC software design<br>
assumes perfect hardware, or, that the hardware failure rate is<br>
sufficiently low that a checkpoint/restart (or "do it all over from the<br>
beginning") is an acceptable strategy.</div>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</span>
</body>
</html>