<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; ">
<div>It's a &quot;hard problem&quot; The natural tendency is to solve the easy problems first, and only when backed into the corner, do you take on the hard problems. &nbsp;Or.. Someone comes out of the background with a really novel approach. &nbsp;I'm sure folks thought about
 error correcting codes in an empirical way (e.g. Parity bits) but Hamming put it all together in a nice consistent theoretical framework. &nbsp;Or Shannon, for that matter.</div>
<div><br>
</div>
<div><br>
</div>
<span id="OLK_SRC_BODY_SECTION">
<div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt">
<span style="font-weight:bold">From: </span>Deepak Singh &lt;<a href="mailto:mndoci@gmail.com">mndoci@gmail.com</a>&gt;<br>
<span style="font-weight:bold">Date: </span>Friday, November 23, 2012 11:45 AM<br>
<span style="font-weight:bold">To: </span>Jim Lux &lt;<a href="mailto:james.p.lux@jpl.nasa.gov">james.p.lux@jpl.nasa.gov</a>&gt;<br>
<span style="font-weight:bold">Cc: </span>Luc Vereecken &lt;<a href="mailto:kineticluc@gmail.com">kineticluc@gmail.com</a>&gt;, &quot;<a href="mailto:beowulf@beowulf.org">beowulf@beowulf.org</a>&quot; &lt;<a href="mailto:beowulf@beowulf.org">beowulf@beowulf.org</a>&gt;, &quot;<a href="mailto:shi@temple.edu">shi@temple.edu</a>&quot;
 &lt;<a href="mailto:shi@temple.edu">shi@temple.edu</a>&gt;<br>
<span style="font-weight:bold">Subject: </span>Re: [Beowulf] Supercomputers face growing resilience problems<br>
</div>
<div><br>
</div>
<div>
<div>
<div class="gmail_extra">And this is the bit that concerns me the most. &nbsp;At scale you should only be making two assumptions: (1) everything breaks all the time (2) you will have network partitions. &nbsp;Checkpoint/restart is a lazy option that has no place in modern
 software. Yet there doesn't seem to be a priority to go beyond checkpoint restart and rethinking software architecture. I would argue that's as much or more important than figuring out manycore.</div>
<div class="gmail_extra"><br>
</div>
<div class="gmail_extra">
<div class="gmail_quote">On Fri, Nov 23, 2012 at 6:44 AM, Lux, Jim (337C) <span dir="ltr">
&lt;<a href="mailto:james.p.lux@jpl.nasa.gov" target="_blank">james.p.lux@jpl.nasa.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div id=":3wu">a lot of HPC software design<br>
assumes perfect hardware, or, that the hardware failure rate is<br>
sufficiently low that a checkpoint/restart (or &quot;do it all over from the<br>
beginning&quot;) is an acceptable strategy.</div>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</span>
</body>
</html>