<html>
  <head>
    <meta content="text/html; charset=windows-1252"
      http-equiv="Content-Type">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    I'll throw in my $0.02 since I might be an oddball with how I build
    things...<br>
    <br>
    <div class="moz-cite-prefix">On 03/07/2016 08:43 PM, Jeff Friedman
      wrote:<br>
    </div>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <meta http-equiv="Content-Type" content="text/html;
        charset=windows-1252">
      Hello all. I am just entering the HPC Sales Engineering role, and
      would like to focus my learning on the most relevant stuff. I have
      searched near and far for a current survey of some sort listing
      the top used “stacks”, but cannot seem to find one that is free. I
      was breaking things down similar to this:
      <div class=""><br class="">
      </div>
      <div class=""><u class="">OS disto</u>:  CentOS, Debian, TOSS,
        etc?  I know some come trimmed down, and also include specific
        HPC libraries, like CNL, CNK, INK?  <br>
      </div>
    </blockquote>
    CentOS 7.  In fact, the base OS for each of my nodes is created with
    just:<br>
    <br>
    yum groups install "Compute Node" --releasever=7
    --installroot=/node_roots/sn2<br>
    <br>
    ... which is currently in ZFS and exported via NFSv4.<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><u class="">MPI options</u>: MPICH2, MVAPICH2, Open
        MPI, Intel MPI, ? <br>
      </div>
    </blockquote>
    All of the above (pretty much whatever our users want us to
    install).<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><u class="">Provisioning software</u>: Cobbler,
        Warewulf, xCAT, Openstack, Platform HPC, ?</div>
    </blockquote>
    We started with xCAT but moved away for various reasons. 
    Provisioning is done without this type of management software in my
    cluster.  I have a simple Python script to configure a new node's
    DHCP, PXE boot file, and NFS export (each node has its own writable
    root filesystem served to it via NFS).  It's designed to be as
    simple of an answer to "how can I PXE boot CentOS?" as I could get.<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><br class="">
      </div>
      <div class=""><u class="">Configuration management</u>: Warewulf,
        Puppet, Chef, Ansible, ? <br>
      </div>
    </blockquote>
    SaltStack!  This is what does the heavy lifting.  Nodes boot with a
    very generic CentOS image which only has 1 significant change from
    stock: a Salt minion is installed.  After a node boots, Salt takes
    over and installs software, mounts remote filesystems, cooks dinner,
    starts daemons, brings each node into the scheduler, etc.  I don't
    maintain "node images" I maintain Salt states that do all the work
    after a node boots.<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><br class="">
      </div>
      <div class=""><u class="">Resource and job schedulers</u>: I think
        these are basically the same thing? Torque, Lava, Maui, Moab,
        SLURM, Grid Engine, Son of Grid Engine, Univa, Platform LSF,
        etc… others?</div>
    </blockquote>
    We briefly used Torque+MOAB before running away crying.  We not use
    SLURM.<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><br class="">
      </div>
      <div class=""><u class="">Shared filesystems</u>: NFS, pNFS,
        Lustre, GPFS, PVFS2, GlusterFS, ? <br>
      </div>
    </blockquote>
    NFS (others in the future, we're looking at Ceph at the moment).<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><br class="">
      </div>
      <div class=""><u class="">Library management</u>: Lmod, ? <br>
      </div>
    </blockquote>
    Lmod.<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><br class="">
      </div>
      <div class=""><u class="">Performance monitoring</u>: Ganglia,
        Nagios, ?</div>
    </blockquote>
    Ganglia and in the near future, Zabbix.<br>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><br class="">
      </div>
      <div class=""><u class="">Cluster management toolkits</u>: I
        believe these perform many of the functions above, all wrapped
        up in one tool?  Rocks, Oscar, Scyld, Bright, ?</div>
    </blockquote>
    <blockquote
      cite="mid:2D1D1F4D-9B47-48FD-AFF6-CFF4AA097FF4@siliconmechanics.com"
      type="cite">
      <div class=""><br class="">
      </div>
      <div class="">Does anyone have any observations as to which of the
        above are the most common?  Or is that too broad?  I  believe
        most the clusters I will be involved with will be in the 128 -
        2000 core range, all on commodity hardware. </div>
      <div class=""><br class="">
      </div>
      <div class="">Thank you!</div>
      <div class=""><br class="">
      </div>
      <div class="">- Jeff</div>
      <div class=""><br class="">
      </div>
      <div class=""><br class="">
      </div>
      <div class=""><br class="">
      </div>
      <div class=""><br class="">
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
Beowulf mailing list, <a class="moz-txt-link-abbreviated" href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> sponsored by Penguin Computing
To change your subscription (digest mode or unsubscribe) visit <a class="moz-txt-link-freetext" href="https://urldefense.proofpoint.com/v2/url?u=http-3A__www.beowulf.org_mailman_listinfo_beowulf&d=CwICAg&c=C3yme8gMkxg_ihJNXS06ZyWk4EJm8LdrrvxQb-Je7sw&r=DhM5WMgdrH-xWhI5BzkRTzoTvz8C-BRZ05t9kW9SXZk&m=DSX_lPBl-ddcSqZRPHfgBks9Qy7i-jNze66bDl8X10k&s=JbG5Mj7EJIXkC58c2hTufeu_GdjiqqNT7h3ubh0Za38&e=">https://urldefense.proofpoint.com/v2/url?u=http-3A__www.beowulf.org_mailman_listinfo_beowulf&d=CwICAg&c=C3yme8gMkxg_ihJNXS06ZyWk4EJm8LdrrvxQb-Je7sw&r=DhM5WMgdrH-xWhI5BzkRTzoTvz8C-BRZ05t9kW9SXZk&m=DSX_lPBl-ddcSqZRPHfgBks9Qy7i-jNze66bDl8X10k&s=JbG5Mj7EJIXkC58c2hTufeu_GdjiqqNT7h3ubh0Za38&e=</a> 
</pre>
    </blockquote>
    <br>
  </body>
</html>