<div dir="ltr"><br>
    <div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div bgcolor="#FFFFFF"><div><div class="gmail-m_-2994157812296860039gmail-h5"><div class="gmail-m_-2994157812296860039gmail-m_6832567569932734095moz-cite-prefix">On 10/7/2017 8:21 AM, Josh Catana
      wrote:<br>
    </div>
    </div></div><blockquote type="cite"><div><div class="gmail-m_-2994157812296860039gmail-h5">
      <div dir="auto">This may have been brought up in the past, but I
        couldn't find much in my message  archive.
        <div dir="auto">What are people using for HPC cluster monitoring
          and metrics lately? I've been low on time to add features to
          my home grown solution and looking at some OTS products. 
          <div dir="auto">I'm looking for something that can do
            monitoring, alert on condition, broken hardware, etc.</div>
          <div dir="auto">Also something that does system resource
            utilization metrics. If it has a plug-in for a scheduling
            system like PBS where I can correlate a job ID to the
            metrics of the systems it is currently running on or
            previously ran on at the time, that would be an amazing
            plus.</div>
          <div dir="auto">Any of you beowulfers have any suggestions?</div>
        </div>
      </div><br></div></div></blockquote></div></blockquote></div></div><div class="gmail_extra"><br></div><div class="gmail_extra">We use XDMoD and Zabbix for per machine monitoring. Logwatch as well, but not as comprehensively. <br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Tried Grafana, InfluxDB and this plugin ( <a href="http://slurm.schedmd.com/SLUG16/monitoring_influxdb_slug.pdf">http://slurm.schedmd.com/SLUG16/monitoring_influxdb_slug.pdf</a> ) but we didn't find it as useful as we would have liked. It's a great plugin, we just didn't need it.</div><div class="gmail_extra"><br></div><div class="gmail_extra">cheers</div><div class="gmail_extra">L.<br></div><div class="gmail_extra"><br></div><div class="gmail_extra"><br clear="all"><div><div class="gmail-m_-2994157812296860039gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>------<br>"The antidote to apocalypticism is 
<b>apocalyptic civics</b>. Apocalyptic civics is the 
insistence that we cannot ignore the truth, nor should we panic about 
it. It is a shared consciousness that our institutions have failed and 
our ecosystem is collapsing, yet we are still here — and we are creative
 agents who can shape our destinies. Apocalyptic civics is the 
conviction that the only way out is through, and the only way through is
 together. "<br><br><i>Greg Bloom</i> @greggish <a href="https://twitter.com/greggish/status/873177525903609857" target="_blank">https://twitter.com/greggish/<wbr>status/873177525903609857</a><br></div></div></div></div></div></div></div></div></div></div></div></div>
</div></div>