<br><br><div class="gmail_quote">On Tue, Jan 27, 2009 at 6:20 PM, Rahul Nabar <span dir="ltr"><<a href="mailto:rpnabar@gmail.com">rpnabar@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I set up my nagios system to monitor 256 odd nodes each with about 6 services (direct and NRPE). It is working fine but my load averages have started edging upwards. Not critical yet but I wanted some tips to make things more efficient and see if there are things I might have done ineffeciently. <br>

<br>One of the points I identified is this: I am doing a ping and ssh check on each server. This seems redundant. Is there a way to set it up so that:<br>Do a ssh check; if this succeds obviously ping is ok. If it fails do a ping check and report on that.<br>

<br><br>How about the other way around too? I have a bunch of NRPE checks: load_average, total-processes, scratch and home dir usage, pbs_mom, ntp_time. If ssh fails then there is obviously no reason to try these other checks right? But I think the monitoring_host wastes its cycles still trying them (based on the "Last Check" time)<br>

</blockquote><div><br>I use ping as both a service check and a host check because i want to ping all of the time to measure latency, etc. I wouldn't think so much about eliminating service checks that aren't directly redundant as much as making sure the checks you do are as fast as possible.<br>
<br>Specifically, look for any service check that takes longer than a second. Also make sure your timeouts are set low as this can easily be a source for high load averages - e.g. if you consider 500ms latency on the ping service to be critical then why not set your timeout value to one or two seconds instead of 10 (which is the default for check_ping). That single change for check_ping made a huge difference for me and that was before I started even looking at other services like my check_dell-hardware and check_hp-hardware which were awfully slow prior to rewriting them (now available on nagiosexchange.)<br>
</div></div><br clear="all"><br>-- <br>Jake Paulus<br><a href="mailto:JakePaulus@gmail.com">JakePaulus@gmail.com</a><br>